
DRUGONE
肽合成过程中发生的聚集是长期困扰化学合成领域的关键问题,会显著降低合成效率与成功率。尽管已有数据驱动方法用于解析序列相关现象,但针对固相肽合成中“非随机困难偶联”(通常与聚集相关)仍缺乏系统性预测框架。
本研究整合已有肽合成数据并结合新的实验数据,构建了一个机器学习模型,用于解析不同氨基酸在聚集中的作用。研究人员发现,相比传统的序列模式,氨基酸组成对聚集的预测能力更强。基于这一发现,提出了一种“组成向量”表示方法,从而量化每种氨基酸对聚集倾向的贡献。进一步,通过模型集成方法不仅可以预测肽的聚集行为,还可以指导聚集抑制策略的优化。该研究揭示了单个氨基酸在聚集中的具体作用,为理解与调控肽合成中的聚集问题提供了新的数据驱动框架。

肽和蛋白质在生物体系中具有广泛功能,也是重要的药物分子。然而,尽管蛋白折叠问题已通过计算方法取得重大突破,在固相肽合成条件下的折叠与聚集机制仍未被充分理解。
与天然环境相比,固相肽合成具有显著不同的物理化学条件,例如肽链固定在固相载体上、侧链保护基改变分子性质,以及非水溶剂环境等。这些因素使得肽链容易在合成过程中形成β-折叠结构并发生聚集,从而导致偶联失败、序列缺失甚至合成终止。
尽管已有研究指出某些氨基酸或序列模式与聚集相关,但仍缺乏可靠方法来预测聚集并指导合成优化。因此,研究人员尝试借助机器学习,从数据中挖掘更本质的规律。
方法
研究人员基于自动化快速流动肽合成平台(AFPS)收集的在线UV数据,构建了一个用于预测肽聚集的机器学习框架。该平台通过监测脱保护过程中的UV信号变化来反映聚集状态,其中峰形变化可作为聚集的直接指标。
在数据层面,研究整合了公开数据集与内部实验数据,共构建数百条肽序列,并将问题建模为二分类任务,即判断肽是否发生聚集。研究人员尝试了多种模型与表示方式,包括语言模型、时间序列模型以及传统机器学习方法,同时探索“整体序列预测”和“逐步合成预测”两种策略。
在进一步分析中,研究人员提出用氨基酸组成向量替代序列表示,从而捕捉聚集的核心驱动因素,并结合SHAP等方法解释各氨基酸的贡献。

图1:基于在线 UV 模块采集的分析数据支持数据驱动的合成分析方法。
结果
数据采集与聚集表征方法
研究首先建立了基于在线UV监测的聚集判定方法。脱保护峰的展宽被用作聚集的标志,并定义聚集阈值用于区分聚集与非聚集序列。该方法能够在合成过程中实时捕捉聚集发生的时刻,并与产物纯度直接相关。
模型预测性能
研究人员比较了多种模型与数据表示方式,包括深度学习模型与传统机器学习方法。结果表明,不同模型之间的预测性能差异较小,准确率均维持在相似水平。
这一现象表明,问题的关键不在于模型复杂度,而在于数据中真正决定聚集的因素。

图2:预测准确率与模型类型或数据表示方式无关。
不同模型与表示的性能比较
无论采用语言模型、时间序列方法还是传统机器学习方法,也无论输入为完整序列还是逐步序列,模型性能均较为一致。这一结果暗示,序列顺序信息可能并非决定聚集的核心因素。
氨基酸组成主导聚集
为了验证上述推测,研究人员对肽序列进行了随机打乱实验。结果显示,打乱序列顺序后模型预测性能几乎不变,说明聚集与序列顺序关系较弱。
进一步采用仅基于氨基酸组成的向量表示,模型仍能保持相似准确率。这一结果表明,氨基酸组成而非序列排列,是决定聚集的主要因素。

图3:通过计算与实验相结合研究序列打乱对聚集行为的影响。
序列打乱与组成驱动验证
实验验证进一步支持这一结论:对于已知聚集和非聚集序列,其随机打乱版本大多数仍保持原有聚集性质。同时,聚集发生的位置在不同排列中也保持一致。
这一发现从根本上挑战了传统“序列决定聚集”的观点。
单个氨基酸的贡献解析
通过SHAP分析,研究人员定量评估了不同氨基酸对聚集的贡献。结果显示,某些氨基酸(如具有脂肪族侧链的残基)显著促进聚集,而具有芳香或极性侧链的氨基酸则倾向于抑制聚集。
这一规律与分子间相互作用机制一致:非极性侧链更容易促进链间堆积,而极性或芳香结构则可能破坏有序聚集结构。

图4:对 XGBoost 分类器决策影响最大的氨基酸分析。
氨基酸对聚集贡献的可解释分析
不同氨基酸在组成比例增加时对聚集概率产生不同影响,呈现出明显的正负贡献模式,从而实现对聚集机制的可解释建模。
基于模型的合成优化策略
基于上述模型,研究人员开发了一种策略,用于指导肽合成中的抗聚集设计。该方法通过识别关键位置的高贡献氨基酸,并推荐替代或修饰方案,从而降低聚集风险。
实验验证表明,通过引入伪脯氨酸等结构修饰,可以显著降低聚集并提高产物纯度。

图5:利用 XGBoost 集成模型指导聚集抑制策略,实现更优的肽合成条件。
基于模型的聚集抑制设计
在两个测试肽中,模型推荐的修饰策略使粗产率显著提升,验证了该方法在实际合成中的应用价值。
讨论
本研究提出了一个重要的新认识:在固相肽合成中,聚集主要由氨基酸组成驱动,而非传统认为的序列顺序主导。这一发现改变了对聚集机制的理解,并解释了为什么许多基于序列模式的预测方法效果有限。
此外,该研究表明,机器学习不仅可以用于预测,还可以作为科学发现工具,揭示隐藏在复杂数据中的规律。在本工作中,组成依赖性这一关键规律正是通过数据驱动方法被识别出来。
尽管如此,聚集仍受多种因素影响,例如保护基、溶剂环境以及局部结构等。因此,未来研究需要进一步整合多尺度信息,以构建更全面的预测模型。
总体而言,该研究为肽合成优化提供了一种新的范式:从“序列设计”转向“组成调控”,并结合机器学习实现可解释、可操作的合成策略。这一思路有望显著提升复杂肽和蛋白的合成效率,并推动数据驱动化学的发展。
整理 | DrugOne团队
参考资料

内容为【DrugOne】公众号原创|转载请注明来源