首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Chem. | 氨基酸组成驱动的肽合成聚集机制与机器学习预测策略

Nat. Chem. | 氨基酸组成驱动的肽合成聚集机制与机器学习预测策略

作者头像
DrugAI
发布2026-03-30 18:56:15
发布2026-03-30 18:56:15
50
举报

DRUGONE

肽合成过程中发生的聚集是长期困扰化学合成领域的关键问题,会显著降低合成效率与成功率。尽管已有数据驱动方法用于解析序列相关现象,但针对固相肽合成中“非随机困难偶联”(通常与聚集相关)仍缺乏系统性预测框架。

本研究整合已有肽合成数据并结合新的实验数据,构建了一个机器学习模型,用于解析不同氨基酸在聚集中的作用。研究人员发现,相比传统的序列模式,氨基酸组成对聚集的预测能力更强。基于这一发现,提出了一种“组成向量”表示方法,从而量化每种氨基酸对聚集倾向的贡献。进一步,通过模型集成方法不仅可以预测肽的聚集行为,还可以指导聚集抑制策略的优化。该研究揭示了单个氨基酸在聚集中的具体作用,为理解与调控肽合成中的聚集问题提供了新的数据驱动框架。

肽和蛋白质在生物体系中具有广泛功能,也是重要的药物分子。然而,尽管蛋白折叠问题已通过计算方法取得重大突破,在固相肽合成条件下的折叠与聚集机制仍未被充分理解。

与天然环境相比,固相肽合成具有显著不同的物理化学条件,例如肽链固定在固相载体上、侧链保护基改变分子性质,以及非水溶剂环境等。这些因素使得肽链容易在合成过程中形成β-折叠结构并发生聚集,从而导致偶联失败、序列缺失甚至合成终止。

尽管已有研究指出某些氨基酸或序列模式与聚集相关,但仍缺乏可靠方法来预测聚集并指导合成优化。因此,研究人员尝试借助机器学习,从数据中挖掘更本质的规律。

方法

研究人员基于自动化快速流动肽合成平台(AFPS)收集的在线UV数据,构建了一个用于预测肽聚集的机器学习框架。该平台通过监测脱保护过程中的UV信号变化来反映聚集状态,其中峰形变化可作为聚集的直接指标。

在数据层面,研究整合了公开数据集与内部实验数据,共构建数百条肽序列,并将问题建模为二分类任务,即判断肽是否发生聚集。研究人员尝试了多种模型与表示方式,包括语言模型、时间序列模型以及传统机器学习方法,同时探索“整体序列预测”和“逐步合成预测”两种策略。

在进一步分析中,研究人员提出用氨基酸组成向量替代序列表示,从而捕捉聚集的核心驱动因素,并结合SHAP等方法解释各氨基酸的贡献。

图1:基于在线 UV 模块采集的分析数据支持数据驱动的合成分析方法。

结果

数据采集与聚集表征方法

研究首先建立了基于在线UV监测的聚集判定方法。脱保护峰的展宽被用作聚集的标志,并定义聚集阈值用于区分聚集与非聚集序列。该方法能够在合成过程中实时捕捉聚集发生的时刻,并与产物纯度直接相关。

模型预测性能

研究人员比较了多种模型与数据表示方式,包括深度学习模型与传统机器学习方法。结果表明,不同模型之间的预测性能差异较小,准确率均维持在相似水平。

这一现象表明,问题的关键不在于模型复杂度,而在于数据中真正决定聚集的因素。

图2:预测准确率与模型类型或数据表示方式无关。

不同模型与表示的性能比较

无论采用语言模型、时间序列方法还是传统机器学习方法,也无论输入为完整序列还是逐步序列,模型性能均较为一致。这一结果暗示,序列顺序信息可能并非决定聚集的核心因素。

氨基酸组成主导聚集

为了验证上述推测,研究人员对肽序列进行了随机打乱实验。结果显示,打乱序列顺序后模型预测性能几乎不变,说明聚集与序列顺序关系较弱。

进一步采用仅基于氨基酸组成的向量表示,模型仍能保持相似准确率。这一结果表明,氨基酸组成而非序列排列,是决定聚集的主要因素。

图3:通过计算与实验相结合研究序列打乱对聚集行为的影响。

序列打乱与组成驱动验证

实验验证进一步支持这一结论:对于已知聚集和非聚集序列,其随机打乱版本大多数仍保持原有聚集性质。同时,聚集发生的位置在不同排列中也保持一致。

这一发现从根本上挑战了传统“序列决定聚集”的观点。

单个氨基酸的贡献解析

通过SHAP分析,研究人员定量评估了不同氨基酸对聚集的贡献。结果显示,某些氨基酸(如具有脂肪族侧链的残基)显著促进聚集,而具有芳香或极性侧链的氨基酸则倾向于抑制聚集。

这一规律与分子间相互作用机制一致:非极性侧链更容易促进链间堆积,而极性或芳香结构则可能破坏有序聚集结构。

图4:对 XGBoost 分类器决策影响最大的氨基酸分析。

氨基酸对聚集贡献的可解释分析

不同氨基酸在组成比例增加时对聚集概率产生不同影响,呈现出明显的正负贡献模式,从而实现对聚集机制的可解释建模。

基于模型的合成优化策略

基于上述模型,研究人员开发了一种策略,用于指导肽合成中的抗聚集设计。该方法通过识别关键位置的高贡献氨基酸,并推荐替代或修饰方案,从而降低聚集风险。

实验验证表明,通过引入伪脯氨酸等结构修饰,可以显著降低聚集并提高产物纯度。

图5:利用 XGBoost 集成模型指导聚集抑制策略,实现更优的肽合成条件。

基于模型的聚集抑制设计

在两个测试肽中,模型推荐的修饰策略使粗产率显著提升,验证了该方法在实际合成中的应用价值。

讨论

本研究提出了一个重要的新认识:在固相肽合成中,聚集主要由氨基酸组成驱动,而非传统认为的序列顺序主导。这一发现改变了对聚集机制的理解,并解释了为什么许多基于序列模式的预测方法效果有限。

此外,该研究表明,机器学习不仅可以用于预测,还可以作为科学发现工具,揭示隐藏在复杂数据中的规律。在本工作中,组成依赖性这一关键规律正是通过数据驱动方法被识别出来。

尽管如此,聚集仍受多种因素影响,例如保护基、溶剂环境以及局部结构等。因此,未来研究需要进一步整合多尺度信息,以构建更全面的预测模型。

总体而言,该研究为肽合成优化提供了一种新的范式:从“序列设计”转向“组成调控”,并结合机器学习实现可解释、可操作的合成策略。这一思路有望显著提升复杂肽和蛋白的合成效率,并推动数据驱动化学的发展。

整理 | DrugOne团队

参考资料

  • Tamás, B., Alberts, M., Laino, T. et al. Amino acid composition drives aggregation during peptide synthesis. Nat. Chem. (2026). https://doi.org/10.1038/s41557-026-02090-0
  • Mulligan, V.K. Machine learning-based prediction of peptide aggregation during chemical synthesis. Nat. Chem. (2026). https://doi.org/10.1038/s41557-026-02119-4

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档