首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | 生物物理驱动的蛋白质语言模型:赋能蛋白质工程

Nat. Methods | 生物物理驱动的蛋白质语言模型:赋能蛋白质工程

作者头像
DrugAI
发布2026-01-06 12:38:32
发布2026-01-06 12:38:32
1570
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

基于进化数据训练的蛋白质语言模型已成为处理蛋白质序列、结构和功能预测问题的有力工具。然而,这些模型忽视了数十年来关于蛋白质功能的生物物理学研究。研究人员提出了一种名为 突变效应迁移学习(METL) 的框架,将先进的机器学习与生物物理建模结合。该框架在预训练阶段利用分子模拟生成的生物物理数据来捕捉序列、结构与能量学之间的基本关系,随后在实验序列-功能数据上进行微调,从而利用这些信号预测蛋白质的热稳定性、催化活性和荧光等性质。METL 在小样本训练和位置外推等具有挑战性的任务中表现突出,并能在仅使用 64 个样本的情况下设计出功能性 GFP 变体,展示了基于生物物理学的蛋白质语言模型在蛋白质工程中的潜力。

蛋白质序列可被视为一种信息丰富的语言,氨基酸的排列模式蕴含结构与功能的规律。蛋白质语言模型(PLMs)借鉴自然语言处理技术,学习序列中隐含的语义和低维表示,可广泛用于蛋白质工程。已有的 PLMs,如 UniRep 和 ESM,多在自然蛋白质大规模序列数据库上通过自监督训练获得,能隐式捕捉蛋白质的结构与功能信息。然而,它们未能充分利用生物物理学原理与分子机制,而这些是解释蛋白质功能的核心因素。研究人员因此提出 METL,以生物物理建模数据为基础,构建更贴近物理规律的蛋白质表示。

结果

使用合成数据进行预训练

深度神经网络和语言模型正在推动蛋白质建模,但在低数据或外推任务中表现有限。研究人员提出利用分子模拟生成的合成数据,补充实验数据,从而在预训练阶段灌输生物物理知识。METL 包含三个步骤:

  • 生成合成数据:利用 Rosetta 建模数百万蛋白质变体,提取溶剂化能、范德华作用、氢键等 55 个生物物理属性。
  • 预训练:用这些数据训练带有结构相对位置嵌入的 Transformer 编码器,学习序列与生物物理属性的关系。
  • 微调:在实验序列–功能数据上微调,以获得能够预测特定性质的模型。

研究人员开发了两种预训练策略:

  • METL-Local:针对特定蛋白质,在其局部序列空间生成变体并训练,得到专用表示。
  • METL-Global:在跨蛋白质折叠空间的多样序列上训练,学习通用表示。

泛化能力评估

研究人员在 11 个实验数据集上测试了 METL 的预测泛化性能,涵盖不同大小和功能的蛋白质。结果显示,METL 在小样本训练条件下优于多数基线方法,尤其在 GFP 和 GB1 数据集上表现突出。METL-Local 在突变和位置外推任务中表现强劲,说明其本地预训练赋予了全面的先验知识。

此外,在多突变组合(regime extrapolation)和评分外推(score extrapolation)任务中,METL 也展示了竞争力。特别是 METL-Local 在 GFP 变体预测中达到较高准确度,而基于进化的模型在某些场景下依然具有优势。

模拟数据与实验数据的价值

通过对比不同数量的模拟数据和实验数据,研究人员发现:增加两类数据均能提高性能,但存在边际递减效应。在某些情况下,增加数千个模拟数据点等效于增加数百个实验数据点。不同蛋白质对模拟数据的响应模式不同,较大蛋白质常出现“阈值效应”,而小型蛋白质则表现为更平滑的提升。

功能特异性模拟的改进

研究人员进一步在 GB1–IgG 复合物上生成功能特异性模拟数据,并将其纳入预训练(称为 METL-Bind)。与标准的 METL-Local 相比,METL-Bind 在有限实验数据下表现更优,特别是在界面残基预测方面。这表明引入功能特定的模拟信号能提升模型对相关功能的表征能力。

GFP 设计实验

为验证实际应用潜力,研究人员在仅 64 个 GFP 序列–功能样本上微调 METL-Local,并用于设计全新的 GFP 变体。实验表明,20 个设计中有 16 个表现出荧光活性,其中部分具有较强亮度。随机对照组几乎没有功能性变体,显示 METL 的预测不是偶然,而是来自对荧光景观的理解。

讨论

研究人员提出的 METL 框架利用大规模分子模拟作为预训练信号,为蛋白质语言模型注入生物物理知识。这与基于进化数据的传统 PLMs 形成互补:前者能捕捉蛋白质结构与能量学的基本规律,后者则反映自然选择与进化压力。尽管模拟仅是物理的近似,但它们提供了可控且可扩展的数据来源。

在实验结果中,蛋白质特异性的模型(如 METL-Local、Linear-EVE)通常优于通用模型(如 METL-Global、ESM-2)。更重要的是,通过引入功能特定模拟(如结合能量计算),METL 展现了显著提升预测性能的潜力。这为未来整合动态模拟、量子化学方法和小分子对接等更复杂建模手段提供了方向。

研究人员在 GFP 低样本设计实验中展示了 METL 在小数据和外推场景下的实用性。虽然生成的变体未超过野生型的亮度,但多数具有功能性,说明其生物物理先验可能带来了稳定性或表达量上的优势。

总体而言,METL 代表了生物物理与机器学习结合的重要进展,为理解和设计蛋白质序列–功能关系提供了新途径。随着分子建模与模拟方法的进一步发展,基于生物物理学的 PLMs 将在蛋白质工程中发挥越来越大的作用。

整理 | DrugOne团队

参考资料

Gelman, S., Johnson, B., Freschlin, C.R. et al. Biophysics-based protein language models for protein engineering. Nat Methods (2025).

https://doi.org/10.1038/s41592-025-02776-2

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档