
DRUGONE
基于进化数据训练的蛋白质语言模型已成为处理蛋白质序列、结构和功能预测问题的有力工具。然而,这些模型忽视了数十年来关于蛋白质功能的生物物理学研究。研究人员提出了一种名为 突变效应迁移学习(METL) 的框架,将先进的机器学习与生物物理建模结合。该框架在预训练阶段利用分子模拟生成的生物物理数据来捕捉序列、结构与能量学之间的基本关系,随后在实验序列-功能数据上进行微调,从而利用这些信号预测蛋白质的热稳定性、催化活性和荧光等性质。METL 在小样本训练和位置外推等具有挑战性的任务中表现突出,并能在仅使用 64 个样本的情况下设计出功能性 GFP 变体,展示了基于生物物理学的蛋白质语言模型在蛋白质工程中的潜力。

蛋白质序列可被视为一种信息丰富的语言,氨基酸的排列模式蕴含结构与功能的规律。蛋白质语言模型(PLMs)借鉴自然语言处理技术,学习序列中隐含的语义和低维表示,可广泛用于蛋白质工程。已有的 PLMs,如 UniRep 和 ESM,多在自然蛋白质大规模序列数据库上通过自监督训练获得,能隐式捕捉蛋白质的结构与功能信息。然而,它们未能充分利用生物物理学原理与分子机制,而这些是解释蛋白质功能的核心因素。研究人员因此提出 METL,以生物物理建模数据为基础,构建更贴近物理规律的蛋白质表示。
结果
使用合成数据进行预训练
深度神经网络和语言模型正在推动蛋白质建模,但在低数据或外推任务中表现有限。研究人员提出利用分子模拟生成的合成数据,补充实验数据,从而在预训练阶段灌输生物物理知识。METL 包含三个步骤:
研究人员开发了两种预训练策略:

泛化能力评估
研究人员在 11 个实验数据集上测试了 METL 的预测泛化性能,涵盖不同大小和功能的蛋白质。结果显示,METL 在小样本训练条件下优于多数基线方法,尤其在 GFP 和 GB1 数据集上表现突出。METL-Local 在突变和位置外推任务中表现强劲,说明其本地预训练赋予了全面的先验知识。

此外,在多突变组合(regime extrapolation)和评分外推(score extrapolation)任务中,METL 也展示了竞争力。特别是 METL-Local 在 GFP 变体预测中达到较高准确度,而基于进化的模型在某些场景下依然具有优势。

模拟数据与实验数据的价值
通过对比不同数量的模拟数据和实验数据,研究人员发现:增加两类数据均能提高性能,但存在边际递减效应。在某些情况下,增加数千个模拟数据点等效于增加数百个实验数据点。不同蛋白质对模拟数据的响应模式不同,较大蛋白质常出现“阈值效应”,而小型蛋白质则表现为更平滑的提升。

功能特异性模拟的改进
研究人员进一步在 GB1–IgG 复合物上生成功能特异性模拟数据,并将其纳入预训练(称为 METL-Bind)。与标准的 METL-Local 相比,METL-Bind 在有限实验数据下表现更优,特别是在界面残基预测方面。这表明引入功能特定的模拟信号能提升模型对相关功能的表征能力。

GFP 设计实验
为验证实际应用潜力,研究人员在仅 64 个 GFP 序列–功能样本上微调 METL-Local,并用于设计全新的 GFP 变体。实验表明,20 个设计中有 16 个表现出荧光活性,其中部分具有较强亮度。随机对照组几乎没有功能性变体,显示 METL 的预测不是偶然,而是来自对荧光景观的理解。

讨论
研究人员提出的 METL 框架利用大规模分子模拟作为预训练信号,为蛋白质语言模型注入生物物理知识。这与基于进化数据的传统 PLMs 形成互补:前者能捕捉蛋白质结构与能量学的基本规律,后者则反映自然选择与进化压力。尽管模拟仅是物理的近似,但它们提供了可控且可扩展的数据来源。
在实验结果中,蛋白质特异性的模型(如 METL-Local、Linear-EVE)通常优于通用模型(如 METL-Global、ESM-2)。更重要的是,通过引入功能特定模拟(如结合能量计算),METL 展现了显著提升预测性能的潜力。这为未来整合动态模拟、量子化学方法和小分子对接等更复杂建模手段提供了方向。
研究人员在 GFP 低样本设计实验中展示了 METL 在小数据和外推场景下的实用性。虽然生成的变体未超过野生型的亮度,但多数具有功能性,说明其生物物理先验可能带来了稳定性或表达量上的优势。
总体而言,METL 代表了生物物理与机器学习结合的重要进展,为理解和设计蛋白质序列–功能关系提供了新途径。随着分子建模与模拟方法的进一步发展,基于生物物理学的 PLMs 将在蛋白质工程中发挥越来越大的作用。
整理 | DrugOne团队
参考资料
Gelman, S., Johnson, B., Freschlin, C.R. et al. Biophysics-based protein language models for protein engineering. Nat Methods (2025).
https://doi.org/10.1038/s41592-025-02776-2
内容为【DrugOne】公众号原创|转载请注明来源