
DRUGAI
今天为大家介绍的是来自哥本哈根大学Amelie Stein与Kresten Lindorff-Larsen团队的一篇论文。预测氨基酸变化如何影响蛋白质的能力在许多领域都有广泛的应用,包括疾病变异分类和蛋白质工程。许多现有方法侧重于从蛋白质序列或结构中发现的模式中学习。而作者提出了一种将序列和结构信息整合到单一模型中的方法,称为SSEmb(Sequence Structure Embedding)。SSEmb结合了蛋白质结构的图表示和用于处理多序列比对(MSA)的Transformer模型。作者展示了通过整合这两种信息类型,能够获得一个在序列信息稀缺情况下仍然具有鲁棒性的变异效应预测模型。同时,作者还发现SSEmb能够学习序列和结构的嵌入,这些嵌入在其他下游任务中同样具有实用性,例如预测蛋白质-蛋白质结合位点。作者设想,SSEmb不仅可以应用于变异效应预测,还可以作为学习依赖于序列和结构的蛋白质属性预测的表示形式。

氨基酸序列的微小变化会显著影响蛋白质的结构、稳定性和功能,这是理解进化机制和疾病的重要基础。同时,通过操控序列来优化功能是蛋白质工程的核心。随着DNA测序成本的下降,高通量实验(如多变异效应测定MAVE)已能大规模生成数据,揭示蛋白质序列与功能的关系。尽管MAVE可以全面描述这种关系,但实验成本高且耗时,无法覆盖所有变异组合。而基于机器学习的计算方法能够以低成本预测未测定的变异效应,为序列-功能关系研究提供补充。
传统监督学习算法需要输入与目标的映射关系,但其预测结果可能受实验差异影响而不准确。相比之下,自监督学习仅需大量输入数据即可有效预测复杂的变异效应。多数自监督模型依赖单一数据类型(如序列、MSA或结构),但最新研究表明,结合多种数据类型的模型能学习更丰富的表征。SSEmb模型结合多序列比对(MSA)和三维结构,通过整合两种信息类型生成稳健的预测,特别在MSA深度不足时表现优异。模型基于MSA Transformer,加入结构约束,并结合图神经网络(GNN),实现端到端训练。实验表明,SSEmb不仅能准确预测变异效应,还能用于下游任务(如蛋白质-蛋白质结合位点预测),其效果可与专用方法媲美。
模型部分

图 1
如图1所示,SSEmb模型结合了多序列比对(MSA)和蛋白质结构信息,并通过自监督方式进行训练。蛋白质结构数据来源于CATH 4.2数据库,其中包含18,204个经过非冗余处理的蛋白质。每个结构对应生成了一个MSA。训练前,作者通过序列相似性(95%)筛除与验证集和测试集重复的蛋白质。在训练过程中,SSEmb随机屏蔽序列中的部分氨基酸位置,并通过预测这些屏蔽位置的氨基酸类型进行优化。模型引入结构约束,仅允许MSA Transformer关注三维结构中空间接近的残基,同时将提取的最后一层MSA嵌入与结构信息结合,作为输入节点传递给图神经网络(GNN)。其中,MSA Transformer使用预训练权重初始化,而GNN从零开始训练,架构类似于几何向量感知器(GVP)模型。
实验结果
在训练中,SSEmb模型通过10个多变异效应测定实验(MAVE)的数据验证单一氨基酸替换效应的预测能力。验证集设计基于以下三点:包含蛋白质活性和丰度实验(以活性为主),涵盖不同难度的实验类型,以及数据集紧凑但反馈有效。
表 1

如表1所示,SSEmb与GEMME(基于MSA的进化模型)和Rosetta(基于结构的稳定性预测工具)进行了对比。在活性预测上与GEMME表现相当,但在丰度预测中表现更优,说明结构信息的引入提升了预测效果。总体上,SSEmb在活性和丰度效应的相关性上均表现出较高的准确性。
在ProteinGym基准测试中,SSEmb模型被用于预测变异效应。ProteinGym包含87个数据集,涉及72种蛋白质,其中76个为单一替换效应,11个为多替换效应。测试时,排除了SSEmb验证集中使用的9个MAVE数据集,并对单个UniProt ID下的多项实验结果取均值,减少测量偏差。

图 2
如图2所示,SSEmb模型相比原始MSA Transformer模型表现更优(平均相关性提升至0.45 vs. 0.43),在低MSA深度的蛋白质上的表现尤为突出(0.45 vs. 0.39)。此外,通过比较实验结构与AlphaFold预测结构的结果,发现SSEmb对蛋白质结构质量具有鲁棒性,性能与输入结构的TM分数相关性较弱。这可能归因于模型对蛋白质主链的表示方式以及MSA提供的补充信息。SSEmb模型被用于零样本蛋白质稳定性预测,并在大规模稳定性测量中获得了Spearman相关系数0.61,与专用稳定性预测方法相当。该结果表明,SSEmb在此任务中表现良好,未来通过监督学习可能进一步提升准确性。
表 3

由于蛋白质功能和稳定性的丧失与致病性变异密切相关,SSEmb在预测变异效应的同时也能用于零样本变异致病性预测。在含有临床注释的大规模变异数据集中,SSEmb与其他预测方法相比整体表现较好(表3),但MAVEs效应预测和致病性分类在任务性质上有所差异。
表 4

SSEmb的嵌入包含结构和序列信息,有助于识别结合位点。通过训练一个下游模型,利用SSEmb嵌入预测蛋白质结合位点(PPI),结果显示其性能介于专用模型ScanNet和基线模型之间(表4)。这验证了SSEmb嵌入在结合位点预测及其他下游任务中的潜力。
消融研究分析了SSEmb设计中的关键组件对性能的影响,包括:(i) MSA Transformer后的GVP-GNN模块,(ii) 基于结构的行注意力屏蔽,以及(iii) MSA Transformer的列屏蔽微调。结果显示,结构屏蔽和列屏蔽降低了模型对MSA深度的敏感性。尽管没有结构组件的微调模型整体表现最好,但在低MSA深度下准确性较低。此外,完整消融的SSEmb模型仍优于原始MSA Transformer模型,这归因于其改进的MSA生成协议和子样本集成策略。
SSEmb通过结合结构信息增强蛋白语言模型,包括结构约束的MSA Transformer和处理序列与结构信息的GVP-GNN。尽管展示了多任务的准确性提升,但模型仍存在局限:
总体而言,SSEmb在多种任务中展现了鲁棒性和实用性,但与专用模型相比,精确性尚有改进空间。
讨论
作者提出了一种将蛋白质序列、保守性和结构信息整合到单一计算模型中的方法。SSEmb通过图表示对蛋白质结构进行特征化,用于约束和整合相应MSA(多序列比对)中的信息。研究结果表明,将结构信息加入预训练的基于MSA的模型,可以显著提升模型在MSA不足或深度较浅情况下的变异效应预测能力。作者还发现,SSEmb在训练过程中学习到的嵌入信息对下游模型具有重要价值。例如,利用SSEmb嵌入作为输入,简单的下游模型即可准确预测蛋白质-蛋白质结合位点。作者期望SSEmb能够成为研究序列和结构信息整合如何改进变异效应计算预测的有力工具,同时用于揭示变异效应的机制性细节。
编译|于洲
审稿|王梓旭
参考资料
Blaabjerg L M, Jonsson N, Boomsma W, et al. SSEmb: A joint embedding of protein sequence and structure enables robust variant effect predictions[J]. Nature Communications, 2024, 15(1): 9646.