首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测

慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测

作者头像
智药邦
发布2024-12-31 13:28:05
发布2024-12-31 13:28:05
3460
举报
文章被收录于专栏:智药邦智药邦

预测变异效应对蛋白质稳定性和功能的影响,对于理解蛋白质的功能机制至关重要。然而,蛋白质变异效应的分析需要对海量数据进行处理,特别是需要评估几乎所有可能的单氨基酸取代的影响,来深入表征蛋白质突变的影响。利用机器学习模型可以帮助研究者深入了解蛋白质变异效应,并为进一步的实验验证确定优先级。近年来,蛋白质语言模型在蛋白质结构和功能预测的多个任务中表现优秀,将蛋白质语言模型应用到蛋白质变异效应预测中,有望进一步提升预测准确度。

2024年11月22日,德国慕尼黑工业大学Celine Marquet等人在Bioinformatics上发表文章Expert-guided protein language models enable accurate and blazingly fast fitness prediction。

作者提出了VespaG(Variant Effect Score Prediction without Alignments enabled by GEMME,非比对的基于GEMME的变异效应分数预测)。GEMME是一个基于多序列比对的蛋白质变异效应预测模型,作者将GEMME作为专家模型,引导一个新的蛋白质语言模型的训练,使得这个新的语言模型能够准确预测蛋白质变异效应。实验表明,VespaG的性能超越了现有方法。

如图1所示,作者使用GEMME作为专家知识,直接将蛋白质语言模型嵌入映射到完整的突变图(mutational landscape)。为此,作者在预训练的蛋白质语言模型上训练了一个相对较浅的神经网络来学习GEMME预测的进化分数(evolutionary score)。作者通过ColabFold中的MMseqs2生成数百万个训练样本,用于GEMME搜索和比对序列。VespaG以预训练的蛋白质语言模型ESM-2计算的具有30亿个参数的蛋白质中残基的2560维向量表示作为唯一输入,并输出预测突变结果估计的20维向量。训练损失衡量的是预测估计值与GEMME计算的进化分数之间的均方误差。在神经网络训练过程中,通过最小化均方误差,VespaG在推理阶段不需要再使用比对。

图1 VespaG结构图

ESM-2与其上一代的版本ESM-1b相似,都是一个基于BERT架构的蛋白质语言模型,该模型使用掩码语言建模作为预训练任务。与ESM-1b相比,ESM-2使用了旋转位置编码,使得BERT中的注意力机制能够感知到蛋白质序列不同令牌(token)的相对位置信息,提高语言模型的泛化性能,增强模型在处理长度差别较大的序列时的鲁棒性。另一方面,ColabFold基于AlphaFold2模型,为用户提供了一个更加易用的界面来预测蛋白质结构。为了使模型更易于在本地计算机上运行,ColabFold使用MMsqs2来加速多序列比对。因此,作者使用ColabFold中的MMseqs2生成多序列比对的标签。

作者使用以下架构来构建VespaG的预测器网络,即依次串联:(1)线性回归,即没有任何隐藏层的前馈神经网络(FNN),称为LinReg;(2)具有一个密集隐藏层的FNN,称为VespaG;(3)具有两层隐藏层的FNN,称为FNN_2_layer;(4)卷积神经网络(CNN),具有一个一维卷积和两个隐藏致密层,简称CNN;(5)分别优化的FNN和CNN的集合(每个体系结构的最佳独立模型具有相同的体系结构),输出为两个网络的平均值。输出层未使用激活函数。为了简化分数的可解释性,用户可以选择将原始VespaG分数标准化到[0,1]区间,其中接近1的值表示变异效应更高。

实验在ProteinGym数据集上进行,该数据集包含217个样本的实验结果。这217个样本有两种不同的划分方法。一种方法是按照蛋白质的来源划分,包含189个来自细胞生物(原核生物或真核生物)的蛋白质,和28个来自病毒的蛋白质,分别记作PGOrganismal189和PGViral28。另一种方法是按照不同的实验类型来划分,包括活性实验43个,变异实验77个,稳定性实验66个,对接实验13个,表达实验18个,分别记作PGActivity43, PGFitness77, PGStability66,PGBinding13, PGExpression18。

作者将VespaG与一些具有代表性的方法进行了比较,比较预测的变异效应分数和实际的变异效应分数的Spearman相关系数。结果如图2所示。在数据集中占比大多数的PGOrganismal189中,VespaG的相关系数仅次于SaProt,但在PGViral28中,VespaG的性能显著优于SaProt,而与相关系数最高的GEMME差别不大。这表明VespaG能够兼顾不同类型样本的预测准确度,具有较高的鲁棒性。在PGActivity43, PGFitness77, PGStability66,PGBinding13, PGExpression18中,VespaG在不同情况下都具有较高的预测相关性,而其他方法都只在某个特定的任务上表现较好。

基于蛋白质语言模型的学生VespaG总体上比基于多序列比对的教师GEMME表现更好,更一致。然而,蛋白质语言模型表示空间中的偏差可能导致对某些蛋白质家族的预测不佳,例如预测病毒蛋白的准确性较低。GEMME的加入在一定程度上增强了蛋白质语言模型预测病毒蛋白的性能,使得VespaG的性能超越了两种语言模型ESM-2和SaProt。尽管保持了很高的准确性,但病毒蛋白的GEMME进化评分的分辨率还是低于细胞生物的蛋白,可能反映了相关输入多序列比对的相对较低的可变性。

图2 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。如图3所示,作者对比了使用完整的VespaG预测器与仅使用其中某一个部分(LinReg, FNN, CNN)的验证损失函数。使用VespaG具有更小的损失函数,表明模型结构设计的合理性。作者还使用另一个蛋白质语言模型ProtT5来替换ESM-2。ProtT5是基于T5(text-to-text transfer Transformer)的蛋白质语言模型,它将蛋白质序列任务转化为文本到文本的生成任务进行建模。ESM-2在不同结构上的损失函数都低于ProtT5,表明ESM-2的BERT架构和旋转位置编码能够更好地建模蛋白质序列中隐含的变异效应信息。

图3 消融实验

作者还进行了案例分析。如图4所示,对于酵母泛素(RL401A_YEAST),作者比较了实验测量值(左图,标记为Exp.),通过将每个残基的突变敏感性映射到AlphaFold2预测的3D结构上进行预测(使用AF-P0CH08-F1-model_v4模型预测残基2-76),估计残基对突变的敏感程度为其在19个可能的替换(即该氨基酸残基可能被替换为其他19中氨基酸对应的残基)中的平均预测或测量效应的等级。越红越敏感。作者标注了六个残基(由一个字母的氨基酸编码标记,然后是序列中的位置,例如,G76: 甘氨酸在76号位置),VespaG与实验一致,而GEMME与实验结果区别较大。实验值反映了VespaG对变异效应的精准预测,表明VespaG在泛素等不遵循进化保护和突变结果之间的一般趋势的情况下,相对GEMME得到了改进。

图4 案例分析

本文提出了VespaG,通过蛋白质语言模型学习专家方法预测的进化分数的简单映射函数,探索了蛋白质语言模型建模变异效应的可能性,其性能超过了现有的方法。这证明,即使是VespaG所采用的相对较浅的神经网络,也可以有效地利用GEMME等专家方法编码的知识。将GEMME-VespaG的融合看做一个学生-教师模型,其中,学生模型(VespaG)和教师模型(GEMME)之间的一个根本区别是它使用了通用的蛋白质表示空间。更具体地说,VespaG可以通过在蛋白质家族的天然蛋白质序列的巨大多样性上预先训练的蛋白质语言模型生成的表示,来将蛋白质相互关联。这一特性允许VespaG在不考虑任何特定输入生成或训练模式的情况下,泛化不同生物体上多样的蛋白质。VespaG的学生-教师设置很容易适应新的蛋白质语言模型输入和其他功能的预测。

VespaG预测病毒蛋白的准确性较低,是由于病毒蛋白在蛋白质的训练中代表性过低,也就是病毒蛋白数量相对较少,多样性较低,使得蛋白质语言模型可能难以捕捉病毒蛋白进化的固有特性。因此,未来的工作首先可在进一步提高病毒蛋白预测准确性上展开。与其他分类群相比,结构和功能相关的进化限制预计会通过病毒蛋白序列的较小差异表现出来,因此需要对这些序列进行特殊处理以提取共变异。蛋白质语言模型的未来改进可能是开发针对病毒的微调步骤。此外,未来的努力可能会致力于在蛋白质语言模型表示空间中更明确地编码进化语义,例如,通过利用GEMME中间结果(进化距离),在这个空间中对自然序列的进化史进行建模和追踪,可以提供精确定位功能获得突变的关键,并将它们与功能丧失突变区分开来,这是该领域目前面临的一个主要挑战。未来改进的另一个方向是,除了使用序列特征之外,还实验蛋白质3D结构的信息来进行预测。

参考文献:

Marquet et al. Expert-guided protein language models enable accurate and blazingly fast fitness prediction. Bioinformatics. 2024

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档