今天为大家介绍的是来自nature communications研究蛋白质的相互作用预测的文章。本文则提出了一种全新的方法,该方法基于几何Transformer(PeSTo)和几何池化技术,能够直接处理仅标有元素名称的原子坐标,无需依赖物理化学特征的显式参数化。这一方法不仅能够有效预测蛋白质与蛋白质之间的相互作用,还能轻松拓展至预测蛋白质与其他非蛋白质物质(如核酸、脂质、配体和离子)的相互作用。此外,该模型运行速度快,且预测结果具有高置信度。
1 介绍
本文介绍了一种名为PeSTo(Protein Structure Transformer)的新方法,这是一种基于Transformer的神经网络,用于预测蛋白质与其他分子(如蛋白质、核酸、脂质、配体和离子)之间的相互作用界面。分子界面在生物学中无处不在,并且在建立细胞边界和细胞内组织中起着核心作用。特别是蛋白质,它们通过与其他蛋白质以及各种其他分子的相互作用来执行其功能。然而,预测给定蛋白质可以与哪些其他分子建立相互作用仍然是生物学中的一个主要挑战。
目前,最现代的方法用于预测蛋白质相互作用,要么是通过分析残基-残基共进化模式来预测特定的相互作用残基/原子对,这通常仅限于蛋白质-蛋白质相互作用;要么只预测蛋白质中哪些区域容易发生相互作用。尽管这些方法在某些方面取得了进展,但它们仍然存在一些局限性,例如计算耗时、依赖于3D结构的细节和错误敏感性,以及在浅层序列比对时表现不佳等问题。
PeSTo通过引入一种旋转等变的基于Transformer的神经网络,直接作用于蛋白质原子,以高置信度预测相互作用界面,而无需对系统的物理特性进行参数化。这种方法不仅运行速度快,能够处理大规模的结构数据集,如分子动力学模拟轨迹和整个折叠组,而且具有通用性,可以预测蛋白质与其他类型分子(如核酸、脂质、配体和离子)的相互作用。
PeSTo在预测蛋白质-蛋白质相互作用界面上的表现优于现有的方法。此外,由于该方法不依赖于任何显式的物理化学特征参数化,因此训练以预测其他类型的结合界面也很简单。PeSTo不仅提供了独立代码,还实现了一个用户友好的网络服务器,便于研究人员使用。
PeSTo的开发为研究蛋白质相互作用提供了一个强大的工具,有助于深入理解蛋白质的功能和相互作用机制。它不仅能够提高预测的准确性和速度,还能应用于大规模的结构数据分析,从而推动生物医学研究的发展。通过PeSTo,研究人员可以更有效地发现隐秘的相互作用界面,并对人类界面组进行详细分析,这对于药物设计、疾病机制研究等领域具有重要意义。
PeSTo模型的框架如下:
输入数据编码:蛋白质结构被表示为以原子位置为中心的点云,通过成对距离和相对位移向量来描述其几何形状,从而保证平移不变性。每个原子仅用其元素名称和坐标来描述,不涉及质量、半径、电荷或疏水性等数值参数。每个原子都与一个标量状态(q)和一个向量状态(p)相关联,这些状态编码了结构的属性。
相互作用编码:定义了一个几何Transformer操作,该操作利用局部邻域中的状态和几何形状来更新这些状态。所有最近邻原子之间的相互作用通过几何形状(即距离和位移向量)以及所涉及的一对原子的状态来编码。
架构设计:为了在更广泛的范围内有效传播信息,架构采用了一种自下而上的策略,依次部署了四组几何Transformer,每组包含八个单元。随着这些组的逐步应用,最近邻的数量从最初的八个逐渐增加到六十四个,从而扩展了上下文范围。这种分层次的设计不仅增强了模型的信息捕捉能力,还保持了较低的计算需求和内存占用。
几何池化:经过几何Transformer的更新处理后,原子状态p和q的结构信息得到了显著增强与精炼。系统采用了基于注意力权重的几何池化技术,选择性地保留那些对整体结构或功能至关重要的原子或原子团(即残基)。每个残基代表了原始原子状态的一个简化而富有信息量的表示,从而极大地降低了数据维度,同时保留了关键的几何结构特征。
最终预测:在几何池化之后,剩余的残基状态被进一步合并与整合。最终,经过精心构建的残基级别表示被用于聚合几何描述,并预测相互作用界面。
几何转换器算法伪代码:
几何转换器结构如下图:
为了保持向量状态的旋转等变性,几何Transformer的注意力机制通过线性组合来自局部几何结构和局部状态向量的缩放向量来实现。每个几何Transformer由五个三层神经网络组成,这五个多层感知器(MLP)分别是节点查询模型(fnqm)、编码标量键模型(feqkm)、编码向量键模型(fepkm)、编码值模型(fevm)以及标量状态投影模型(fqpm)。每个MLP都包含输入层、隐藏层和输出层。
在模型的具体实现过程中,首先从中心原子及其邻居原子的特征向量中提取出节点特征Xn和边特征Xe。中心节点特征通过节点查询模型(fnqm)生成查询Qq和Qp。边节点特征则通过编码标量键模型(feqkm)和编码向量键模型(fepkm)生成键Kq和Kp以及值Vq和Vp。
接下来,将向量轨迹值Vp投影到相对位移向量rnn上,并与向量状态p pnn 拼接起来,以创建中心原子的几何特征Xg。
然后,分别对标量轨迹和向量轨迹计算多头键、查询和值注意力操作。对于标量轨迹,使用标量状态投影模型(fqpm)来减少注意力操作的输出;对于向量轨迹,使用加权和(fppm)来保持操作的旋转等变性。
最后,将输入状态作为残差连接添加回来,生成并更新状态p和q。
这种设计不仅保证了向量状态的旋转等变性,还通过多头注意力机制有效地捕捉了局部几何结构和状态信息,从而提高了模型的性能和泛化能力。这种方法使得模型能够更好地处理复杂的蛋白质结构数据,并准确预测相互作用界面。
几何池化算法伪代码:
这个算法主要介绍了几何池化的原理。首先,经过几何Transformer更新后的中心原子的标量状态和向量状态被拼接形成节点特征Xn。通过原子到残基的映射M生成一个注意力过滤器F,这个过滤器用于调整后续注意力机制中的权重,使得节点能够根据其所属的残基来获得不同的注意力。
接下来,使用自注意力机制(fsam 函数)处理Xn,得到多头自注意力振幅Zq和Zp。这些振幅可以理解为影响权重的因素。通过加上注意力过滤器F并应用 softmax 函数,计算出标量状态注意力Aq和向量状态注意力Ap。
最后,将Aq与标量状态q通过 fqrpm 函数计算聚合后的残基级别特征qr;将Ap与向量状态p通过位置特征的投影函数 Wprpm 计算聚合后的残基级别几何特征pr。
这种几何池化方法不仅保留了关键的几何结构特征,还有效地降低了数据维度,同时保持了对整体结构和功能至关重要的信息。这种方法使得模型能够更好地处理复杂的蛋白质结构数据,并准确预测相互作用界面。
3.1 数据集
将PDB数据集划分为70%训练集、15%验证集和15%测试集,确保模型充分学习和有效评估。测试集融合了MaSIF-site、PPDB5、ScanNet15多个基准数据集的特定结构及共同子集,全面验证模型预测能力。
数据预处理阶段,所有结构被加载为单个结构,通过模型标识符标记链名以区分亚基,并特别标记非聚合物化学分子链,同时移除冗余信息如重复分子、离子及水/氢原子,降低数据复杂性。
特征提取方面,从交互类型矩阵中选择了界面目标,并确定PDB中30种常见原子元素为唯一特征,采用独热编码处理,提升模型处理能力。
3.2 基准测试
下图直观地展示了PeSTo与ScanNet在运行时间上的对比情况。结果显示,PeSTo与未使用多重序列比对(MSA)的ScanNet在CPU上的平均运行时间大致相当。然而,当ScanNet使用MSA时,其运行时间明显延长,比PeSTo慢了两个数量级。由此可以得出,PeSTo模型由于参数相对较少,因此运行速度非常快,展现出了较高的计算效率。
下表针对所有四种不同的截断标准(包括至少70%的序列标识、同源性、拓扑以及无特定标准)进行了深入的对比分析。无论ScanNet是否使用了多重序列比对(MSA),PeSTo均展现出了更高的优越性。
下图则展示了PeSTo与其他蛋白质-蛋白质界面预测方法的比较结果,可知,在没有MSA支持的情况下,PeSTo的表现优于ScanNet。此外,与其他参与基准测试的方法相比,PeSTo预测的界面的AUC也更高,充分证明了其出色的预测能力。
下图将PeSTo预测的蛋白-蛋白界面与AlphaFold-multimer的预测结果进行了全面比较。结果显示,PeSTo的性能几乎与AlphaFold-multimer不相上下,展现出了同样出色的预测能力。更为显著的是,PeSTo在运行速度上更具优势,且无需承担计算多序列比对的额外成本,从而实现了更高效、更经济的预测过程。
3.3 分子动力学模拟
在涉及结合结构、非结合结构以及分子动力学(MD)模拟采样构象的实验中,模型在预测结合与未结合构象时的表现几乎同样出色,且对于绝大多数结构和MD采样的构象,其AUC均超过了80%,展现了模型的高准确性,如下图。
通过使用PeSTo处理未结合蛋白质(包括非结合配体和非结合受体)的MD轨迹,我们发现相较于直接在起始静态结构上运行PeSTo,该方法能更有效地识别出某些界面。如下图所展示,在由40个组成亚基和相对界面构成的20个复合物实验中,当PeSTo应用于未结合蛋白质的实验结构时,模型成功实现了16个界面的完美预测,结合界面的完全恢复率高达80%,充分证明了该方法的有效性。
3.4 非蛋白质结合界面
由下图可知,PeSTo模型不仅能够预测蛋白质与蛋白质之间的相互作用界面,还能预测与核酸、离子、配体和脂质的相互作用界面。测试结果显示,该模型在检测核酸、离子、配体和脂质界面方面均表现出较高的AUC值。然而,值得注意的是,对于脂质界面的相互作用预测,其表现相对较差,这主要是由于目前PDB数据库中可用的蛋白质-脂质复合物数量极为有限(仅占可利用数据的0.7%)。
PeSTo模型基于创新的几何Transformer结构设计,通过引入基于注意力的几何池化机制,有效简化了残基表示,旨在在残基级别上精准聚合几何描述,从而准确预测相互作用界面。该模型不仅局限于蛋白质-蛋白质相互作用的预测,还成功扩展为通用模型,能够广泛预测蛋白质与其他生物分子(包括核酸、离子、配体和脂质)之间的相互作用界面。实验验证显示,在与MaSIF-site和ScanNet等先进算法的比较中,PeSTo模型展现了卓越的性能,特别是在处理分子动力学(MD)模拟轨迹中的未结合蛋白质时,PeSTo能够成功识别出某些界面,其预测能力显著优于静态结构分析。此外,在与AlphaFold-multimer的比较中,PeSTo在预测蛋白质二聚体界面方面也表现出色。PeSTo模型具有参数精简、结构通用的特点,这使得模型易于升级和调整,以适应不同的训练数据和特定应用场景。同时,模型运行时间极短,能够在极短时间内完成对大型结构集合的评估,非常适合大规模数据分析任务。