前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Brief. Bioinform. | 蛋白质-小分子复合物结合强度和配体结合姿态一体预测的深度学习框架

Brief. Bioinform. | 蛋白质-小分子复合物结合强度和配体结合姿态一体预测的深度学习框架

作者头像
DrugAI
发布2024-04-14 13:56:45
4170
发布2024-04-14 13:56:45
举报
文章被收录于专栏:DrugAIDrugAI

基于结构的药物设计中一项重要的任务是预测配体在靶体口袋中的结合姿态,然而当前已报道的打分函数通常受限于精度,或是局限于单一的输出,比如仅预测构象姿势的偏差(RMSD),结合强度(pKd)或是基于残基-原子间距离分布的统计势。本文介绍的是近期发表在国际知名生物信息学期刊《Briefings in Bioinformatics》上的一篇题为《A New Paradigm for Applying Deep Learning to Protein-Ligand Interaction Prediction》的研究论文。该论文提出了一种同时预测蛋白质-配体复合物结合强度及配体结合姿态偏差RMSD的打分框架IGModel。论文的第一作者是智峪生科助理研究员王泽琛(山东大学物理学院博士在读),共同通讯作者是郑良振博士(智峪生科-深圳先进院联合实验室)和李伟峰教授(山东大学物理学院)。

图 1

在合成生物学的新酶发现和酶序列优化中,了解底物和酶的结合模式以及结合强度,对于寻找高活性低Km的酶或者突变体具有重要意义。此外,在新药研发中,通过预测靶点-药物分子结合模式和结合强度,在小分子苗头化合物发现和先导化合物优化中均有重要意义。

为了更有效地评估小分子是否能够与蛋白质结合,通过分子对接来预产生蛋白质-小分子复合物的结合模式(docking poses)成为基于结构的药物筛选以及基于结构的酶发现/酶设计的核心任务。

然而,分子对接的性能极大地受制于打分函数的精度。此外,当前的打分函数通常仅包含单一的输出,主要包含以下几类:1)蛋白质-配体复合物结合亲和力,通常包括Ki, Kd或IC50的负对数;2)小分子结合姿态相对于天然构象的RMSD;3)结合自由能;4)其它数据空间的分数,比如通过预测蛋白质残基与小分子原子间的距离分布来计算距离似然势。对于一个分子对接产生的蛋白质-配体复合物,仅通过单一分数难以评估结合姿态的质量。因此,作者基于图神经网络提出了一个同时预测蛋白质-配体复合物结合强度和配体结合姿态偏差的打分函数。

方法介绍

作者使用PDBbind v2019晶体结构及分子对接产生的docking poses作为IGModel的训练集和验证集。在蛋白质-配体复合物建模方面,作者使用了两个图来表征蛋白质-配体相互作用,分别是蛋白质-配体原子交互图和残基级别的蛋白质口袋几何图。蛋白质口袋图将口袋处残基作为节点,旨在描述结合口袋的理化环境;而蛋白质-配体原子交互图则以蛋白质和配体原子为节点,保证精确地建模复合物结合模式。其中,蛋白质-配体交互图包含四个消息传递通道,分别是蛋白质-蛋白质,配体-配体,蛋白质-配体和配体-蛋白质。这两个图分别经过两个独立的EGAT layer后得到了蛋白质原子、配体原子和蛋白质口袋的特征向量,这些向量之和作为最终的蛋白质-配体复合物的潜在空间。在解码模块,通过两个解码器分别将复合物的潜在空间解码成pKd和偏差(RMSD)。

图2. IGModel框架

尽管pKd与RMSD是两个不同的量度,分别描述复合物的结合强度和配体结合姿态与天然构象的差异,但是研究者通常用一个假设来描述两者的关系:即在同一个蛋白质-配体复合物中,RMSD越小的配体结合姿态,通常具有更大的结合亲和力。基于这个假设,作者在IGModel的解码部分添加了一个由RMSD向量传入pKd向量的信息传输通道,以使模型获取到这种联系。在训练阶段,作者设计了一个全新的损失函数来保证模型同时学习到RMSD和pKd:

其中

分别是三个组分的权重;

是小分子结合姿态与靶体之间的结合强度标签,由于仅天然构象存在实验测得的pKd,作者对分子对接产生的结合构象设置了伪标签,公式如下

其中

是小分子天然构象结合在靶体时的pKd,

是docking pose的真实RMSD,W是衡量结合强度随RMSD变化的衰减因子,由神经网络预测产生,这允许神经网络自主学习pKd与RMSD的关系。

结果描述

IGModel在CASP-2016 benchmark上的表现

打分函数的评估通常包含四个指标:打分能力、排序能力、对接能力和筛选能力。然而,当前的打分函数几乎都只关注于某一两个特定的场景,很难同时保证模型在这四种指标上同时具有较高的性能。比如,早期的亲和力预测模型在预测晶体复合物亲和力时具备较高的准确性,但是在对接和筛选任务中却表现乏力;某些聚焦于分子对接和先导化合物筛选的模型或许具备优异的对接能力和筛选能力,但是其并不能用于准确的亲和力预测。在该论文中,作者首先在CASF-2016 benchmark的各项指标上对IGModel进行了评估。图3A和3B分别展示了IGModel在打分能力和排序能力上的表现,图3C和3D分别展示了打分函数在包含和排除晶体结构时对接能力的表现。可见,IGModel同时预测RMSD和pKd的模式能够使模型适用于多场景任务。

图3、IGModel在CASF-2016 benchmark上的表现

IGModel在重对接和交叉对接任务中的性能评估

重对接(redocking)和交叉对接(cross-docking)是分子对接的两个主要应用场景。为了评估IGModel的实际应用价值,作者在PDBbind-CrossDocked-Core测试集上对IGModel的对接能力做了进一步评估,其中该测试集包含三个种对接程序(Surflex, Glide和Vina)产生的docking poses。结果显示,无论是重对接或交叉对接,IGModel在三个测试子集上的性能均优于其它baseline模型。

图4、IGModel在重对接和交叉对接测试中的表现

可解释性分析

不同残基侧链中的原子,甚至是同一残基内的原子,通常显示出不同的物理化学特性,这表明诸如残基类型、元素类型、极性以及芳香性等特征对于蛋白质表征是至关重要的。这些信息会帮助模型识别重要的非键相互作用,比如氢键。作者通过集成相互作用边的注意力来表征蛋白质原子的重要性,并根据重要性对蛋白质原子进行排序,如图5A所示。结果表明,在关键的蛋白质原子中,极性原子占主导地位,暗示了它们在蛋白质-配体相互作用中极性相互作用的重要作用。此外,某些非极性原子,比如ILE-CD1和PHE-CZ,也被确定为重要贡献者,这或许是因为烷基侧链和芳香环通常参与疏水相互作用,这也为蛋白质-配体的结合提供了驱动力。图5B和5C分别展示了IGModel识别氢键相互作用和π-π堆叠相互作用的案例,再次证明了模型有能力识别关键相互作用。

图5. 蛋白质原子重要性分析

参考资料

Wang, Z., Wang, S., Li, Y., Guo, J., Wei, Y., Mu, Y., Zheng, L. and Li, W. A new paradigm for applying deep learning to protein–ligand interaction prediction. Briefings in Bioinformatics 2024, 25(3), bbae145.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档