前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测

Nat. Mach. Intell. | 使用多尺度深度生成模型进行特定状态的蛋白质-配体复合体结构预测

作者头像
DrugAI
发布2024-05-22 14:33:48
发布2024-05-22 14:33:48
2060
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Animashree Anandkumar团队的一篇论文。由蛋白和小分子构成的结合复合物是普遍存在的,对生命至关重要。尽管近年来蛋白质结构预测技术有了显著进展,现有算法仍未能系统地预测配体结构及其对蛋白质折叠的调控效应。为了解决这一差异,作者提出了一种名为NeuralPLexer的计算方法,能够仅通过蛋白质序列和配体分子图直接预测蛋白质-配体复合物结构。NeuralPLexer采用深度生成模型,按原子分辨率抽样结合复合物的三维结构及其构象变化。该生成模型基于扩散过程,整合了基本的生物物理限制和多尺度几何深度学习系统,以层次化方式迭代抽样残基级接触图和所有重原子坐标。与所有现有方法相比,NeuralPLexer在蛋白质-配体盲对接(blind protein-ligand docking)和柔性结合位点结构复原(flexible binding-site structure recovery)的基准测试上实现了最先进的性能。此外,由于其在采样配体自由态和配体结合态集合方面的特异性,NeuralPLexer在全局蛋白质结构预测准确性上一致超过AlphaFold2,无论是在具有大构象变化的代表性结构对还是在最近确定的配体结合蛋白上。NeuralPLexer的预测与酶工程和药物发现中重要靶标的结构测定实验相一致,显示出其在加速设计功能性蛋白质和小分子药物的潜力,有望在蛋白组学规模上实现。

尽管深度学习计算方法(如AlaphaFold)在预测蛋白质晶体结构方面取得了显著成功,但这种单一结构的蛋白质折叠问题表述对蛋白质功能的信息还是不完整的,也不足以支持基于结构的药物设计。

尽管如此,计算模拟与受体构象发生显著变化相结合的蛋白质-配体复合体受到模拟蛋白质状态转换的缓慢和高成本的限制。近期在生成式深度学习领域的发展提供了一个替代范式,并且在理解复杂视觉和语言领域方面取得了重大进展。生成模型的两种显著策略包括:(a)自回归模型,广泛应用于基于序列过程的transformer网络,用于自然语言和基因组数据;(b)基于扩散的生成模型,利用随机过程通过从先验分布抽样并使用神经网络逐步逆转噪声过程来生成数据。多项研究已证明,深度生成模型能够生产出具有实验验证功能的全新设计的蛋白质,包括用于蛋白质序列设计的语言模型和用于蛋白质主链生成的扩散模型。其他研究显示,扩散模型在模拟超出蛋白质主链的分子结构方面十分有效,特别是在分子对接和基于结构的药物设计的背景下。然而,目前尚无研究开发出能直接在原子级分辨率下预测结合复合体结构并具有与结构测定实验相当的准确性的生成模型。

在这里,作者介绍了NeuralPLexer,这是一个计算系统,通过深度生成模型预测蛋白质-配体复合体结构,该模型融入了生物物理学的归纳偏差。所介绍的方法直接生成结合复合体的结构集合,输入为蛋白质序列和配体分子图,同时依赖于从蛋白质语言模型(PLMs)和从实验解决的同源体或计算模型检索的模板蛋白质结构中获得的辅助特征。预测流程和底层神经网络架构的设计都旨在反映生物分子复合体的多尺度层级组织。

模型部分

具体来说,NeuralPLexer模型由三部分组成:一个基于图的网络,用于将小分子和氨基酸图的原子级别化学、集合特征编码为张量表示。该网络通过一个受物理启发的网络架构实现,该网络结构在百万级别的分子信息和生物活性数据库上训练;一个接触预测模块(CPM),利用基于注意力的网络生成残基级的分子内距离分布、粗粒度接触图和相关的配对表示。这一模块受到最近视觉-语言模型和折叠预测网络的启发;一个等变结构去噪模块(ESDM),在原子尺度和残基尺度的输出基础上,使用一种结构化去噪扩散过程来生成结合复合体的原子结构,这个过程是等变的并且保持了蛋白质和配体分子的手性约束。

图 1

图1a展示了NeuralPLexer网络架构以及模型训练和推理期间的信息流。主要模型输入包括一组蛋白质氨基酸序列{s}(单链用于单体,多链用于蛋白质复合体),以及当存在结合配体(一种或多种分子)时,一组包含原子编号、键类型和立体化学标签的分子图{G}(例如,四面体或E/Z异构体)。为了实现立体特异性的分子几何表示和对长程几何相关性的明确推理,NeuralPLexer融合了两种基本的分子表示(图2a):(1)原子节点和(2)刚体节点,后者代表由相邻化学键形成的坐标frame(以下称为‘frame’),并通过一个独特的预训练编码器处理它们(方法,分子表示)。

为了进行结构预测,NeuralPLexer从基于序列和图输入{s}、{G}的生成模型中共同采样蛋白质x的3D重原子坐标和配体y的坐标。除了主要的序列和图输入外,作者还从现有的transformer蛋白质语言模型PLMs和替代实验结构或蛋白质结构预测网络中检索输入,以向生成模型提供额外的调节信号。在推理过程中,输入的蛋白质序列、检索的辅助蛋白质嵌入和分子图首先被编码并传入一个接触预测模块CPM,该模块自回归地生成接近度分布和相关的配对嵌入。然后一个等变结构去噪模块ESDM通过使用学习的随机过程去噪原子坐标来生成3D结构(见图2d)。最后,对于每一个采样的结构,每个蛋白质残基和配体原子都被分配一个预测的置信分数('pLDDT')。

图 2

为了训练NeuralPLexer,作者引入了一个名为PL2019-74k的数据集,该数据集由来自PDB的多种经实验确定的无配体蛋白质结构和蛋白质-配体复合体结构组成,并与其他公共数据集中的注释进行交叉引用,以系统地过滤实验伪影。模型训练使用的损失函数包括CPM输出的交叉熵项、用于评估全局和结合位点结构的平移-旋转不变结构去噪项,以及改善局部距离几何质量和减少结构违规的正则化项。总体而言,与最先进的结构预测网络相比,训练NeuralPLexer所需的计算资源大大减少。

两个基准测试任务性能

作者在两个基准测试任务上评估NeuralPLexer:盲蛋白质-配体对接和结合位点结构复原。

表 1

图 3

作者首先在盲蛋白质-配体对接上对该方法进行基准测试,在该测试中,给定已知真实的受体蛋白质结构作为输入,并且在没有任何结合位点约束的情况下预测配体坐标。在社区广泛认可的PDBBind2020数据集上,NeuralPLexer生成的配体姿态实现了相对于参考方法更高的几何精确度(见表1和图3a-c);在端到端结构预测上预训练模型另外提高了大约20%的成功率,基于均方根偏差(r.m.s.d.)< 2.0埃和r.m.s.d. < 5.0埃的标准,表明在蛋白质折叠预测上的学习产生了更适合识别功能性结合位点的模型表示。作者还绘制了每个目标的对接尝试次数与能够识别出成功预测的目标比例的关系(图3a,b);值得注意的是,平均有39.7%的NeuralPLexer预测的精度在r.m.s.d.为2.0埃以内,尽管每个目标只采样了一个配体姿态,与此极限下最好的竞争方法DiffDock相比,提高了78%。这一结果突出了通过接触图形式整合上下文信息以定位结构假设空间的有效性。在图3c,d中,作者发现配体的均方根偏差与模型分配的置信估计(pLDDT)在配体原子上的平均值有很好的相关性;80%的预测结构在r.m.s.d. < 2.0埃时,可以通过使用配体pLDDT对结构排名来识别,伴随着11.6%的低假阳性率。

作者接着应用NeuralPLexer通过结构修补策略(图3f,g,NeuralPLexer-inpainting)执行结合位点结构复原基准测试。在143个AF2预测的受体主链的评估数据集中,作者发现当直接与参考实验结合复合物对齐时,只有18%不与配体发生空间冲突,这表明了基于模板的配体建模在直接对AF2结构进行对接时的成功率上限。相比之下,NeuralPLexer-inpainting能够精确地将配体对接到指定位点,同时保持低冲突率和高结合口袋结构预测准确度,成功复原率高达35.8 ± 1.0%(宽松标准下达到44.7 ± 0.7%)。所有预测目标上整体的全原子结合位点精度(all-atom binding site accuracy),通过结合位点局部距离差异测试(lDDT-BS)(方法,“结构准确性指标”)来衡量。作为参考,作者使用完整的AF2结构作为输入模板进行推理(图3f,NeuralPLexer (AF2Template)),而不是使用非结合位点残基;NeuralPLexer (AF2Template)尽管在两项指标上超越了NeuralPLexer-inpainting:配体中位数rmsd约为3.34埃、平均lDDT-BS得分更高为0.82(NeuralPLexer-inpainting的r.m.s.d. = 3.51埃,lDDT-BS = 0.71),但是NeuralPLexer (AF2Template)导致了显著更高的冲突率(平均为0.22),这表明这些AF2模型对于标准的刚性蛋白质分子对接存在不足。

结构准确率阈值附近的案例蛋白6P8Y可视化预测结果

图3e展示了一个关于人类KRASG12C及其与半胱氨酸反应性共价抑制剂(PDB:6P8Y)的预测示例,其中Switch-II口袋的打开容纳了一个非常规的可药用位点。尽管AF2对这个目标的预测重现了类似原生态的闭合口袋,并且与晶体结构配体有严重的空间位阻冲突,但NeuralPLexer修补的结合位点成功预测了一个开放样式的构象,其配体均方根偏差为2.08埃。作者还将他们的定量结果与一个基准方法RosettaLigand进行了比较(图3g)。作者确认NeuralPLexer在不应用任何事后过滤的情况下,一致实现了更高的结构复原率,尽管RosettaLigand明确使用了整个AF2结构作为relaxation的初始猜测,而NeuralPLexer仅使用了截断的AF2结构框架作为输入。在没有模板信息的情况下修复裁剪结构的能力显示了从头配体结合蛋白设计的直接适用性,因为 NeuralPLexer 网络可以在没有蛋白质序列输入的情况下有效地适应共生成的结合位点主链和序列。

不依赖模板信息就能修补截断结构的能力对于从头设计配体结合蛋白是立即可用的,因为NeuralPLexer网络可以有效适应于共同生成结合位点主链和序列,即使在没有蛋白质序列输入的情况下。

模型对于具有大构象可变性的配体结合蛋白的结构预测能力评估

图 4

作者从AF2的预测中挑选了一组多样化的结构作为额外的模板输入。首先,作者评估了NeuralPLexer预测的结构在PocketMiner数据集中的33个对照的apo-holo配对系统上的表现(这些数据未参与模型训练)。通过与其对应的实验apo和holo参考结构进行成对结构比较,作者分析了提高预测准确性的背后因素;如图4b所示,NeuralPLexer采样的蛋白质结构集合在没有配体输入的情况下总体上多样化且与实验apo参考结构更为相似,而在同时输入蛋白质和配体图的情况下得到的结合复合物的蛋白质部分则与实验holo结构良好对齐。相反,AF2生成了一系列结构,这些结构与apo或holo状态的相对相似性没有一致的趋势,这导致与所有apo和holo样本平均后的TM-score有所下降。总之(见图4d,e),作者观察到从NeuralPLexer采样的结构的平均TM-score为0.934,较AF2(平均TM-score为0.929;P=0.03,双侧t检验)和基线模型(平均TM-score为0.925;P=0.0004,双侧t检验)均有所提高。对于baseline模型,作者从NeuralPLexer中移除了所有配体图输入,仅采样apo结构(图4d,NeuralPLexer(无配体))。

模型在全新蛋白-配体系统上的准确性评估

图 5

作者接着评估了2019年1月发布的118个最近解析的结构上预测的结构(图5)。在50个holo目标中,那些在训练中未包括相同序列同源体的(图5d),NeuralPLexer对13个靶点的预测显示Q因子增加了0.1或更多,而ligand-free的基线模型的靶点只有7个。总体来看,在这个数据集上,NeuralPLexer通过将TM-score从NeuralPLexer(无配体)的0.877提高到0.893,提高了平均蛋白质结构预测准确度,这与AF2的准确度相当(平均TM-score = 0.891),并且在蛋白质pLDDT > 0.8的子集中,TM-score从平均0.913提高到平均0.929,超过了AF2。在这两个测试数据集上,超过70%的预测,其配体r.m.s.d. < 2.5 Å 且 lDDT-BS > 0.8,可以通过配体pLDDT得分 > 0.8的标准与其他预测区分开(图4e和5e),这证实了模型分配的置信分数也提供了一个一致的指标,用于识别两者配体和结合位残基的高精度预测。如图4h和5e所示,作者认为高结合位准确性是实现低配体r.m.s.d.的前提,但两者之间的数值相关性不显著。

此外,对最近确定结构的模型预测的检查显示,可以利用预测结构之间的构象变化来洞察蛋白质功能及其相互作用。在一个最近表征了催化机制的酮酸还原异构酶目标(PDB:6KPE,图5f)上,通过比较预测的holo和apo集合,作者发现NeuralPLexer准确捕捉到了在辅因子和抑制剂结合时N-亚结构的闭合运动。还发现该蛋白能自发通过自组装形成十二聚体,这与NeuralPLexer采样的构象中观察到的C-亚结构界面附近的低结构波动也是一致的。预测结构还可能帮助识别对蛋白质激活和失活至关重要的关键结构元素。图5g展示了对G蛋白偶联受体(GPCR),人类腺苷受体A2a(PDB:6WQA)的预测结构,预测的拮抗剂结合结构与实验结构非常吻合,TM-score = 0.86。相比之下,预测的无配体结构包含了在α螺旋TM5和TM6附近大幅弯曲的快照;虽然此目标的apo实验结构尚未确定,但与G蛋白结合的活性构象(PDB:6GDG)的结构对齐表明,采样的无配体结构是合理的状态,可能归因于在无配体的情况下的固有活性。NeuralPLexer生成忠实的结构集合的能力可能成为生成假设的强大工具,帮助解开与变构调节和酶催化相关的各种分子机制。

编译 | 黄海涛

审稿 | 王建民

参考资料

Qiao, Z., Nie, W., Vahdat, A., Miller III, T. F., & Anandkumar, A. (2024). State-specific protein–ligand complex structure prediction with a multiscale deep generative model. Nature Machine Intelligence, 1-14.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档