DRUGAI
今天为大家介绍的是来自北京大学化学基因组学重点实验室、化学生物学与生物技术学院陈语谦团队发表在数字医学领域顶级期刊npj Digital Medicine(IF=12.4,中科院一区Top)的论文,研究生何昊淮为第一作者。研究人员在药物靶点亲和力预测领域取得重大突破,该团队开发了一种新型的双模态图神经网络模型DMFF-DTA,能够利用绑定位点接触图,准确预测药物与靶点蛋白之间的结合亲和力,这一成果有望加速药物研发进程。
背景介绍
准确预测药物与靶点之间的结合亲和力是药物研发中的关键步骤。结合亲和力决定了药物的药效学和药代动力学特性,直接影响药物的治疗效果。然而,传统的实验方法需要大量的人力和物力投入,且难以应用于新型药物候选分子的筛选。研究表明,将一个新药从最初构想到上市通常需要10-15年时间,成本在4-8亿美元之间。因此,开发能够准确预测药物-靶点结合亲和力的计算方法对于加速药物研发、降低成本具有重要意义。
尽管人工智能技术在药物研发领域取得了显著进展,但现有的计算方法仍存在诸多局限。纯序列模型完全忽略了药物和靶点的结构信息,而基于图的方法往往难以有效处理药物分子与蛋白质之间的尺度差异。此外,现有方法大多只利用了序列或结构单一模态的信息,无法充分利用多维度特征进行建模。
针对这些问题,作者设计了DMFF-DTA,这是一种基于双模态神经网络的药物靶点亲和力预测模型。该模型创新性地整合了序列模态特征提取模块和图模态特征提取模块,通过序列和图结构两个维度对药物和靶点进行建模。为了解决药物和蛋白质图之间的尺寸不平衡问题,模型引入了基于AlphaFold2的结合位点聚焦图构建方法,这种方法能够更准确地捕捉药物-靶点相互作用的关键区域。此外,模型还采用了创新的特征融合策略,实现了序列和结构信息的有效整合。
模型框架
如图1所示,DMFF-DTA模型的架构包含两个主要的特征提取模块:序列模态特征提取模块和图模态特征提取模块,以及用于整合两种模态信息的特征融合模块。
在序列模态特征提取模块中,模型首先使用独立的嵌入层分别处理药物SMILES序列和靶点氨基酸序列。通过全连接层的转换后,序列特征被输入到组增强模块(GEM)中进行优化。GEM模块通过分组特征增强的方式,提高了序列表示的表达能力。随后,双向LSTM网络被用来捕捉序列中的长程依赖关系,实现了序列信息的双向交互。为了进一步提升特征提取的效果,模型引入了多头链接注意力机制,这种机制不仅能够建模序列内部的依赖关系,还能实现药物和靶点序列之间的交互。
在图模态特征提取模块中,模型首先通过RDKit工具构建药物分子图,其中原子作为节点,化学键作为边。对于靶点蛋白,模型创新性地提出了一种基于AlphaFold2和数据库检索的结合位点图构建方法。具体而言,模型首先通过GeneCards数据库获取靶点的Uniprot ID,然后从AlphaFold2数据库获取对应的蛋白质结构信息。结合Uniprot数据库中的结合位点信息,模型构建了聚焦于结合区域的接触图。为了实现两个图之间的信息交互,模型引入了虚拟节点作为桥梁,同时采用了预热策略和源节点方法来确保特征提取的有效性。
在特征融合方面,模型采用了多层图神经网络来处理融合后的图结构,通过图同构网络(GIN)和批标准化实现了层次化的特征提取。最终,模型通过融合前馈网络将序列模态和图模态的特征整合在一起,输出药物-靶点结合亲和力的预测值。
图 1. DMFF模型的框架和工作流程
3.DMFF-DTA在药物靶点亲和力预测方面表现优异
为了全面评估DMFF-DTA的预测性能,研究团队在两个标准数据集(Davis和KIBA)上进行了详细的实验分析,并与多个经典以及最先进的药物靶点亲和力预测方法进行了性能比较,包括DeepDTA、GraphDTA、AttentionSiteDTI、AttentionMGT等。实验采用了五折交叉验证的方式,确保结果的可靠性。
如图2所示,在Davis数据集上,DMFF-DTA在所有评估指标上都取得了显著的改进。具体而言,模型将均方误差(MSE)从0.226降低到0.218,减少了3.6%;一致性指数(CI)从0.891提升到0.894,提高了0.3%。这些改进在统计上均具有显著性(P < 0.05)。此外,模型还在指标上达到了0.702的最高值,超过了所有对比方法,包括最先进的基于结合位点的AttentionMGT方法。
在KIBA数据集上,模型同样展现出了优异的性能。相比第二好的MSGNN方法,DMFF-DTA将MSE从0.149降低到0.144,减少了3.4%;CI从0.885提升到0.889,提高了0.5%。这些性能提升同样具有统计显著性(P < 0.05)。值得注意的是,模型在指标上达到了0.773的新记录,大幅超越了此前的最好水平。
这些实验结果充分证明了DMFF-DTA在药物靶点亲和力预测任务上的优势。通过有效整合序列和结构信息,模型能够更准确地捕捉药物-靶点相互作用的特征,从而实现更精确的亲和力预测。
图 2. DMFF模型的性能和运行效率实验结果
DMFF-DTA实现性能与效率的平衡
除了预测准确性,计算效率也是评估模型实用性的重要指标。研究团队对DMFF-DTA的计算成本和性能平衡进行了深入分析。首先,团队研究了不同结合位点范围设置对模型训练时间、GPU内存消耗和预测性能的影响。
如图2所示,实验结果显示,随着设定的结合位点范围增加,每轮训练时间和内存消耗都呈现上升趋势,特别是在300-400和700-800范围时出现显著增加。这种趋势是可以预期的,因为更大的范围意味着目标图中包含更多的节点和边,增加了图神经网络的计算负担。然而,有趣的是,当结合位点范围超过300时,模型的MSE性能保持相对稳定。这一现象表明,减小结合位点范围不仅能降低计算成本,还能帮助模型更专注于药物和靶点结合位点之间的关键相互作用。
与其他最先进的方法相比,DMFF-DTA在性能和计算成本之间取得了良好的平衡。具体而言,模型在实现最低MSE(0.218)的同时,保持了合理的运行时间(36.80秒/轮)和GPU内存消耗(17,681 MB)。相比之下,完全基于图的方法如MSGNN-DTA(32.78秒,22,340 MB)和基于结合位点的AttentionMGT-DTA(321.59秒,21,726 MB)在计算资源消耗上明显更高。
为了验证模型在接触图生成方面的优势,研究团队还将基于AlphaFold2的方法与现有的Pconsc4和ESM方法进行了比较。实验结果表明,基于AlphaFold2的接触图能够帮助模型获得更好的性能。这一结果证实了AlphaFold2在蛋白质结构预测方面的优势,能够为模型提供更准确的蛋白质结构信息。
这些实验结果充分证明了DMFF-DTA在实际应用中的可行性。通过创新的结合位点图构建方法和高效的特征提取策略,模型实现了高精度预测和计算效率的有机统一。
DMFF-DTA具有高度可解释性
为了验证DMFF-DTA模型的可解释性及其在学习过程中识别关键互作位点的能力,作者对模型的注意力机制进行了全面的统计和可视化分析。统计分析结果表明,在Davis和KIBA两个数据集上,结合位点和结合范围区域的注意力值显著高于其他区域(t检验,p < 0.05)。这种显著的注意力分布差异表明模型能够准确识别药物-靶点相互作用中的关键区域。
值得注意的是,尽管模型对结合位点和结合范围区域给予了较高的注意力权重,但这两个区域之间的注意力值差异在统计上并不显著。这种注意力分布模式表明,模型不仅关注直接的结合位点,还能识别周边可能影响结合的区域。此外,模型对结合区域之外的区域赋予了负的权重,进一步证明了其区分相关和无关区域的能力。这种合理的注意力分布很可能得益于作者提出的新型结合位点接触图构建方法,该方法在训练过程中为模型提供了空间结合信息的指导。
为了更直观地展示模型的可解释性,作者选取了三个具有代表性的PDB复合物进行案例分析:4G5J(EGFR与Afatinib)、4XEY(ABL1与Dasatinib)和6VNK(JAK2与Ruxolitinib)。如图3所示,每个案例都包含了药物-靶点复合物的三维结合构象和详细的二维相互作用图,展示了药物分子与关键氨基酸残基之间的氢键和疏水接触等具体相互作用。通过在药物分子上可视化注意力权重,研究发现模型特别关注药物分子中的功能团(如O、N、Cl、F原子)以及苯环结构。更重要的是,那些与蛋白质氨基酸发生相互作用的药物分子位点获得了更高的注意力权重,这与实际的结合模式高度一致。
这些分析结果不仅证实了模型预测的生物学合理性,还为理解模型的决策过程提供了清晰的视角。通过将注意力机制的解释与结构分析相结合,研究团队展示了DMFF-DTA模型在预测药物-靶点相互作用时的可靠性和可解释性。
图 3. DMFF模型的可解释性分析结果
胰腺癌案例研究验证了DMFF-DTA的实用价值
为了验证DMFF-DTA在实际药物研发中的应用价值,作者以胰腺癌为例进行了药物重定位研究。胰腺癌作为第三大致死性癌症,其治疗选择有限,急需新的治疗策略。
研究团队首先从KEGG数据库获取了胰腺癌(ID:map05212)的通路信息,并识别出了关键的致病靶点。通过分析各个网络,发现KRAS存在于ERK信号、PI3K信号和其他RAS信号网络中;ERBB2存在于PI3K信号和JAK-STAT信号网络中;而TP53则存在于突变失活的TP53转录网络中。随后,研究team利用ChEMBL数据库收集了这些致病靶点与小分子化合物之间的亲和力数据,共获得2889个药物-靶点亲和力样本。
在验证实验中,DMFF-DTA在这个胰腺癌数据集上展现出了优异的性能,获得了0.212的最低MSE、0.881的最高CI和0.842的最高值,显著优于其他现有方法。基于这个预训练模型,作者对2509个FDA批准药物进行了筛选预测。
如图4所示,通过系统的分析,包括通路映射和药物理化性质(ADMET)评估,作者最终确定了诺司卡品(Noscapine)和甲氧异丁嗪(Methotrimeprazine)作为潜在的候选药物。其中,诺司卡品表现出最优的理化性质,其所有物理化学特性都落在理想范围内。通过CB-Dock2服务器进行分子对接,研究发现诺司卡品能够与多个胰腺癌相关靶点形成稳定的结合构象,进一步支持了预测结果的可靠性。
这项案例研究充分展示了DMFF-DTA在药物重定位中的应用潜力。模型不仅能够准确预测药物-靶点亲和力,还能与其他分析方法(如通路分析、分子对接)有机结合,为药物重定位研究提供可靠的计算支持。
这项突破性研究不仅展示了双模态神经网络在药物靶点亲和力预测领域的巨大潜力,还为加速药物研发提供了新的思路和工具。通过创新的模型架构设计和特征融合策略,DMFF-DTA实现了高精度预测、可解释性和计算效率的统一。随着这项技术的不断完善和应用,我们有望见证药物研发效率的显著提升,为更多疾病的治疗带来希望。
图 4. DMFF模型在胰腺癌药物重利用案例分析结果
总结
在这项研究中,作者介绍了DMFF-DTA,这是一种创新的双模态神经网络模型,能够有效整合药物和靶点的序列与结构信息,实现准确的药物-靶点亲和力预测。通过引入基于AlphaFold2的结合位点图构建方法,模型巧妙解决了药物分子与蛋白质之间的尺度差异问题。实验结果表明,DMFF-DTA不仅在预测准确性上超越了现有方法,还在计算效率、可解释性和实际应用等方面展现出显著优势。
该研究工作在多个方面做出了重要贡献:首先,提出了一种新颖的双模态特征融合策略,为药物靶点亲和力预测提供了更全面的建模方法;其次,创新性地解决了图神经网络在处理不同尺度分子时的困难;第三,通过详细的解释性分析和实际案例研究,验证了模型在药物开发中的实用价值。这些创新不仅推动了计算药物学的发展,也为加速药物研发提供了有力工具。
展望未来,DMFF-DTA模型的框架可以进一步扩展,用于处理更广泛的药物设计任务。随着模型的不断优化和应用场景的拓展,这项技术有望在药物研发的多个环节发挥重要作用,为疾病治疗带来新的希望。
参考资料
He, H., Chen, G., Tang, Z. et al. Dual modality feature fused neural network integrating binding site information for drug target affinity prediction. npj Digit. Med. 8, 67 (2025).
https://doi.org/10.1038/s41746-025-01464-X
代码地址:https://github.com/hehh77/DMFF-DTA