准确预测药物与靶点之间的结合亲和力(DTA)对于药物发现至关重要,但由于药物小分子与靶点蛋白质大分子之间相互作用的建模复杂性,准确预测其结合亲和力仍然具有挑战性。
2025年1月28日,北京大学陈语谦教授团队在npj Digital Medicine上发表文章Dual modality feature fused neural network integrating binding site information for drug target affinity prediction。
作者提出了一个新的框架(DMFF-DTA),利用双模态特征融合进行药物靶点亲和力预测(dual modality feature fusion for drug target affinity prediction)。该模型集成了药物和靶点蛋白质的序列和图结构信息,引入了一种以结合位点为中心的图构建方法来提取结合信息,使药物-靶点相互作用的建模更加平衡和有效。实验证明了DMFF-DTA的性能超越了现有方法。
如图1所示,本研究的目标是充分利用靶点和药物的序列和结构双模态信息,缓解药物和靶点之间的图大小不平衡问题,实现有效的图信息融合。因此,作者提出了DMFF-DTA模型,该模型结合了一种基于数据检索的以结合位点为中心的蛋白质残基图构建方法。这降低了计算成本,促进了蛋白质和药物分子图的融合。如图1所示,模型架构集成了一个序列模态特征提取模块(MFEseq),该模块利用了多个头部关注和前馈机制,以及一个分子图模态(结构)特征提取模块(MFEstr),用于图级特征提取。随后,通过融合前馈层对融合图表示进行处理,预测药物与靶点的结合亲和力。
图1 DMFF-DTA结构图
图1中,MFEseq模块使用嵌入层从药物SMILES和靶点蛋白质序列中提取序列特征。随后,利用基于Bi-LSTM的特征提取器捕获药物和靶点的序列特征。然后,该模块结合连接层和链接注意力方法,获得基于序列模态的DTA嵌入信息。在MFEstr模块中,模型主要使用RdKit方法构建药物图。同时,模型还挖掘了蛋白质的图结构特征,采用基于AlphaFold2(AF2)、GeneCards和UniProt数据库的结合位点数据收集流程,获取结合位点的结合范围,构建接触图,然后使用该接触图生成相应的靶点图。
模型的初始输入是靶点蛋白的氨基酸残基序列St和药物的SMILES序列Sd。通过标记器,上述文本被分成两个标记集Tokent和Tokend。目标标记器是残留物级的,其词汇表包含每种氨基酸的单字母标记。药物标记器确保原子级标记,这意味着SMILES字符串中的每个原子都有一个独立的标记。
通过标记化获得目标和药物的令牌集Tokent和Tokend后,分别利用独立嵌入层和完全连接层(FC)获取药物和目标的嵌入表示,然后,引入组增强模块(GEM)对嵌入进行组间特征增强。GEM拆分输入特征为G组,并对每组应用信道增强,将特征与通道维度上的平均特征相乘,然后通过求和进行聚合,之后通过减去平均值,除以标准差加上一个小常数,进一步标准化。将标准化特征与学习到的参数进行投影,得到增强特征。在增强特征上应用BiLSTM模块,实现双向序列特征交互和提取。
为了有效地模拟药物和靶点表征之间的相互作用,作者还通过多头链接注意力机制,将药物和靶点特征链接起来,并将其输入到带有链接掩模的多头自注意力模块中。这种多头链接注意力机制实现了复杂的内部和相互表征作用,有效地模拟药物-靶点亲和力预测。之后,采用前馈网络(FFN)进一步丰富特征表示。
对于图级表示,模型首先构建药物分子图Gd=(Vd, Ed),其中Vd表示药物图中的原子。Ed是通过RdKit文库根据药物分子中原子之间的成键关系得到的。然后,模型构造靶点图表示Gt=(Vt, Et)。具体来说,靶点对应的Uniprot ID是根据GeneCards数据库获取的。然后使用AF2查询和检索Uniprot ID的蛋白质结构。AF2数据库中的结构是根据给定Uniprot蛋白序列数据的AF2模型预测得到的。此外,Uniprot ID还可用于从Uniprot数据库中查询结合位点信息,得到每个Uniprot ID结合位点的并集作为结合范围。利用AF2中的结构,可以得到所有残基对之间的距离矩阵Dist,其中Distij为残基i与残基j之间的距离。通过阈值分割,得到每个目标的接触映射,这里使用的阈值为8埃,这个阈值适用于残基对的碳原子之间的距离,将小于阈值的残基用一条边连接,可以得到结合位点图,节点Vt是结合范围内的残基。
作者引入虚拟节点连接药物和靶点图,以减少图的不平衡,促进药物和靶点之间有效的信息交换,并通过后续的基于注意力的分析增强模型的可解释性。此外,为了在不同层次上对齐特征,从MFEseq模块的特征提取器的输出中导出药物图的原子节点特征和目标图的氨基酸节点特征。通过这一工作流程,该模型试图对高维药物-靶点相互作用特征进行自建模。
为了在图神经网络上模拟药物和靶点之间的相互作用,引入虚拟节点作为两个图之间的连接。具体地说,将构造一个融合图Gf=(Vf, Ef)。节点是图节点和虚节点的并集,边关系保留每个图中的边,而虚拟节点额外连接两个图中的所有节点。这为两个图之间的信息流搭建了桥梁。但是,由于靶点和药物本质上是不同层次的对象,所以两个图的节点特征并不一致。因此,简单地通过虚拟节点连接它们是不合理的。因此,利用MFEseq来赋予这两个图高维的、同源的节点特征。
同时,为了使提取的基于序列的特征更具有靶点和药物的特征,作者提出了一种预热策略,即首先只对序列部分进行训练,让模型学习药物-靶点对之间的相互作用模式,然后分配融合图节点特征进行联合训练。这确保了功能的有效性。此外,为了便于对节点源进行识别,作者为节点额外赋予了一个源类型特征,表明该节点是来自靶点图、药物分子图还是虚拟节点。将融合图Gf通过多层图神经网络(MGNN)学习分层表示,包含多层堆叠图同构网络卷积(GINConv)层,每层由一个图同构网络(GIN)组成,然后进行批归一化(BN)在通过MGNN层传播后,通过求和对节点特征进行聚合,以获得最终的图级表示Outstr。
最后,该模型将序列模式和图模式的信息连接起来,以实现最终的DTA预测。
作者将DMFF-DTA与一些具有代表性的方法进行了比较,如表1所示,在Davis测试集中部分药物未在训练集中出现的情况下进行测试(unseen drug),然后类似地测试unseen target和all unseen,将均方误差MSE(越低越好),一致性指数CI(越高越好),回归系数rm2(越高越好)作为评价指标,对比多次实验的平均数与标准差,加粗代表最优,下划线代表次优。结果表明,DMFF-DTA超越了现有方法。
表1 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。在表2中,作者在没有unseen数据的情况下,对每个设计组件的贡献进行了全面评估。完整的框架表示为full model,将其分别与移除组增强模块(GEM)、链接注意力、虚拟节点、源特征、预热训练、MEFseq、MEFstr的模型进行对比。结果表明,不同组件都显著增强了结合亲和力预测的性能。
表2 消融实验
作者还进行了案例分析。在Davis和KIBA数据集中对结合位点、结合范围内或外区域内的蛋白质序列的注意力权重进行了全面的统计分析。如图2a所示,结合位点和范围内区域的注意力值明显高于结合位点和范围外区域(t检验,p<0.05)。值得注意的是,尽管对结合位点和范围的注意力权重程度不同,但在两个数据集中,它们的注意力值之间没有统计学上的显著差异,而其对结合范围外的注意力权重差异均为显著的。该模型关注关键结合区域的能力是由新的结合位点接触图方法促进的,该方法提供空间结合信息,指导模型在训练期间优先关注交互的关键区域。
虽然之前的定量分析验证了整体注意力分布,但对个别案例的可视化进一步直观地证明了模型的可解释性。图2b显示了三种PDB复合物:4G5J (EGFR与阿法替尼),4XEY (ABL1与达沙替尼),6VNK (JAK2与鲁索替尼),以阐明该模型在个案基础上的可解释性。每个示例包括一个3D结合姿态,描绘药物与其靶蛋白之间的空间关系,以及一个2D相互作用图,详细说明药物与关键氨基酸之间的特定相互作用,如氢键和疏水接触。此外,药物分子上的注意力可视化强调了模型认为对结合至关重要的区域,颜色的强度与注意力的权重相对应。这三个例子中的药物和蛋白质都参与了多种相互作用。观察到药物分子中的O、N、Cl和F等官能团的质量更高,苯基环结构也是如此。最值得注意的是,蛋白质氨基酸在药物上发挥作用的位置也获得了更高的关注权重。这种可视化不仅证实了模型预测的生物学合理性,而且还提供了模型焦点的清晰描述,与已建立的相互作用位点保持一致。
图2 案例分析
在这项研究中,作者提出了DMFF-DTA,一种具有双模态特征融合和平衡机制的神经网络模型,用于准确预测药物靶点亲和力。该模型通过创新的特征提取和融合模块,有效地整合了药物和蛋白质的序列和图结构信息。以结合位点为中心的图构建方法,使得基于图神经网络的药物-蛋白质相互作用建模更加平衡和有效。实验表明,模型在基准数据集上取得了优于以往方法的性能。该模型提供了一个强大的和可解释的方法,以实现更准确和快速的虚拟筛选,候选药物优化和药物设计。
未来的工作可以集中在细化药物-靶点相互作用的特定生物学机制。这可能涉及开发动态的权重调整方法来优化原始图信息,或者探索更好地反映分子结合过程物理现实的替代连接方案。虽然作者目前的方法有效地捕获了基本的相互作用模式,但基于生物学的方法仍是相当重要的。尽管亲和力值是一个至关重要的起点,但药物发现必须考虑多种因素,包括但不限于疾病背景下靶点的生物学相关性、药物的药代动力学和药效学特性、潜在的脱靶效应、以及疾病中涉及的分子途径的复杂相互作用等等。因此,有必要开发更全面的计算框架,将亲和力预测与其他重要因素结合起来,以提供对药物再利用潜力的更全面的评估。
此外,DMFF-DTA模型使用Uniprot数据库的结合位点信息,在预测具有新的或未注释的结合位点的抑制剂的药物靶点亲和力方面可能存在局限性。这可能会限制其应用于结合ATP或底物位点的1型和2型激酶抑制剂。为了解决这一问题,未来的工作应侧重于开发更全面、更准确的方法来获取结合位点信息,提高模型适应多种相互作用的能力。
参考文献
He et al. Dual modality feature fused neural network integrating binding site information for drug target affinity prediction. npj Digital Medicine. 2025
--------- End ---------