计算生物化学和医疗健康的数据常常通过图来表示。
例如,分子和化合物可以自然地表示为以原子为节点、以键为边的图。蛋白质相互作用(Protein-ProteinInteractions,PPI)记录了两个或多个蛋白质之间的物理联系, 这种联系可以很自然地用图的形式表示。
此外,在制药行业中,药物相互作用(Drug-Drug Interactions,DDI)描述了在使用不同药物组合治疗复杂疾病时的不良结果,这种相互作用也可以用图来表示。
图神经网络模型具有强大的图表示学习能力,已被应用于许多生物化学和医疗健康应用中,包括药物开发与发现、药物相似性整合、复方药物副作用预测、药物推荐和疾病预测。
下面将讨论GNN 模型在生物化学和医疗健康中的一些典型应用。
图神经网络已经被用来推动药物开发和发现中的许多重要任务。
这些任务的实例包括:
1)分子表示学习,该任务可以用于辅助分子属性预测等下游任务,从而有助于将候选分子的搜索范围缩小到具有合适性质的分子上; 2)分子图生成,旨在生成具有某种期望性质的分子; 3)药物–靶标结合亲和力预测,即预测药物–靶标的相互作用强度,以便于新药开发和药物再利用; 4)蛋白质相互作用界面预测,其目的在于预测蛋白质相互作用界面,以便于理解分子相互作用界面,进而理解分子机制。
接下来介绍图神经网络在分子表示学习、药物–靶标结合亲和力预测以及蛋白质相互作用界面预测等方面的应用。
分子表示学习
(1)
式中,
表示一个依赖于节点 邻居数量
的变换矩阵。因此,每一层中变换矩阵的数量由邻域大小的数目决定。在有机分子中,一个原子最多可以有5个邻居,因此,每一层有5 种不同的转换矩阵。分子 的分子指纹
可以通过如下的全局池化操作得到:
(2)
式中, 表示图滤波层的层数;
表示被用来变换第 层中学习到节点的表示。
式(2) 中的全局池化操作聚合了来自所有图滤波层学到的节点表示。获得的分子指纹
可用于诸如性质预测的下游任务。式(1) 中的图滤波过程和式(2)中的图池化过程会受给定的下游任务影响,如分子性质预测。
事实上,除了上面介绍的方法,任何为学习图级表示而设计的图神经网络都可以用来学习分子表示。如《图深度学习》一书中的第5 章介绍的,可以用图滤波层和图池化层组成一个图神经网络模型。特别地,5.3.2节介绍的MPNN-Filter 的通用框架的应用场景即为提取分子表示。
蛋白质相互作用界面预测
图1 蛋白质由一串氨基酸组成
图2 氨基酸的一个说明性示例
蛋白质为了实现它们的功能,需要与其他蛋白质相互作用。预测这些相互作用发生的界面是一个具有挑战性的任务,同时这也在药物发现和设计中有着重要的应用。蛋白质相互作用界面由相互作用的蛋白质中相互作用的氨基酸残基和附近的氨基酸残基组成。
具体来讲,文献[3]考虑来自不同蛋白质的两个氨基酸残基,如果其中一个氨基酸残基中的任何一个非氢原子在另一个氨基酸残基中任何一个非氢原子的6Å 内,则认为它们是界面的一部分。因此,蛋白质相互作用界面预测问题可以建模为以来自不同蛋白质的一对氨基酸残基作为输入的二分类问题。
在文献[2]中,蛋白质被建模为图。在图中,蛋白质中的氨基酸残基被视为节点,这些节点之间的关系被定义为边,然后使用图神经网络模型学习节点表示,并利用这些表示进行分类。
接下来介绍如何将蛋白质表示为图,并介绍蛋白质相互作用界面预测的方法。
一个蛋白质可以表示为一个图 。蛋白质中的每个氨基酸残基都被视为一个节点,利用氨基酸残基之间的空间关系建立它们之间的边。每个氨基酸残基节点与其 个最相邻的氨基酸残基相连,残基是否相邻由它们原子间的平均距离决定。图中的每个节点和边都与一些特征相关联。具体而言,节点 的特征用 表示,而边 的特征用 表示。
给定一对氨基酸残基,一个来自配基蛋白
,另一个来自受体蛋白 ,蛋白质相互作用界面预测的任务是判断这两个残基是否在蛋白质相互作用界面上。这可以被视为一个二分类问题,其中每个样本都是一对氨基酸残基 ,其中 且 。将图滤波操作应用于
和
,学习图上的节点表示,然后将 和 的节点表示合并,得到该氨基酸残基对的统一表示,最后将其输入全连接层进行分类。类似于GCN-Filter 的图滤波器可用于学习节点表示,对于其中的第 层:
式中,
和
分别表示针对中心节点和邻居节点的可学习的矩阵; 表示偏置项。此外,为了结合边的特征,提出了以下图滤波操作:
式中, 表示边 的特征;
表示对应于边的可学习的变换矩阵。注意,在训练过程中,边的特征是固定不变的。
药物-靶标结合亲和力预测
一个药物–蛋白质对表示为
,其中
、 分别表示药物和蛋白质。药物
表示为以原子为节点、以化学键为边的分子图。蛋白质既可以表示为序列,也可以表示为图。
在文献[4]中,这些蛋白质被表示为氨基酸序列,本节用如图1 所示的氨基酸序列说明药物–靶标结合亲和力预测的框架。在该框架中,药物
通过图神经网络模型学习图级药物表示,而蛋白质被送入序列模型中学习蛋白质表示。这两个表示通过拼接(串联)生成该药物–蛋白质对的组合表示,然后利用该组合表示预测药物–靶结合亲和力。
《图深度学习》一书的13.2.1 节介绍的用于分子表示学习的图神经网络模型也可用于学习药物表示,例如1-D CNN、LSTM 和GRU 的序列模型可以用来学习蛋白质表示。此外,如果将蛋白质建模为图,还可以使用图神经网络来代替图3 中的序列模型。
图3 药物–靶结合亲和力预测的一般框架
▼
参考文献:
[1] DUVENAUD D K, MACLAURIN D, IPARRAGUIRRE J, et al. Convolutional networks on graphs for learning molecular fingerprints[C]. Advances in neural information processing systems, 2015: 2224–2232.
[2] FOUT A, BYRD J, SHARIAT B, et al. Protein interface prediction using graph convolutional networks[C]. Advances in Neural Information Processing Systems, 2017:6530–6539.
[3] AFSAR MINHAS F U A, GEISS B J, BEN-HUR A. Pairpred: Partner-specific prediction of interacting residues from sequence and structure[J]. Proteins: Structure,Function, and Bioinformatics, 2014, 82(7): 1142–1155.
[4] NGUYEN T, LE H, VENKATESH S. GraphDTA: prediction of drug–target binding affinity using graph convolutional networks[J]. BioRxiv, 2019.
以上内容节选自《图深度学习》一书!
▊《图深度学习》
马耀,汤继良 著
王怡琦,金卫 译
本书全面介绍了图深度学习的理论基础、模型方法及实际应用,既适合对数据挖掘、机器学习和社交网络分析感兴趣的本科生和研究生阅读,也适合企业开发者和项目经理阅读。对于没有计算机科学背景,但想要应用图神经网络来推进其所在学科发展的研究人员,本书同样是一本值得参考的读物。
对于图深度学习,你有哪些见解呢?
#欢迎来评论区讨论#
AI科技大本营 将选出三名优质留言
携手【博文视点】送出
《图深度学习》各一本
截至7月2日14:00点
更多精彩推荐“去了太空就别回来了!”贝索斯还没“上天”,就遭美国 5 万多人请愿:不准重返地球
赠书 | JavaScript 武力值飙升!用 TensorFlow.js 轻松在浏览器里搞深度学习
横扫六大权威榜单后,达摩院开源深度语言模型体系 AliceMind
点分享点收藏点点赞点在看