在化学分子数据集中,有大量的未标记数据,而标记数据的比例相对较小。缺乏标签限制了监督学习方法的在分子性质预测任务上的直接适用性。自监督学习(SSL)使模型能够从未标记的数据中学习,在分子性质预测领域得到了广泛的关注。对比学习(CL)作为一种有效的SSL范式,在各个领域都表现出卓越的能力,现有的许多分子表示的CL方法采用不同的策略来提高预测精度。然而,这些方法可能会遇到表征之间的信息重叠,潜在地限制了模型学习能力的增强,缺乏基于已建立的先验知识生成增强表示的鲁棒策略。
2024年9月27日,中山大学邹青松教授团队在Briefings in Bioinformatics上发表文章DGCL: dual-graph neural networks contrastive learning for molecular property prediction。
作者提出了一种基于双图神经网络(Dual-GNN)的对比学习(CL)与混合分子指纹(MFP)相结合的分子性质预测方法DGCL。DGCL包含两个阶段。在预训练阶段,使用两个不同的GNN作为编码器来构建CL,而不是像以前那样使用生成增强图的方法。DGCL通过图同构网络(GIN)和图注意力网络(GAT)聚集和增强了同一分子的特征,从同一分子中提取的表征作为正样本,而将其他表征标记为负样本。在下游任务训练阶段,从上述两个预训练图网络中提取的特征和MFP连接在一起,以预测分子性质。实验表明,DGCL的性能超越了现有方法。
如图1所示,DGCL预训练阶段(图1A)对每个分子图分别使用GIN和GAT生成两个特征表示,对特征进行对比分析,将同一分子图通过不同图网络得到的表示视为正对,将同一批中其他样本的表示视为负对,从预训练的GIN和GAT网络中获得的分子特征与混合MFP相连接,并通过全连接层进行转换以匹配图网络特征的维数,然后预测层输出结果进行分子性质预测(图1B)。在此基础上,对预训练的GIN、GAT网络和混合MFP得到的分子特征给予不同权重,然后将它们连接起来以预测下游任务(图1C)。
图1 DGCL结构图
分子图是一种自然的图结构数据。每个分子都可以转换成一个无向图,节点表示原子,边表示化学键。GNN通过聚合自身及其邻居的信息来更新每个节点的特征。最终,节点向量被聚合成一个图级向量作为输出。在预训练阶段,作者使用ZINC作为预训练数据集,GAT和GIN作为GNN编码器,因为它们具有不同的优点。GAT通过其多头注意机制增强了模型的表达能力,显著减少了过拟合。同时,GIN在识别图之间的拓扑差异方面表现出色,从而确保了DGCL中准确的结构表示。
GAT采用了一种注意力机制来捕获图结构中的局部依赖关系。这里使用多个注意头的GAT,其中每个头可以学习不同的邻域权重分布,捕获更多样化的信息范围,以增强模型的表达能力。虽然多头注意力机制旨在通过减少对单个注意头的依赖来提高模型的鲁棒性,但重要的是要平衡头的数量,因为过多的头可能会引入过多的非线性,从而增加过拟合的风险。
GIN受到WL同构测试的启发,通过消息传递机制捕获本地节点信息,有效地区分具有唯一结构的图。这些网络展示了区分非同构图的强大能力,类似于WL测试的能力,这使得它们在识别细微的结构差异方面特别有用。虽然GIN在某些情况下可能会遇到挑战,特别是在WL测试本身有限的情况下,但对于许多基于图的任务,它仍然是一个强大的工具。GIN的一个关键优势是它的设计原则,它确保来自不同社区的节点在聚合期间不会合并。注入聚合法的使用进一步增强了其准确表示结构差异的能力,保证了不同结构的节点被清晰地表示出来。为了确保输出的一致性以便于比较,采用了与GAT中相同的聚合方法。更新所有节点后,模型计算所有节点表示的平均值,作为整个分子图的输出。
在将化合物输入图网络模型之前,作者使用分子性质初始化分子图的节点和边特征。节点特征由分子内部的原子性质构成,而边缘特征由原子间的键性质决定。DGCL中的特征不仅包括原子和键的基本化学性质,还包括更复杂的结构信息,如原子的度、化合价和键的立体化学性质。通过配置节点和边特征,目标是丰富图网络的更多信息,增强模型对化合物分子结构细节的感知能力。
分子指纹大致可分为三类:基于子结构密钥的指纹、基于拓扑或路径的指纹和圆形指纹。在该模型中,参考MFP的分类,在每一类中各选择一种指纹,即MACCS指纹、PubChem指纹和ErG指纹,三种指纹拼接为混合指纹MFP。在预训练阶段,DGCL通过GIN和GAT对从SMILES中获得的同一分子的图进行变换,将分子表示转化为向量。按照SimCLR中损失函数的设计,采用NT-Xent作为对比损失函数。
DGCL引入了构建正、负样本对的创新。首先,将通过不同的图网络从同一分子图中获得的分子表示视为正样本对。该方法通过不同的图网络,有效地利用分子固有的结构信息来捕捉分子的多维特征,从而增强了模型的表示能力。其次,在训练过程中,框架将该批样本通过编码器的剩余表示视为负样本,显著增加了负样本的数量,丰富了负样本的多样性。这有助于增强模型区分正样本和负样本的性能,鼓励模型在学习过程中更多地关注捕获分子表征的关键信息,避免因负样本数量少而导致过拟合的风险。
由于图网络大多只提取分子的拓扑结构,作者在下游任务中增加了MFP输出的分子表示,采用注意力机制来对三种类型的特征表示(GAT, GIN, MFP)进行加权,选择ECFP指纹作为注意力机制的基础来确定三种特征表示的权重。在DGCL模型下游任务的实验阶段,作者选择冻结预训练阶段获得的模型权值。这种方法虽然节省了时间和计算资源,但也可能限制模型进一步学习和改进分子表示的能力。为了抵消权重冻结可能造成的性能损失,预测头的设计通过利用预训练的嵌入来最大限度地提高模型在下游任务中的性能,而无需进一步训练底层的图网络层,增强模型执行各种任务的能力。这种设计使模型能够鲁棒地适应新的任务和数据集,同时保持效率。
作者将DGCL与一些具有代表性的方法进行了比较,在分类任务和回归任务上的结果分别如表1和表2所示。分类任务的指标是ROC-AUC,其值越高越好,回归任务的指标是均方根误差(RMSE),其值越低越好,表中a,b,c分别表示最好、第二好和第三好的方法,DGCL在大多数任务上都优于其他方法。
表1 与其他方法对比(分类)
表2 与其他方法对比(回归)
作者设计了消融实验来验证模型设计的有效性。如表3所示,表中“GAT”表示预训练后的GAT模型,与“GIN”相同,“DGN”表示预训练后的GIN与GAT模型的拼接;“GAT-MFP”表示将预训练的GAT模型与混合MFP相结合的模型,“GIN-MFP”定义类似;“GAT-ECFP”表示将预训练的GAT模型与ECFP指纹相结合的模型。“GIN-ECFP”和“DGN-ECFP”类似。首先,作者分析了网络组合对预测性能的影响。比较GAT-MFP、GIN-MFP和DGCL的结果,DGCL在除FreeSolv外的6个分类任务和2个回归任务上均优于GAT-MFP和GIN-MFP。然后,作者分析了MFP对预测性能的影响。以GAT为例,将其结果与GAT-ECFP和GAT-MFP进行比较,其在大多数上的表现低于添加了MFP的模型。单个GNN和MFP的组合可能在不同的数据集上表现不同,并且并非所有添加混合指纹的模型都比添加ECFP指纹的模型更好。比较GNN-ECFP和DGCL的结果可以看出,DGCL在所有分类和回归任务上都优于GNN-ECFP。这些结果表明GAT, GIN, MFP都对模型性能的提升做出了贡献。
表3 消融实验
作者还进行了案例分析。从BBBP数据集中选择了16个分子,分子M1到M8为正样本,而M9到M16为负样本。根据模型训练得到的混合特征,计算这些特征表示的余弦相似度,并将结果以热图的形式呈现,如图2所示。分析发现,正样本组内和负样本组内的得分明显高于正负样本之间的得分。这表明该模型可以有效区分高维特征空间中不同类别的分子,使具有相同标签的分子靠得更近,使具有不同标签的分子保持距离。这一结论与常识一致,进一步证实了DGCL方法在一定程度上能够提取具有分辨能力的分子表征。
图2 案例分析
本文提出了基于双图神经网络对比的分子表示学习模型DGCL。该方法通过改变分子特征的提取方式,克服了传统对比学习方法生成分子表征的局限性。在预训练阶段,DGCL通过使用不同的网络来聚合相同分子的特征表示,并确保这些表示尽可能相似,从而增强模型的特征提取和泛化能力。此外,在下游任务阶段,DGCL通过整合混合分子指纹进一步增强了模型预测分子性质的能力。与其他模型相比,DGCL只需要相对较小的数据集进行预训练,即可以实现与其他模型相同或更好的性能,兼顾了效率和准确性。
参考文献
Jiang et al. DGCL: dual-graph neural networks contrastive learning for molecular property prediction. Brief Bioinform. 2024
--------- End ---------