分子性质预测(MPP)在药物发现过程中起着至关重要的作用,为分子评价和筛选提供了有价值的见解。尽管深度学习在这一领域取得了许多进展,但它的成功往往取决于大量标记数据的可用性。与之相比,小样本MPP是一个更具挑战性的场景,其目的是用很少的可用分子来识别未知的分子特性。在药物发现任务中,分子数据由于难以收集、预处理和标记,面临着数据稀缺性的挑战,因此,小样本学习已成为一种该领域广受关注的解决方案。越来越多的小样本学习算法结合元学习策略,在药物分子性质预测的训练阶段从大量与测试任务相似的任务中学习经验或先验知识,使其能够快速适应给定多个标记数据的测试任务,实现更精准的分子性质预测。
2024年8月12日,湖南大学曾湘祥教授团队在Briefings in Bioinformatics上发表文章Attribute-guided prototype network for few-shot molecular property prediction。
作者提出了一种属性引导的原型网络(attribute-guided prototype networks,APN)来解决这一挑战。APN首先引入了一种分子属性提取器,该提取器不仅可以综合提取不同类型的指纹属性,还可以通过自监督学习方法自动提取深度属性。此外,APN设计了属性导向的双通道注意力模块,学习分子图与属性之间的关系,并细化分子的局部和全局表示。与现有工作相比,APN利用高层次的自定义属性,帮助模型显式地泛化分子图中的知识。实验结果表明,APN的性能超越了现有模型。
本文提出的属性引导分子性质预测网络(APN)的总体架构如图1(a)所示,主要包括属性提取器和属性引导的双通道注意力(AGDA)模块。首先,使用分子编码器(例如GAT)从分子中提取表征。然后,通过考虑分子属性来改进这些分子表示。具体而言,由属性提取器生成的分子属性通过双通道注意机制对分子表征进行细化,使其更具信息性和区别性。最后,考虑到支持集中的每个分子表示对原型的贡献不同,以加权的方式分别计算正样例和负样例的原型,并将相似度进行交叉相乘。
图1 APN结构图
分子属性提取器产生的动机来源于计算机视觉领域中若干离散的、面向人类的高级知识对图像的描述。当预测分子的属性时,分子指纹和自监督学习方法可以提供高层次的知识,包括化学结构、物理化学性质和人类定义的特征。因此,作者提出了从14种类型的分子指纹中提取分子属性(包括基于圆的、基于路径的、基于子结构的和基于物理化学的指纹)和7种最先进的自监督学习方法,包括基于序列的(MolFormer)、基于图的(GraphMVP、MoleBERT、UniMol)和基于图像的模型(CGIP、IEM、VideoMol)。
基于序列的模型:MolFormer是一种对Transformer的变体,它采用异构自注意力层来区分多层次节点之间的交互。此外,模型还与多尺度机制相结合,以捕获分子序列随着上下文尺度递增的细粒度局部模式,从而提出了一种关注最远点采样算法来获取分子表示。
基于图的模型:GraphMVP是一种针对分子图的多视图预训练框架,通过利用二维拓扑结构和三维几何视图之间的对应和一致性来进行自监督学习;GraphMVP有效地学习了一个二维分子图编码器,该编码器通过更丰富和更具辨别性的三维几何特征来增强。MoleBERT是一个分子语义上下文感知的标记器,将原子属性编码成化学上有意义的离散代码,从而降低由于大量原子(如碳)和稀有原子(如磷)之间的数量差异对分子表示学习的限制;在此基础上,MoleBERT提出一种新的预训练的图神经网络,将节点级预训练任务和图级预训练任务结合,从而实现有效的分子表示学习。UniMol是一种通用的基于三维图的预训练图神经网络。
基于图像的模型:CGIP利用自监督对比学习实现分子结构图(graph)和分子图像(image)的跨模态学习,有效提取结构图中的显式信息和图像中的隐式信息。IEM综合利用三维构象分子图像中所包含的丰富的视觉信息(即纹理、阴影、颜色和平面空间信息),提出了一个图像增强的分子图表示学习框架,基于知识蒸馏架构提高现有的图神经网络的分子表示学习能力。在此基础上,VideoMol将分子图像按时间序列建模成分子视频,并在分子视频上设计自监督学习策略来捕捉不同的构象变化,进一步增强分子表示学习的能力。
图1(b)显示了分子属性提取器的流程。对于指纹属性,首先使用RDKit库生成14种类型的指纹。由于大多数分子指纹具有高维特征,采用主成分分析(PCA)技术将维数降至100维。对于深度属性,使用上述7种自监督学习方法提取7种深度指纹,并通过PCA降维到100维。最后,选择任意一个属性,指导模型的训练和推理。
在这里,作者结合分子属性并设计了一个AGDA模块来学习更多的信息和判别分子表示。AGDA的详细结构如图1(c)所示。AGDA由属性引导的局部注意力模块和属性引导的全局注意力模块组成,分别引导模型关注重要的局部信息和全局细节。首先,用图注意力(GAT)得到分子的所有节点表示,然后,使用一个带sigmoid函数的全连通层来计算局部注意力。对于属性导向的全局注意力模块,首先得到分子的均值池化表示形式,此外,还使用全连通层和sigmoid函数来获得全局注意力。
APN是基于原型网络的,这意味着需要为每一个类别计算一个原型。经过AGDA模块后,任务中属性细化的分子表示为正样本或者负样本的原型表征,由所有正(负)样本的加权和计算得到。具体来说,对于类中的每个嵌入支撑点,计算一个距离,它表示它与其他点之间的欧几里得距离之和。分配的权重与距离成反比:距离越大,重量就越小。查询集中分子的标签是通过计算它与两个原型之间的点积相似度来确定的。在元训练过程中,使用预测的标签来计算更新模型参数的损失。在元测试过程中,使用目标任务的预测标签来确定分子的活性。
作者将APN与一些具有代表性的方法进行了比较,如表1所示。在本研究中,使用ROC曲线下面积(ROC-AUC), F1评分和PR曲线下面积(PR-AUC),其数值越高越好。表中括号表示标准差。结果可见,APN相对于现有方法在5-shot(即每一类使用5个样本作为训练集)和10-shot(即每一类使用10个样本作为训练集)均有显著提升。
表1 与其他方法对比
作者设计了消融实验来验证模型设计的有效性。作者实现了四种APN的变体,以显示APN中模块的有效性,包括:(i) w/o L: 去除应用属性引导的局部关注模块;(ii) w/o G: 去除应用属性阴道全局关注模块;(iii) w/o S: 去除交叉相乘的点积相似度,即使用L2距离;(v) w/o W:去除计算原型时的加权和。结果如图2所示。APN比其变体获得了更好的性能,表明APN中的组件可以有效地协作以提高性能。从这些实验结果中有几个发现。首先,w/o G在所有情况下的表现都是最差的,这说明了属性引导的全局注意力模块捕获与特定的少量MPP任务相关的信息的关键能力。其次,在APN中,属性引导的局部注意模块比没有属性引导的局部注意模块(w/o L)显著提高了性能,证明了其有效性。然而,属性引导局部关注模块的性能增益略低于属性引导全局关注模块,说明分子属性信息更适合用于引导全局信息。第三,APN优于w/o S和w/o w,证明了将点积相似度和加权原型结合到APN中的好处。
图2 消融实验
作者还进行了案例分析。为了验证APN的泛化能力,作者选择了Therapeutic Data Commons (TDC)平台中的分类任务来构建TDC数据集。使用TDC平台中的3个吸收数据集、1个分布数据集和3个代谢数据集进行元训练,使用3个毒性数据集进行元测试。TDC数据集中的训练数据和测试数据属于不同的领域,这可以测试APN跨这些领域的泛化能力。Meta-GAT(目前在该任务上取得最佳结果的模型)和APN在5-shot和10-shot任务上的表现见表2。实验结果表明,APN优于Meta-GAT,在AUC上平均提高6.98%,在F1-Score上平均提高2.97%,在PR-AUC上平均提高5.34%。
表2 案例分析
在这项工作中,作者提出了一个新的属性引导框架,称为APN,以解决分子属性预测的小样本学习的挑战。APN提取分子属性,并设计AGDA模块学习图与属性之间的关系。不同于一般的方法仅仅依赖于分子的结构信息,APN利用不同类型的分子指纹和深度指纹来获取分子属性,这些属性封装了专家定义的高级的分子知识和自监督学习方法,来指导深度神经网络学习分子表示。实验进一步验证了APN的有效性和泛化能力。在未来,作者计划探索更多的分子属性,如文本描述、知识图和模型预测的知识,以学习数据稀缺场景下的分子表示。
参考文献
Hou et al. Attribute-guided prototype network for few-shot molecular property prediction. Brief Bioinform. 2024