今天给大家介绍的是北京大学来鲁华课题组在arXiv上挂出的预印论文《Learning to design drug-like molecules in three-dimensional space using deep generative models》。近年来,分子图的深度生成模型在药物设计领域受到了越来越多的关注。目前已经开发了多种模型来生成拓扑结构,但在产生三维结构方面的探索仍然有限。现有的方法要么关注于低分子量化合物而不考虑药物相似性,要么利用原子密度图来间接生成三维结构。在这项工作中,作者介绍了配体神经网络(L-Net),一种新的图生成模型,用于设计具有高质量三维结构的类药分子。L-Net直接输出分子(包括氢原子)的拓扑和三维结构,而不需要额外的原子放置或键序推理算法。实验结果表明,L-Net能够产生化学正确、构象有效的类药分子。最后,为了证明其在基于结构的分子设计中的潜力,作者将L-Net与MCTS结合,并测试其产生靶向ABL1激酶的潜在抑制剂的能力。
一、研究背景
人工智能辅助药物发现领域现有的大部分工作都集中在基于二维条件生成类药分子的二维(或拓扑)结构上。然而,三维信息对于设计具有高生物活性的分子非常重要。例如,蛋白质结构通常用于对接研究,配体信息可以用于构建活性预测的3D-QSAR模型,以进行基于结构的药物发现(SBDD)。因此,将分子的三维条件纳入深度生成模型是非常有必要的,但目前在这个方向上的探索相当有限,仍然存在许多问题需要解决。
引入3D信息的一种方法是将现有的基于SMILES的生成模型建立在3D数据上。然而,这些模型输出的分子不包含3D信息,通常需要一个额外的优化步骤来将分子嵌入到3D空间。一种更理想的方法是直接生成三维坐标。然而,这些方法主要集中在结构简单的分子上,例如QM9数据集中的分子,对类药分子的适用性目前尚不清楚。最近,Ragoza等人已经开始关注类药分子。他们的模型首先生成原子密度图,将其转换为原子位置,然后将这些空间点转化为分子结构。然而,它并不是一个端到端的方法,需要多个基于深度学习和基于规则的组件来共同工作生成最终的分子。
在本文中,作者开发了一个新的深度学习模型,用于端到端生成具有高质量三维结构的类药分子。该模型通过逐步添加新的原子和键到现有的结构上,生成并输出具有完整的三维坐标的结果,而不需要额外的处理步骤。
二、模型与方法
2.1 分子生成过程
生成模型的任务是生成分子图G=(V,E,A,B,X),其中V是节点(原子)的集合,E是边(键)的集合,A={av},v∈V是原子类型标签,B={buv},(u,v)∈E是键类型标签,X={xv},v∈V是每个原子的3D位置。
图1. 分子生成过程。(以环己烷为例)
模型以一步步的方式生成图。更具体地说,该模型通过迭代构建其生成树来生成一个分子图。G的生成树是一个包含G中所有节点的树状结构(见图1a)。在每次迭代中,将执行以下两个步骤来构建生成树(图1b):
1)节点选择:该模型从预先生成的5个合适原子中选择一个“焦点原子”。如果原子具有未满的化合价,则适合成为焦点原子。(参见图1c)。
2)树展开:模型将围绕焦点原子执行操作。向其添加新原子(“添加”操作)或将其连接到另一个现有原子(“连接”操作)。
在“节点选择”步骤中,模型在生成树中搜索,找到下一个聚焦原子:
1)如果当前的焦点原子有一个化合价尚未被填充的孩子原子,则模型将选择该原子作为下一个焦点原子。
2)如果存在多个这样的孩子,则按照一个排名方式选择级别最高的孩子。如果当前焦点原子没有这样的孩子,则执行“回溯”操作以查找具有这些孩子的祖先。然后选择那个孩子作为下一个焦点。
当没有适合成为“焦点原子”的原子时,即所有原子的化合价都是满的,则这个过程就终止了。在生成过程中,有各种各样的决策需要由模型作出:
1)在“连接”操作期间,模型需要决定使用什么类型的键去连接哪个原子;
2)在“添加”操作期间,模型需要决定应该添加多少个原子、它们的原子类型、三维位置,以及将它们连接到焦点原子的键的类型;
3)该模型还需要输出每个原子的排名,这将在节点选择步骤中使用。
这些决策都是使用L-Net架构的神经网络做出的。L-Net由两部分组成:第一部分是一个状态编码器,它将步骤i处的中间分子结构Gi映射为连续表示hi=fθ(Gi)。第二部分是一个策略网络,会根据当前状态为每个可用的操作分配一个概率值。为了使该网络能够生成类药分子,作者构建了ChEMBL数据集的类药分子子集,并创建了一个“专家轨迹”,用于生成数据集中的每个分子,然后通过模仿这些轨迹来训练L-Net。
2.2 状态编码器的架构
L-Net的状态编码器负责将当前的分子图Gi映射到连续表示hi=(hi,g,{hi,v}v∈Vi)=fθ(Gi),其中hi,g为图级别表示,{hi,v}v∈Vi是原子级别表示。fθ的架构如图2所示。该网络采用u-net结构。输入首先被输入到一个嵌入层中,以创建原子和键的输入表示。然后输入表示被传递到U-net中,它由卷积层、池化层和上池化层构建。卷积层采用了MPNN的架构,并被组织成DenseNet模块以提高性能。池化层和上池化层使用一种专门为这个用例设计的节点聚类方法。结果会被收集并发送给策略网络。
图2. 状态编码器的结构概述。a.状态编码器的整体结构。b.每个图卷积层的结构。c.每个池化层的结构。d.每个上池化层的结构。
2.3 嵌入层-原子和键类型的嵌入
原子和键类型的嵌入是通过可训练的查找表进行索引创建的。这些嵌入的维数是2。节点v的原子类型由三个变量组成的:元素类型、形式电荷,以及原子是否为焦点原子。每个变量分别单独嵌入,然后整合在一起。作者还向每个原子添加“时间编码”来记录原子添加到图中的时间。
2.4 图卷积层
状态编码器的主要组成部分是图卷积(GC)层。本工作中使用的GC架构与以前使用的类似,具有传播、收集和使用具有elu激活函数的线性层进行参数化更新操作 (如图2b所示)。唯一的区别在于收集操作。除了求和和最大化外,作者添加了注意力作为一种额外的简化方法来提高模型的表达能力。类似于之前的工作,作者在图中添加了“虚拟”键,以增加每个GC层的感受野的尺寸。
GC层被组织成多个DenseNet块(如图2所示)。DenseNet是一种旨在通过引入任意两层之间的短连接来提高更深层次网络的性能可扩展性的网络架构。DenseNet有三个主要超参数:增长率、瓶颈大小和网络深度。作者通过实验证明减少DenseNet块的深度或宽度都会损害模型的性能。
2.5 图U-net中的池化和上池化操作
U-net在与图像相关的像素级预测任务中取得了巨大的成功。它可以以较少的层数实现较高的感受野尺寸,同时显著减少训练期间的记忆消耗。在图生成中应用U-net的主要问题是,与图像和三维体素不同,没有典型的可以在图上执行池化和上池化的方法。为了在分子图上执行池化和上池化,作者设计了一个自定义的聚类方案:
1)在第一级聚类中,具有一个化合价的原子,如氢、卤素和羰基中的氧,被分解成它们的相邻原子。对于大多数分子来说,几乎有一半的原子是氢原子,消耗了大量的GPU内存。这种水平的聚类使我们能够通过将氢的信息压缩到其邻近的重原子中,从而有效地将氢包含到生成过程中;
2)在第二级聚类中,分子被分裂成环和链。这种方法以前被用于定义分子骨架,进而组织骨架数据集。破碎后,同一环或链上的原子聚集在一起;
3)在聚类的最终级中,所有节点都被分解为单个图级主节点。
图3给出了该方案的可视化展示。在定义了聚类方法后,可以定义池化和上池化操作,如图2c,d所示。
图3. 一种自定义的三层节点聚类方案,用于三层节点聚类操作。
2.6 策略网络
使用状态编码器创建当前状态Gi的连续表示后,再使用策略网络来决定应该执行哪些操作。回顾一下策略网络需要做出的决策的三种类型:
1)添加”操作过程中新原子的类型和位置;
2)在“连接”操作过程中,要连接的原子和连接键的类型;
3)要添加的新原子的等级;
在“添加”操作期间,创建一个或多个原子并添加到聚焦原子v’中。(如图4所示)将一个新创建的原子表示为元组v∗=(a,b,x),其中a是原子类型,b是用于连接新原子和焦点原子的键类型,x=(r,θ,φ)是这个新原子在局部坐标系中的球坐标。添加操作的策略网络可以写为:
其中,m是要添加的新原子数。与之前大多数用于3D分子的自回归模型相比,此方法在一次迭代中生成了所有连接到v∗的原子(图5)。这主要有两个优点。首先,它可以节省计算资源(因为状态编码器对每个步骤只运行一次)。其次,由于相邻原子的位置是高度相关的,一起生成它们可以隐性地提高模型的性能。
图4:与(a)3D分子生成中的大多数自回归模型不同,模型方法(b)将所有连接到焦点原子上的原子作为一个群生成。
对于“连接”操作中的每个可能的动作,首先计算其非归一化分数:
其中,MLP是全连接层。然后使用softmax对这些分数进行标准化:
向量
中的值
表示使用b类型的新键将焦点原子v’与v连接的概率。
表示跳过“连接A”操作并直接进入“添加”操作的概率。
当对生成的原子进行排序时,我们首先计算新原子的每个排列的一个非归一化分数:
然后是归一化概率:
然后排序从p(σ)中抽样进行。
三、实验结果
3.1 生成的样本、有效性和唯一性
作者构建了ChEMBL的一个类药分子子集,用于训练和评估该模型。图5显示了L-Net生成有效和唯一分子的能力。模型可以达到高达94.3%的输出有效性。对于%uniq,数值通常接近100%,表明没有过度训练或模式崩溃。注意,使用SoftMADE显著提高了模型的性能,表明朴素的MADE确实存在低维流形的问题。
图5. L-Net的性能,以有效性和唯一性来衡量
图6a显示了几个随机生成的样本的拓扑和3D结构。目测来看,这些分子具有正确的局部几何形状。例如,sp3和sp2杂化原子正确地采用了四面体和平面几何形状,芳香族体系正确地形成了平面结构。图6b中展示了具有有效化学结构的输出分子的百分比,这选择的超参数的影响。星形表示性能最好的超参数。
图6. a.L-Net随机生成的几个样本。b.具有有效化学结构的输出分子的百分比
3.2 分子性质的分布
作者研究了生成分子的拓扑性质。图7展示了使用不同的超参数组合生成的样本与验证集和测试集中的样本各种拓扑性质的平均值和标准差。图8给出了生成分子(蓝色)和测试集分子(灰色)的分布的可视化表示,使用核密度估计的概率值或连续性质的直方图。直方图下方也给出了箱线图。
可能会注意到的第一件事是,生成分子的性质往往比在测试集中更分散。这可以用表2中每个属性的标准差来证明。这表明该模型可能优先考虑模式的覆盖范围,而不是精度,精度和召回率值的结果也支持了这一点。每个性质的平均值都匹配得很好,对于分子量,差值小于10。还可以注意到,在生成的分子和真实分子的QED分布之间出现了很大的差异(图8f)。这是在数据选择过程中,硬截止值为0.5的结果。
图7. 利用不同的超参数生成的分子的二维分子性质分布。
图8:生成分子和测试集分子的二维分子性质的分布。a.分子量(MW)。b.LogP。c.氢键受体的数量(HBA)。d.氢键供体的数量(HBD)。e.可旋转键的数量(ROTB)。f.定量评估类药性(QED)。模型生成的分子为蓝色,测试集分子为灰色。
本文仅列出部分实验结果,详见原文。
四、总结
在这项工作中,作者引入了L-Net,一个新的深度生成3D类药分子的模型。先前在这一方向上的研究要么集中在结构简单的分子上,要么不是端到端的,需要结合多个组件和算法才能工作。相比之下,作者提出的方法直接输出分子的三维和拓扑结构,而不需要额外的原子放置或键序推断工作。实验结果表明,该模型能够产生化学正确、构象有效和类似药物的分子。
参考文献
Li, Yibo, Jianfeng Pei, and Luhua Lai. "Learning to design drug-like molecules in three-dimensional space using deep generative models." arXiv preprint arXiv:2104.08474 (2021).