Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICLR2020 | GraphAF:基于FLOW的分子图自回归生成模型

ICLR2020 | GraphAF:基于FLOW的分子图自回归生成模型

作者头像
智能生信
发布于 2021-04-26 02:28:52
发布于 2021-04-26 02:28:52
1.5K0
举报
文章被收录于专栏:智能生信智能生信

作者 | 庞超 编辑 | 庞超

今天给大家介绍的是北京大学和上海交通大学的Chence Shi等人在2020年的ICLR上发表的会议论文GraphAF: A flow-based autoregressive model for molecular graph generation。分子的图生成作为药物发现的基本问题,正在引起越来越多的关注。这个问题非常具有挑战性,因为它不仅需要产生化学上有效的分子结构,而且还需要同时优化它们的化学性质。受深度生成模型最新进展的启发,本文提出了一种基于Flow的图生成自回归模型,称为GraphAF。GraphAF结合了自回归和基于Flow的方法的优点,可以高效并行计算训练,允许利用化学领域知识进行有效性检查。实验结果表明,即使没有化学知识规则,GraphAF也能产生68%的化学有效分子。在通过强化学习对目标导向的性质优化模型进行微调后,GraphAF实现了最先进的性能。

一、研究背景

设计具有期望性质的新分子结构是药物发现和材料科学等学科中的基本问题。这个问题非常具有挑战性,因为化学空间本质上是离散的,而且搜索空间巨大。得益于此领域的大量数据,机器学习在分子设计可以大展拳脚。近年来,越来越多的研究者开始开发可以自动生成化学有效的分子结构,同时优化其性能的机器学习算法

目前出现的先进的机器学习算法包括变分自编码器,生成对抗网络与循环神经网络等,图1中展示了以前最先进的分子图生成模型。其中训练过程的比较只在自回归模型之间进行。

图1. 分子图生成模型

最近,除了上述三种生成模型外,Flow已经取得了显著进展,并成功应用于密度估计、变分推理和图像生成。基于Flow的方法定义了潜在分布(例如高斯分布)和真实世界的高维数据之间的可逆变换。这样的可逆映射允许计算精确的数据似然。同时,通过使用隐空间和观测空间之间的多层非线性变换,Flow对数据密度的建模能力很高。此外,根据不同应用场景的要求,可以设计不同的架构来促进快速训练或快速采样。

受上述模型的启发,作者提出了一种基于Flow的自回归模型,称为GraphAF。它具有较高的模型容量,因此能够模拟真实分子数据的密度。GraphAF的采样过程为一个自回归模型,它基于现有的子图结构动态生成节点和边,这样的顺序生成过程允许在每个生成步骤中利用化学领域知识和有效性检查,这保证了生成的分子结构的有效性。同时,与GCPN和MRNN这类训练期间的自回归模型不同,GraphAF定义了从分子图结构到基分布的前馈神经网络,因此能够并行计算精确的数据似然。因此,GraphAF的训练过程非常高效。

二、模型与方法

2.1 模型框架

作者将分子图生成问题形式化为一个顺序决策过程。设G=(A,X)表示一个分子图结构。从空图G1开始,在每个步骤中基于当前子图结构Gi,生成新节点Xi。然后,该新节点与现有节点之间的边根据当前图结构顺序生成。重复此过程,直到生成所有节点和边缘。图2中给出了一个示例。

图2. 生成过程的说明图示

GraphAF的目标是定义一个从基分布(多元高斯分布)到分子图结构G=(A,X)的可逆变换。注意作者在两个节点之间添加了一种额外类型的边,对应于两个节点之间没有边。由于节点类型Xi和边缘型Aij都是离散的,不适合基于Flow的模型,标准方法是采用反量化技术,通过添加实值噪声将离散数据转换为连续数据。作者采用这种方法,将离散图G=(A,X)预处理为连续数据z=(zA,zX):

在形式上,作者将生成的条件分布定义为:

其中四个g为用于定义高斯分布均值和标准差的神经网络的参数。更具体地说,给定当前子图结构Gi,作者使用L层的Relational GCN学习节点嵌入HiL,和整个子图的嵌入hi,基于定义的高斯分布的均值和标准差分别生成节点和边缘:

其中sum表示sum-pooling操作,Hi,jL表示在嵌入HiL的第j个节点的嵌入。mµx,mαx是一种多层感知器(MLP),它根据当前的子图嵌入来预测节点类型。而mµA,mαA是根据当前的子图嵌入和节点嵌入来预测边缘类型的MLP。

为了生成一个新的节点Xi和其连接到现有节点的边,只需从基高斯分布中采样随机变量ϵi和ϵij,并将其转换为离散特征。

2.2 高效的并行训练

在GraphAF中,由于f:ℇ→Z是自回归的,因此f-1:Z→ℇ过程的雅可比矩阵是三角矩阵,其行列式可以非常高效地计算。给定一小批训练数据G,通过下图的公式,可以有效地计算出给定顺序下每个分子的精确密度。最终的目标是最大化训练数据的似然。

在训练过程中,作者通过使用掩蔽来定义输入分子图G和输出隐变量之间的前馈神经网络来进行并行计算。为了进一步加快训练过程,训练图的节点和边缘根据广度优先搜索(BFS)顺序进行重新排序。由于BFS的性质,键只能存在于相同或连续的BFS深度内的节点之间。因此,节点之间的最大依赖距离受单个BFS深度中最大节点数量的限制。在作者的数据集中,任何单个BFS深度都不超过12个节点,这意味着只需要构建当前原子和最新产生的12个原子之间的边。

2.3 有效性约束

在化学中,存在着许多化学规则,它们可以帮助产生有效的分子。由于是顺序生成过程,GraphAF可以在每个生成步骤中利用这些规则。具体地说,可以在采样期间应用有效性约束,以检查当前化学键是否符合有效性规则,作者通过下式检验有效性:

其中X代表原子,Aij代表原子间的化学键。如果新添加的键打破了有效性约束,模型将拒绝键A,并在隐空间中采样一个新的ϵij并生成另一个新的键类型。如果图的尺寸达到最大尺寸或新生成的原子与先前的子图之间不产生键,生成过程将终止。最后,氢被添加到没有填满其化合价的原子中。

三、实验结果

根据现有的关于分子生成的工作,作者在三个标准任务上与最先进的方法进行比较实验。

1. 密度建模和生成,评估模型学习数据分布和生成真实与多样的分子的能力。

2. 性能优化,生成具有优化化学性质的新分子。对于这项任务,作者微调从密度建模任务预先训练的网络,以最大化所需的属性。

3. 约束性质优化问题。旨在修改给定的分子,以提高期望的性质,同时满足相似性约束。

实验结果如下:

图3. 生成分子有效性与新颖性(分子重建只在具有隐空间的模型中对比

图4. 惩罚logP与QED分数优化

图5. 约束性质优化

从实验结果可以看出,与基线模型相比,GraphAF模型达到了目前最先进的性能。

四、总结

作者提出了GraphAF,第一个基于Flow的自回归模型,以生成真实和多样的分子图。由于标准化Flow的灵活性,GraphAF能够模拟复杂的分子分布,并在实验中生成新的和100%有效的分子。此外,GraphAF的训练是非常高效的。为了优化生成分子的性质,作者通过强化学习对生成过程进行了微调。实验结果表明,GraphAF在标准任务上优于以往所有最先进的基线模型。未来作者计划在更大的数据集上训练GraphAF模型,并将其扩展到生成其他类型的图结构(例如,社交网络)。


代码

https://github.com/DeepGraphLearning/GraphAF

参考文献

Chence Shi, Minkai Xu, Zhaocheng Zhu, Weinan Zhang, Ming Zhang, and Jian.Tang. 2020.

GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation.

ICLR 2020, Addis Ababa, Ethiopia, Apr.26-Apr. 30, 2020 (2020)


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
分子表示是本研究理解物质世界的关键要素,也是现代分子机器学习的基础。以往的分子机器学习模型通常使用字符串、指纹特征、全局特征以及简单的分子图,这些表示方式本质上信息较为稀疏。然而,随着预测任务复杂度的提升,分子表示需要编码更高保真度的信息。本研究提出了一种新的方法,通过立体电子效应将富含量子化学信息的数据注入分子图中,从而增强其表达能力与可解释性。通过定制的双图神经网络流程学习预测含立体电子信息的分子表示,使该表示能够应用于任何下游的分子机器学习任务,而无需昂贵的量子化学计算。本研究表明,显式地加入立体电子信息能显著提升二维图神经网络模型在分子性质预测任务中的性能。此外,本研究还展示了在小分子上训练得到的分子表示可以准确地外推至更大的分子结构,揭示了先前难以处理的体系(如完整蛋白质)中轨道相互作用的化学机理,为分子设计开辟了新途径。
DrugAI
2025/06/07
690
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
arXiv|GraphDF:一种分子图生成的离散流模型
今天给大家介绍的是来自德州农工大学的Shuiwang Ji等人发表在预印网站arXiv的文章GraphDF: A Discrete Flow Model for Molecular Graph Generation。在分子图的生成问题中。虽然分子图是离散的,但大多数现有的方法都使用连续的隐变量,从而导致对离散的图结构不正确的建模。在这项工作中,作者提出了一种新的基于流并使用离散隐变量的分子图生成模型。GraphDF使用可逆模移位变换,将离散的隐变量映射到图节点和边。作者表示,使用离散的隐变量降低了计算成本,并消除了反离散化的负面影响。实验结果表明,GraphDF在随机生成、性质优化和约束优化任务上的性能优于以往的方法。
智能生信
2021/06/24
9730
arXiv|GraphDF:一种分子图生成的离散流模型
基于分解和重组的分子图的生成方法
今天为大家介绍的是来自Masatsugu Yamada 和 Mahito Sugiyama的一篇关于分子生成的论文。在药物发现和材料设计中,设计具有所需化学性质的分子结构是一项重要任务。然而,由于候选分子空间的组合爆炸,找到具有优化所需性质的分子仍然是一项具有挑战性的任务。在这里,作者提出了一种全新的基于分解和重组的方法,该方法不包括任何在隐藏空间中的优化,并且生成过程具有高度的可解释性。该方法是一个两步过程:在第一步的分解阶段,对分子数据库应用频繁子图挖掘,以收集较小规模的子图作为分子的构建模块。在第二步的重组阶段,通过强化学习引导搜索理想的构建模块,并将它们组合起来生成新的分子。实验证明,作者方法不仅可以在惩罚性log P和药物相似度这两个标准指标下找到更好的分子,还可以生成显示有效中间分子的药物分子。
DrugAI
2023/09/19
3430
基于分解和重组的分子图的生成方法
BIB |基于分而治之的分子图片识别深度学习框架
今天给大家介绍中南大学曹东升教授/国防科技大学吴城堃教授/浙江大学侯廷军教授团队共同在国际期刊Briefings in Bioinformatics上发表的分子图片识别的文章《ABC-Net: a divide-and-conquer based deep learning architecture for SMILES recognition from molecular images》。该文章基于分而治之的思想提出把分子识别问题转换为其组成元素的识别,包括分子键线与原子字符标识,然后使用关键点识别技术进行相关元素的识别并重新组装恢复分子结构。该方法在构造的数据集以及基准测试集上较以前的方法取得了显著的提升。
DrugAI
2022/03/25
9230
BIB |基于分而治之的分子图片识别深度学习框架
中山大学邹青松团队提出DGCL模型,通过双图神经网络对比学习预测分子性质
在化学分子数据集中,有大量的未标记数据,而标记数据的比例相对较小。缺乏标签限制了监督学习方法的在分子性质预测任务上的直接适用性。自监督学习(SSL)使模型能够从未标记的数据中学习,在分子性质预测领域得到了广泛的关注。对比学习(CL)作为一种有效的SSL范式,在各个领域都表现出卓越的能力,现有的许多分子表示的CL方法采用不同的策略来提高预测精度。然而,这些方法可能会遇到表征之间的信息重叠,潜在地限制了模型学习能力的增强,缺乏基于已建立的先验知识生成增强表示的鲁棒策略。
智药邦
2024/11/13
2310
中山大学邹青松团队提出DGCL模型,通过双图神经网络对比学习预测分子性质
OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了吗?一文总结生物制药必备经典模型(二)
本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
机器之心
2023/08/07
5050
OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了吗?一文总结生物制药必备经典模型(二)
JACS|浙江大学侯廷军等:生成式AI助力药物分子结构优化全面综述
2024年11月5日,浙江大学侯廷军等人在Journal of the American Chemical Society期刊上发表了一篇题为“Deep Lead Optimization: Leveraging Generative AI for Structural Modification”的研究文章。
智药邦
2024/12/19
2.4K0
JACS|浙江大学侯廷军等:生成式AI助力药物分子结构优化全面综述
Survey | 基于生成模型的分子设计
今天给大家介绍MIT的Rafeal Gomez-Bombarelli教授发表在arXiv上的综述文章。文章对分子生成模型进行了分类,并介绍了各类模型的发展和性能。最后,作者总结了生成模型作为分子设计前沿工具的前景和挑战。
DrugAI
2021/02/02
9990
Survey | 基于生成模型的分子设计
Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
2022年3月5日,麻省理工学院化学工程系的Klavs F. Jensen等人在Wires Comput Mol Sci (影响因子25.113) 杂志发表文章,概述了分子发现生成模型的最新进展和挑战。主要内容整理和编译如下。
智药邦
2022/11/16
1.5K0
Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
ICLR 2022 under review | 从零开始生成三维分子几何结构的自回归流模型
今天给大家介绍的是ICLR2022上underreview的文章《An autoregressive flow model for 3d molecular geometry generation from scratch》。虽然目前已经开发了多种方法来生成分子图,但从零开始生成分子的三维几何结构问题并没有得到充分的探索。在这项工作中,作者提出了G-SphreNet,一种生成三维分子几何的自回归流模型。G-SphereNet采用了一种一步步将原子放置在三维空间上灵活的顺序生成方案,它并不直接生成三维坐标,而是通过生成距离、角度和扭转角来确定原子的三维位置,从而确保不变性和等变性。此外,作者建议使用球形信息传递和注意力机制进行条件信息提取。实验结果表明,G-SphreNet在随机分子几何结构生成和目标分子发现任务方面优于以往的方法。
智能生信
2021/11/02
9170
药物发现中的分子设计:深度生成模型的全面回顾
今天给大家介绍湖南大学刘元盛老师团队发表在Briefings in Bioinformatics 2021上的一篇文章“Molecular design in drug discovery: a comprehensive review of deep generative models”。文章回顾了深度生成模型,并根据计算机中的分子表征将这些模型分为两类,详细分析这两种经典类型的模型并讨论其优缺点,同时还指出了de novo分子设计的深度生成模型当前面临的挑战。
DrugAI
2021/09/17
3.5K0
药物发现中的分子设计:深度生成模型的全面回顾
ICLR 2022 | 三维分子图的球形信息传递
今天给大家介绍的是ICLR 2022 Poster的文章《Spherical Message Passing for 3D Molecular Graphs》。作者在此工作中考虑了三维分子图的表示学习,其中每个原子与三维的空间位置相关联。这是一个尚未得到充分探索的研究领域,目前还缺乏一个有效的信息传递框架。在这项工作中,作者在球坐标系(SCS)中进行了分析,以完整地识别三维图结构。基于此观察,作者提出了球形信息传递(SMP)作为一种新的和强大的三维分子学习方案。SMP显著降低了训练的复杂性,使其能够在大规模分子上有效地执行。此外,SMP能够区分几乎所有的分子结构,而未覆盖的案例在实际中可能并不存在。基于有意义的基于物理的三维信息表示,作者进一步提出了用于三维分子学习的SphereNet。实验结果表明,在SphereNet中使用有意义的三维信息可以显著提高预测任务的性能。结果还证明了SpherNet在可靠性、效率方面的优势。
智能生信
2022/04/06
1.3K0
ICLR 2022 | 三维分子图的球形信息传递
J Cheminform|DeepGraphMolGen:一种多目标的计算策略,图卷积和强化学习方法,用于生成具有理想性质的分子
今天给大家介绍的是利物浦大学的Yash Khemchandani等人发表在Journal of Cheminformatics上的论文“DeepGraphMolGen, a multi-objective, computational strategy for generating molecules with desirable properties: a graph convolution and reinforcement learning approach”。作者将产生具有期望相互作用性质的新分子的问题作为一个多目标优化问题来解决。由于实验获得的性质分数被认为具有潜在的总误差,作者对交互绑定模型采用了鲁棒损失,然后使用基于图卷积策略的强化学习进行优化。此外,作者还成功地将他们的方法扩展到使用多目标奖励函数。
智能生信
2021/02/04
8350
耶鲁大学提出分子语言模型MolLM,结合生物医学文本与分子的二维和三维表示
目前用于分子和文本联合表示的深度学习模型主要依赖于一维或二维分子格式,而忽略了提供有价值的物理见解的重要三维结构信息,因此限制了模型在广泛的模态范围内的多功能性和适应性。相反,专注于明确的三维表示的有限研究往往忽略了生物医学领域内的文本数据。因此,将二维和三维分子信息以及生物医学文本相结合的分子表示学习模型仍十分缺乏。
智药邦
2024/08/07
2230
耶鲁大学提出分子语言模型MolLM,结合生物医学文本与分子的二维和三维表示
MIT研究:机器学习模型可以帮助化学家以更快的速度制造出更高效的分子
为药物设计新分子需要手动,且耗时,容易出错。但麻省理工学院的研究人员现在已朝着完全自动化设计过程迈出了一步,这可以大大加快速度,并产生更好的结果。
AiTechYun
2018/07/27
4900
MIT研究:机器学习模型可以帮助化学家以更快的速度制造出更高效的分子
ArXiv|药物设计的分子生成:图学习视角
2022年2月18日,来自上海交通大学的严骏驰、袁野、潘小勇与百图生科的宋乐等人在ArXiv上发表文章,从(深度)图学习角度,基于生成策略将分子生成和优化方式分为三种:一次全部、基于片段和逐节点。概述了最先进的分子设计(和主要用于从头药物设计)和发现的辅助方法。
智药邦
2022/11/16
1K0
ArXiv|药物设计的分子生成:图学习视角
CELLS:潜在空间中目标定向分子生成的成本效益进化
本文介绍百度公司Zhiyuan Chen,Xiaomin Fang等人的研究成果:在寻找满足各种性质要求的分子时,由于无法搜索整个化学空间,近年来的研究都采用目标定向分子生成模型,倾向于利用迭代过程优化分子生成模型的参数。然而,大多数工作需要大量昂贵和耗时的评估过程,为了减少迭代过程中的评估,本文作者提出了一种具有成本效益的潜在空间进化策略——Cost-efficient evolution in latent space(CELLS),优化分子的潜在表示向量,采用一个预训练的分子生成模型来映射潜在和观察空间,利用大规模的未标记分子学习化学知识。为了进一步减少评估的数量,作者引入了一个预筛选器作为评估的代理。经过多个优化任务上的大量实验,所提出的框架在较少的评估下获得了更好的性能。
DrugAI
2022/03/25
3720
CELLS:潜在空间中目标定向分子生成的成本效益进化
Nat. Commun. | 用于分子生成的遮掩图生成模型
今天给大家介绍的是纽约大学于2021年5月26日发表在Nature Communications的一篇论文,作者引入了一个遮掩图模型(masked graph model,MGM),它通过捕获未观察到的节点(原子)和边(键)上的条件分布来学习图上的分布,通过迭代遮盖和替换初始化图的不同部分来训练并从中采样,并利用GuacaMol 分布学习基准评估QM9和 ChEMBL数据集上的表现。该模型优于先前提出的基于图的方法,并且与基于 SMILES 的方法可比。最后,作者展示了MGM模型生成具有指定属性所需值的分子,同时保持与训练分布的物理化学相似性。
DrugAI
2021/07/05
8590
精准预测分子性质,复旦大学周水庚团队提出基于图结构学习的分子图神经网络
分子性质预测(MPP)是计算机辅助药物发现过程中一项基础但又具有挑战性的任务。近年来,越来越多的研究采用不同的基于图的模型进行MPP预测,在提高预测性能方面取得了长足的进步。然而,目前的模型只是将分子本身建模成一个图,忽略了将分子之间的关系也建模成图。
智药邦
2024/06/11
1.3K0
精准预测分子性质,复旦大学周水庚团队提出基于图结构学习的分子图神经网络
ICLR2022 | SphereNet与G-SphereNet : 3D分子图表示与分子几何生成的自回归流模型
本期介绍德州农工大学CSE系Shuiwang Ji 教授(http://people.tamu.edu/~sji/)团队被ICLR2022接收的两个工作:SphereNet与G-SphereNet。
DrugAI
2022/03/25
5510
ICLR2022 | SphereNet与G-SphereNet : 3D分子图表示与分子几何生成的自回归流模型
推荐阅读
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
690
arXiv|GraphDF:一种分子图生成的离散流模型
9730
基于分解和重组的分子图的生成方法
3430
BIB |基于分而治之的分子图片识别深度学习框架
9230
中山大学邹青松团队提出DGCL模型,通过双图神经网络对比学习预测分子性质
2310
OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了吗?一文总结生物制药必备经典模型(二)
5050
JACS|浙江大学侯廷军等:生成式AI助力药物分子结构优化全面综述
2.4K0
Survey | 基于生成模型的分子设计
9990
Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
1.5K0
ICLR 2022 under review | 从零开始生成三维分子几何结构的自回归流模型
9170
药物发现中的分子设计:深度生成模型的全面回顾
3.5K0
ICLR 2022 | 三维分子图的球形信息传递
1.3K0
J Cheminform|DeepGraphMolGen:一种多目标的计算策略,图卷积和强化学习方法,用于生成具有理想性质的分子
8350
耶鲁大学提出分子语言模型MolLM,结合生物医学文本与分子的二维和三维表示
2230
MIT研究:机器学习模型可以帮助化学家以更快的速度制造出更高效的分子
4900
ArXiv|药物设计的分子生成:图学习视角
1K0
CELLS:潜在空间中目标定向分子生成的成本效益进化
3720
Nat. Commun. | 用于分子生成的遮掩图生成模型
8590
精准预测分子性质,复旦大学周水庚团队提出基于图结构学习的分子图神经网络
1.3K0
ICLR2022 | SphereNet与G-SphereNet : 3D分子图表示与分子几何生成的自回归流模型
5510
相关推荐
Nat. Mach. Intell. | 融合立体电子效应的分子图谱以推动分子机器学习表示的发展
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档