首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Commun. | 用于反应性能预测的基于化学知识的图模型

Nat. Commun. | 用于反应性能预测的基于化学知识的图模型

作者头像
DrugOne
发布2023-09-19 14:39:07
发布2023-09-19 14:39:07
5750
举报
文章被收录于专栏:DrugOneDrugOne

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Shuo-Qing Zhang和Xin Hong团队的一篇关于反应性能预测的论文。准确预测反应活性和选择性为合成开发提供所需的指导。由于分子结构和合成功能之间存在高维关系,要实现具有必要的外推能力和化学可解释性的合成转化预测是具有挑战性的。为了弥合化学丰富领域知识与先进分子图模型之间的差距,作者提出了一种基于知识的图模型。此外,还开发了一个分子相互作用模块,用于学习反应组分之间的协同影响。

对反应活性和选择性的化学理解和准确预测为合理高效地探索庞大的合成空间提供了基础。这种结构-性能关系的建立主要集中在研究反应机理和阐明决定性过渡态模型上。通过使用过渡态模型,化学家可以阐明观察到的反应活性/选择性趋势的起源,并基于化学理论和经验经验进行合成判断。这种经典的经验主导的策略在合成化学领域取得了显著的成功,并继续为新催化剂、试剂和反应的发现提供强有力的支持。尽管这种策略在合成领域中提供了定性指导的优势,但在没有明确的机理基础和分析方程的情况下处理高维的结构-性能关系是具有挑战性的。催化剂、添加剂甚至溶剂中看似微小的变化可能会对整体合成性能产生显著的扰动。这就是为什么仍然不可避免地需要费时费力的条件优化,从而限制了合成开发的效率。

图 1

数据驱动方法最近成为建立结构-性能关系的强大策略。通过利用合成数据内部的相互关系,现代机器学习(ML)算法可以创建强大的合成预测模型。然而,机器学习预测和设计合成转化仍然不够成熟。其中一个主要瓶颈是合适的分子编码方法和适用于结构-性能关系预测的机器学习框架的可用性(图1a)。量子化学描述符以其坚实的物理基础和高度描述能力而闻名,但其应用通常需要对潜在反应机理有精细的理解,并且对大规模筛选而言,描述符的生成可能耗时且消耗资源。基于字符串和拓扑结构的编码方法(如SMILES、分子指纹等)不需要对所研究的转化有专业知识,可以高效生成,但很难追溯合成性能的物理有机起源。此外,外推问题给结构-性能关系的预测带来了额外的挑战。目前的合成模型在开发新催化剂和转化方面仍然缺乏足够的指导。在这项工作中,作者报告了一个具有两个创新设计的反应性能模型(图1c):知识增强的分子图提供了一种无偏的方式来嵌入原子环境的数字化立体和电子信息,丰富了整个分子的表示,而不是指定控制位点;分子相互作用模块允许多个反应组分之间的协同控制的有效学习,实现了分子建模向结构-性能关系建模的有效扩展。

模型架构

图 2

知识增强的分子图的关键设计是将立体和电子环境的原子信息嵌入到节点中。这引入了外部化学知识,提高了模型在局部化学环境中的区分能力。作者设计的分子图模型,称为嵌入立体和电子信息的分子图(SEMG),的生成工作流程如图2所示。第一步是从SMILES生成一系列空顶点的分子图(图2a)。随后,分子在GFN2-xTB42的理论水平下进行优化,并使用球面投影方法进行局部立体环境的数字化(图2b)。这种方法被称为分子立体结构的球面投影(SPMS),通过将分子vdW表面与一个指定中心(在这种情况下为氯)的自定义球之间的距离投影来映射立体环境。映射距离球的等矩形投影创建了一个二维距离矩阵,用作图顶点的嵌入立体信息。对于局部电子环境的嵌入,使用了B3LYP/def2-SVP计算的电子密度(图2c)。这提供了在实空间中合理估计的电子密度分布,支持评估所选原子周围的电子环境。以所选原子为中心,将以vdW直径为边长的立方体划分为7×7×7个网格。计算得到的电子密度值被记录为一个7×7×7的张量,用作图模型顶点的嵌入电子信息。重复对每个原子进行立体和电子嵌入,得到用于模型训练的最终SEMG。为了确保优化几何结构和计算电子密度的物理准确性,作者对一系列理论方法进行了仔细的基准测试,发现GFN2-xTB优化和B3LYP/def2-SVP计算的电子密度提供了具有良好物理准确性和可承受计算成本的模型输入,适用于大规模筛选。

图 3

在SEMG丰富的化学信息基础上,作者修改了GNN的框架,使其适用于结构-性能关系的预测。特别地,作者开发了一个分子相互作用模块,以增强模型训练过程中反应组分之间的信息交流。分子间的协同相互作用对于确定结构-性能关系非常重要,但在合成预测模型设计中很少被探索。作者设计的分子相互作用GNN(MIGNN)依赖于矩阵运算来实现信息交流(图3)。反应组分的SEMG通过注意力层进行处理,其中权重值经过训练以捕捉原子对于反应性能的贡献。随后的线性、卷积、最大池化和扁平化层产生一个一维的反应向量。这个反应向量,是经过不均匀局部注意力处理的反应表示,被复制为两份。其中一份经过相互作用模块,增强了反应组分之间的信息交流。在相互作用模块中,反应向量的矩阵乘法使得每个反应组分的信息能够与其他组分的信息相互作用,其细节在方法部分进一步详述。这创建了一个相互作用矩阵,通过顺序注意力、卷积和扁平化层进行进一步处理,生成具有聚焦于特定交互对的能力的相互作用向量。相互作用向量和反应向量的另一份复制被连接成最终的一维向量,代表合成转化,并通过最后的注意力和线性层提供预测值。

实验结果

图 4

图 5

表 1

接下来,作者评估了SEMG-MIGNN模型的预测能力。作者使用Doyle的数据集和Denmark的数据集对产率和对映选择性进行了测试。Doyle的数据集涉及Pd催化的4-甲基苯胺和芳基卤化物之间的C-N交叉偶联反应,而Denmark的数据集涉及手性磷酸酯酸(CPA)催化的巯基加成到N-酰亚胺反应。这些高质量的数据集提供了宝贵的统计信息,完整地映射了给定研究反应组分的整个合成空间,在结构-性能关系的机器学习研究中被广泛应用作为基准数据集。涉及的数据规模和反应组分的变化如图4a和图5a所示。为了突出SEMG-MIGNN模型设计中化学信息嵌入和相互作用模块的有效性,将SEMG与经典的分子图(基准MG)进行了比较,后者在顶点中使用有限的原子描述(原子类型、原子序数、受体/给体的二进制定义等)。将MIGNN框架与不包含相互作用模块的经典GCN设计进行了比较。这些变化共同导致了四种可能的建模方法:基准MG-GCN、SEMG-GCN、基准MG-MIGNN和SEMG-MIGNN。Doyle的C-N偶联收率数据集被随机分成70%(训练)和30%(测试),进行了十次收率预测实验。每个模型的代表性回归表现如图4b所示。基准MG-GCN模型的预测结果令人不满意;R2值为0.545,RMSE为18.40%。将基准MG更换为嵌入化学信息的SEMG可以改善回归性能,SEMG-GCN模型的R2为0.592,RMSE为17.56%。令人满意的是,使用MIGNN进行训练显著提高了图表示的预测能力。即使是基准MG,基准MG-MIGNN模型也可以实现出色的收率预测,平均R2为0.921,RMSE为7.69%。这突出了Pd催化的C-N交叉偶联反应中反应组分的协同收率控制以及MIGNN框架捕获这种效应的能力。使用SEMG-MIGNN模型进一步提高了预测性能,它是测试的四个组合中最好的。代表性SEMG-MIGNN建模的R2和RMSE分别为0.969和4.81%。除了图表示和GNN框架的变化,作者还将SEMG-MIGNN模型与其他最先进的ML方法(Yield-BERT40,DRFP45和MFF13)进行了比较,这些方法没有嵌入立体和电子信息。表1展示了这些模型在数据集不同分割下的内插/外推预测性能。在具有不同训练数据比例的内插任务中,所有SOTA模型都能提供令人满意的预测性能,而SEMG-MIGNN模型的改进有限。然而,在外推任务中,SEMG-MIGNN显示出明显的优势。作者根据收率数据集中化合物的结构变化进行了基于骨架的分割,涉及芳基卤化物、添加剂、配体和碱等四个外推挑战。在这些外推任务中,测试的SOTA模型面临困难,RMSE值在18%至26%之间,预测的合成价值有限。SEMG-MIGNN模型可以对添加剂和配体进行准确的外推预测,RMSE分别为10.36%和11.02%。芳基卤化物和碱的外推更具挑战性,然而SEMG-MIGNN模型仍然比其他模型表现出显著优越的性能。

结论

作者开发了一种基于化学知识的机器学习模型,称为SEMG-MIGNN,用于预测合成性能。根据化学概念,实施了两个关键设计:首先,将立体和电子效应的局部化学环境进行数字化,并嵌入图表示中。这显著丰富了模型对原子环境的表征,并提高了模型对新分子结构的外推能力。此外,作者开发了一个交互模块,以增强反应组分之间的信息交换,同时保持分子间的边界,从而捕捉涉及多个反应组分的协同效应。

参考资料

Li, SW., Xu, LC., Zhang, C. et al. Reaction performance prediction with an extrapolative and interpretable graph model based on chemical knowledge. Nat Commun 14, 3569 (2023).

https://doi.org/10.1038/s41467-023-39283-x

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-21 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档