前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Chem. Sci. | 北大来鲁华/裴剑锋团队: GNN+模板+聚类→反应条件预测强大新工具

Chem. Sci. | 北大来鲁华/裴剑锋团队: GNN+模板+聚类→反应条件预测强大新工具

作者头像
DrugAI
发布2025-02-10 20:23:15
发布2025-02-10 20:23:15
1170
举报
文章被收录于专栏:DrugAIDrugAI

研究介绍

近年来,计算机辅助合成路线规划 (CASP) 已经成为药物合成和天然产物合成领域的有力工具。而作为化学反应中不可或缺的组成部分,反应条件(包括催化剂,溶剂,试剂等)的准确预测愈发重要,因为相同的反应物在不同条件下可能会产生完全不同的产物。对反应条件的预测有助于在 CASP 中更好地选择可行的路线。

目前化学反应条件领域还存在很多有待解决的挑战。首先,一个好的预测模型提供的反应条件应满足化学合理性,能考虑不同组分(催化剂、溶剂和试剂)之间的兼容性。其次,由于将反应物转化为产物的可行反应条件通常不是唯一的,好的预测模型应该能推荐尽可能多的可行反应条件,而这在以前的研究中被忽略了。

针对上述问题,北京大学来鲁华/裴剑锋团队开发了一种全新的反应条件预测方法 Reacon (Figure 1),该方法结合了图神经网络 (D-MPNN)、反应模板和聚类算法,为反应条件预测提供了更全面的解决方案。

  • Figure 1. Reacon 框架的预测流程

作者在 USPTO 反应条件数据集上对于模型进行了训练。测试结果表明 Reacon 在 Top-3 预测中以 63.48% 的概率成功预测出与文献记录一致的反应条件,并以 85.65% 的概率预测出同类型的反应条件。作者还测试了模型在近期发表的 12 条在研药物合成路线上的表现,Reacon 在 Top-3 预测中以 85% 的概率成功预测出了与文献同类型的条件,显示出其在实际应用中的潜力。

1、反应条件数据收集

作者将反应条件分为催化剂(catalyst)、溶剂(solvent)和试剂(reagent)三部分。从原始 USPTO 专利数据中剔除了含有出现频次低于 5 次的催化剂、溶剂或试剂的反应数据。同时,每条反应条件最多包含 1 个催化剂、2 个溶剂和 3 个试剂。

2、条件预测模型

对于每一个反应条件组分,研究团队使用 D-MPNN 模型进行编码。模型的输入为反应物的分子图和反应物与产物的差异图,模型的输出为候选条件的使用概率。D-MPNN表现明显优于其它模型(包括基于普遍性的模型和基于 MLP 的 RCR 模型等)。在催化剂、溶剂 1、溶剂 2、试剂 1、试剂 2 、试剂 3 上分别达 93.12%、61.93%、86.61%、68.23%、80.44% 和 96.05% 的准确率。

3、模板-条件库

为了解决模型预测的反应组分可能存在不兼容的问题,作者提出了一种基于模板的策略。考虑到具有相同反应模板的反应往往具有相似的反应机制和反应条件,因此利用训练数据构建了模板-条件库,并提取了三种不同类型的反应模板:r1、r0 和 r0*。r1 和 r0 是通过 RDChiral 工具以不同半径提取的模板;r0* 则是从 r0 模板中仅保留原子和键得到的最简形式。最终,研究团队构建了包含 26,228 个 r1 模板、9,755 个 r0 模板和 7,106 个 r0* 模板的模板-条件库。其中 r1 模板最为具体,而 r0 和 r0* 则有更高的泛化能力。在预测过程中,模型会依照 r1,r0,r0* 的顺序从模板-条件库中搜索与输入反应模板相同的记录条件,作为候选条件。

4、条件聚类算法

为提升预测结果的多样性,研究团队设计了一种基于分子特征的聚类算法。该算法通过提取 31 个常见分子标签(如醇、醚、氧化剂、离子化合物等)对每种反应条件组分进行特征描述,并定义具有相同催化剂标签且共享两个以上相同溶剂和试剂标签的反应为相似反应。从 Figure 2 中的例子可以看出,添加聚类算法后,预测结果的多样性显著提升。

结合 D-MPNN 模型、模板-条件库和聚类算法,作者发展了 Reacon 方法。该方法在 USPTO 测试集上的 Top-3 预测准确率达到 63.48%,同类型条件预测准确率达到 85.65%。在 12 条近期在 Journal of Medicinal Chemistry drug annotation 上发表的药物合成路线上的测试表明 Reacon 在 Top-3 预测中以 85% 的概率成功获得了与文献同类型的条件(Figure 3 给出了一个代表性的例子)。这些研究结果表明 Reacon 在真实场景化学反应条件预测中具有广阔的应用前景。

  • Figure 2. 使用聚类算法前后的预测结果案例
  • Figure 3.LNP1892 的合成路线及预测的反应条件

该工作近日以 “Reacon: a template- and cluster-based framework for reaction condition prediction” (《Reacon:一种基于模板与聚类的 GNN 反应条件预测模型》) 为题发表在英国皇家化学会的旗舰期刊 Chemical Science 上。来鲁华教授裴剑锋研究员为论文的通讯作者,化学与分子工程学院本科生王梓涵和博士后林康杰为论文共同第一作者。

论文信息

  • Reacon: a template- and cluster-based framework for reaction condition prediction Zihan Wang‡, Kangjie Lin‡, Jianfeng Pei* and Luhua Lai* Chem. Sci., 2025, 16, 854-866 https://doi.org/10.1039/D4SC05946H

作者简介

王梓涵 本科生

北京大学

本文第一作者,北京大学化学与分子工程学院 21 级本科生,主要研究方向为计算机辅助有机反应条件预测。

林康杰 博士后

北京大学

本文第一作者,北京大学化学与分子工程学院博雅博士后,主要研究方向为天然产物和药物分子的逆合成路线预测和反应预测。

裴剑锋 特聘研究员

北京大学

本文通讯作者,北京大学前沿交叉学科研究院特聘研究员,博士生导师,长期从事化学信息学、生物信息学和药物设计研究,在国际重要学术刊物上发表论文 60 余篇, 申请获得专利 6 项,软件著作权 8 项。主持新药创制国家科技重大专项等多个国家项目。获得过中国药学会施维雅青年药物化学奖、药明康德生命化学研究奖等奖项。

来鲁华 教授

北京大学

本文通讯作者,北京大学化学与分子工程学院教授,博士生导师,北京大学-清华大学生命科学联合中心资深研究员,中国医学科学院药物设计方法研究创新单元主任。现任中国化学会理事,物理化学学科委员会主任,中国晶体学会副理事长,中国生物信息学会生物信息与药物发现专业委员会主任,Journal of Medicinal Chemistry 副主编,Journal of Chemical Information and Modeling 以及 Journal of Molecular Recognition 等杂志顾问编委。长期从事物理化学与生命科学和药学交叉研究,致力于通过揭示生物机制和发展创新理论计算方法来推动我国原创药物领域的发展,发表研究论文 300 余篇,申请专利或软件版权 30 余项。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究介绍
  • 论文信息
  • 作者简介
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档