首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >NeurIPS | MoleculeChef:面向可合成分子搜索的生成模型

NeurIPS | MoleculeChef:面向可合成分子搜索的生成模型

作者头像
DrugIntel
发布2026-07-01 20:32:39
发布2026-07-01 20:32:39
120
举报

论文全称:A Model to Search for Synthesizable Molecules 发表会议:NeurIPS 2019 作者机构:剑桥大学 × 图灵研究所 × 伦敦大学学院 × BenevolentAI × 明斯特大学 代码开源:https://github.com/john-bradshaw/molecule-chef


目录

  1. 1. 研究背景与动机
  2. 2. 问题定义
  3. 3. 模型架构详解
  4. 4. 训练目标与优化策略
  5. 5. 实验设计与结果分析
  6. 6. 逆合成预测
  7. 7. 定性评估
  8. 8. 与相关工作的对比
  9. 9. 局限性与未来方向
  10. 10. 学术价值与影响

一、研究背景与动机

1.1 AI 驱动的药物分子发现

计算机辅助药物设计(Computer-Aided Drug Design, CADD)是现代制药研发的核心工具之一。随着深度学习的兴起,生成式分子设计(Generative Molecular Design)逐渐成为热门研究方向,其目标是训练深度生成模型,在化学空间中自动搜索具有特定性质(如药物活性、溶解度、类药性)的新分子。

然而,现有的分子生成方法面临一个根本性的矛盾:模型可以生成结构上"好看"的分子,却无法保证这些分子在实验室中能够被实际合成

1.2 现有方法的三大范式及其局限

范式一:虚拟筛选(Virtual Screening, VS)

虚拟筛选是最经典的计算分子发现方法,流程为:

  1. 1. 通过手工规则枚举分子片段的组合,生成大规模候选库()
  2. 2. 对每个候选分子计算目标性质(模拟或预测模型)
  3. 3. 筛选评分最高的分子进行实验合成

核心局限:生成过程完全非定向(non-targeted)。考虑到药物样分子空间估计在 之间,而虚拟筛选通常只能覆盖 ,相当于大海捞针。

范式二:机器学习从头设计(ML De Novo Design)

以 Gómez-Bombarelli et al. (2018) 的字符级变分自编码器(CVAE)为代表,核心思路是:

  • • 将分子映射至连续隐空间(Latent Space)
  • • 在连续空间中用梯度下降或贝叶斯优化进行性质优化
  • • 将优化结果解码回分子结构

核心局限

  • 合成可行性缺失:模型完全不考虑分子能否被合成,生成的分子往往不具有实际实验价值
  • 有效性问题:SMILES 字符串表示极为脆弱,随机采样时有效分子比例可低至 0.7%(Kusner et al.)
范式三:合成规划(Synthesis Planning, SP)

合成规划(如 Segler et al. 2018, Nature)通过递归地逆推反应路径来规划分子合成,但它独立于分子搜索问题,无法在搜索的同时生成合成路线。

1.3 核心研究动机

本文的核心洞见是:分子搜索问题(Molecular Search Problem)和分子合成问题(Molecular Recipe Problem)本质上可以被统一建模

如果生成过程本身就是"模拟化学反应",那么生成的每一个分子天然地附带了合成路线,无需事后补充。这种设计不仅解决了合成可行性问题,还通过引入化学反应的归纳偏置(Inductive Bias)提升了模型的外推能力和语义有效性。


二、问题定义

2.1 分子搜索问题(Molecular Search Problem)

给定性质评估函数 ,在分子图空间 中找到使 最大化的分子 :

本文以 QED(Quantitative Estimate of Drug-likeness)作为 的代理函数,因为 QED 可通过 RDKit 确定性计算。

2.2 分子合成问题(Molecular Recipe Problem)

给定一组易于获取的原料分子集合 (商业可购),以及目标分子 ,找到一个反应物子集 ,使得化学反应 能够生成 :

2.3 联合建模框架

MoleculeChef 将两个问题统一为一个生成模型:

  • • :连续隐空间向量
  • • :反应物多重集(reactant bag)
  • • :反应产物分子集合

三、模型架构详解

3.1 整体结构

MoleculeChef 由两个核心组件组成:

代码语言:javascript
复制
连续隐空间 z
      │
      ▼
 MoleculeChef 解码器 (WAE)
      │
      ▼
 反应物多重集 x ⊆ R
      │
      ▼
 Molecular Transformer (MT)
      │
      ▼
 产物分子 y ⊆ G

3.2 分子图表示:门控图神经网络(GGNN)

对于任意分子图 (节点为原子,边为化学键类型),采用 4 层门控图神经网络(Gated Graph Neural Network, GGNN)计算分子嵌入 。

GGNN 的核心更新规则为:

其中 为边类型(单键、双键、三键)。

图级表示通过节点级表示的加权求和(聚合变换)得到,保证对节点排列的不变性:

选择 GGNN 而非摩根指纹(Morgan Fingerprints)或独立嵌入的优势在于:

  • • 显式考虑分子图的拓扑结构
  • • 学习哪些特征对高层表示重要
  • • 在有机小分子任务上具有强大的实证表现

3.3 编码器(Encoder)

编码器 将反应物多重集 映射为隐空间上的分布,分三步完成:

Step 1 — 分子嵌入:对每个反应物 ,用 GGNN 计算

Step 2 — 多重集聚合(顺序无关):

求和操作保证了对多重集中分子顺序的不变性(order-invariant),这是处理无序集合的关键设计。

Step 3 — 隐空间参数化:通过前馈网络参数化高斯分布:

3.4 解码器(Decoder)

解码器 从连续隐向量 生成反应物多重集,采用 RNN 顺序生成,每步从预定义原料库 中选择一个分子(或停止)。

初始化:,其中 为可学习的投影矩阵,将隐空间维度映射到 RNN 隐层维度。

逐步生成(Algorithm 1 详解):

代码语言:javascript
复制
for t = 1 to T_max:
    h_t = RNN(m_{t-1}, h_{t-1})       # 更新隐状态
    B = STACK([GGNN(g) for g in R] + [s])   # 所有原料嵌入 + 停止嵌入
    logits = h_t · B^T                 # 计算每个原料的得分
    x_t ~ softmax(logits)              # 采样选择
    if x_t == HALT: break             # 停止条件
    else: m_t = GGNN(x_t)             # 已选分子反馈

关键设计要点:

  • 停止机制(Halt Embedding):s 是可学习的停止嵌入,与原料嵌入处于同一度量空间,使得模型自适应决定反应物数量
  • 自回归反馈:已选反应物被送回 RNN 作为下一步输入,捕捉反应物之间的依赖关系
  • 训练期随机排序:多重集无固定顺序,训练时对反应物排列进行随机采样,配合教师强制(Teacher Forcing)

3.5 反应预测模型:Molecular Transformer(MT)

论文选用 Schwaller et al. (2019) 提出的 Molecular Transformer 作为反应预测器。MT 基于 Transformer 架构,将化学反应建模为 SMILES 序列间的 seq2seq 翻译问题:

MT 在反应预测任务上达到当时的 SOTA 性能(Top-1 准确率约 88.7%)。

MoleculeChef 的模块化设计使得反应预测器可以独立升级——随着反应预测技术的进步,整个框架的上限也随之提升。


四、训练目标与优化策略

4.1 为何选择 WAE 而非 VAE

变分自编码器(VAE)通过最大化 ELBO 训练:

然而,VAE 在与复杂解码器(如 RNN)配合时存在著名的后验崩溃(Posterior Collapse)问题:解码器过于强大,导致 KL 项趋于 0,隐变量完全失去信息承载能力。大量图生成工作(JTVAE、CGVAE 等)均需要人为调低 KL 权重以规避此问题。

本文选用 Wasserstein 自编码器(WAE),其目标函数为:

其中:

  • • :重建损失(与 VAE 一致)
  • • :正则化项,本文采用最大均值差异(Maximum Mean Discrepancy, MMD)
  • • :正则化权重
  • • :标准正态先验

WAE 与 VAE 的核心差异在于:VAE 约束每个编码 接近先验,而 WAE 只约束边缘分布 接近先验。这使得编码器可以为每个数据点产生更集中的分布(甚至退化为确定性映射),从根本上规避后验崩溃。

实验验证表明 WAE 训练更稳定,不存在 VAE 的局部最优问题。

4.2 性质预测网络

为支持隐空间中的梯度导向优化(Local Optimization),模型同时训练一个性质预测网络 (2 层 MLP):

总体训练目标:

其中 为 MSE 损失。


五、实验设计与结果分析

5.1 数据集

USPTO 数据集(Lowe 2012):美国专利商标局化学反应数据库,经 Jin et al. (2017) 处理和清洗。

筛选策略:

  • 过滤试剂:按照 Schwaller et al. 的方法,去除仅提供反应环境而不贡献原子的试剂(reagents)
  • 高频原料过滤:仅保留在训练集中出现 ≥ 15 次的原料分子,确保原料库的实际可获取性

最终数据规模:

  • • 训练集:34,426 个唯一反应物多重集
  • • 原料词汇表:4,344 种原料分子

5.2 评估指标

指标

定义

方向

有效性(Validity)

产物中至少一个分子可被 RDKit 解析的比例

唯一性(Uniqueness)

有效产物中从未生成过的比例

新颖性(Novelty)

有效分子中不在训练集中的比例

质量(Quality)

通过 Brown et al. 质量过滤器的有效分子比例(训练集归一化)

FCD(Fréchet ChemNet Distance)

生成分子与训练集分子分布的 Fréchet 距离(基于 ChemNet 特征)

质量过滤器旨在去除"潜在不稳定、高反应活性、合成繁琐或药化学家视觉上不美观"的分子。

5.3 基线方法

模型

表示方式

核心架构

CVAE (Gómez-Bombarelli 2018)

SMILES 字符串

字符级 VAE

GVAE (Kusner 2017)

SMILES 解析树

语法 VAE

AAE (Kadurin 2017)

SMILES

对抗自编码器

CGVAE (Liu 2018)

分子图

约束图 VAE

LSTM (Segler 2017)

SMILES

栈式 LSTM(无隐空间)

5.4 生成质量评估结果

从先验 采样 20,000 次,结果如下:

模型

有效性 %

唯一性 %

新颖性 %

质量 %

FCD ↓

MoleculeChef + MT

99.05

95.95

89.11

95.30

0.73

AAE

85.86

98.54

93.37

94.89

1.12

CGVAE

100.00

93.51

95.88

44.45

11.73

CVAE

12.02

56.28

85.65

52.86

37.65

GVAE

12.91

70.06

87.88

46.87

29.32

LSTM

91.18

93.42

74.03

100.12

0.43

核心结论分析

  • 有效性 99.05%:由于解码器只从预定义的化学稳定原料库中选择分子,进入反应预测器的分子本身是有效的,产物有效性的流失仅来自反应预测器的非完美预测(约 0.95%)。这与 CVAE(12.02%)和 GVAE(12.91%)的灾难性低有效性形成鲜明对比。
  • 质量分 95.30%:CGVAE 虽然有效性 100%(通过掩码强制语法有效),但质量分仅 44.45%——说明"语法有效"并不等于"化学合理"。MoleculeChef 通过从化学稳定原料出发、经由真实反应生成产物的归纳偏置,天然地倾向于生成语义合理的分子。
  • FCD 0.73:接近 LSTM(0.43)。LSTM 无隐空间,相当于直接拟合训练分布,FCD 低是预期内的。MoleculeChef 在保持连续优化能力的前提下,FCD 已相当有竞争力。
  • 新颖性 89.11%:MoleculeChef 生成的分子中绝大多数不在训练集中,体现了其外推能力。97% 的采样输出为单一产物,与其他方法的指标定义等价。

5.5 局部优化实验

取 250 个训练集中的反应物多重集,编码进隐空间,然后:

  • 梯度优化:沿性质预测网络 的梯度方向迭代移动,解码 10 个不同的反应物多重集
  • 随机游走:在隐空间做随机游走,同样解码 10 次

取每次的最优 QED 分数,比较两种策略的分布。

结果:梯度优化策略下,最优 QED 分数的分布整体向高分区域移动,证明隐空间中确实存在有意义的性质梯度,可用于定向分子优化。

六、逆合成预测

6.1 方法设计

MoleculeChef 的独特之处在于,通过训练一个产物 → 隐空间的回归网络,可以将逆合成问题转化为隐空间的点估计问题:

代码语言:javascript
复制
目标产物 y
     │  (GNN + 4层全连接)
     ▼
  隐向量 z_pred
     │  (MoleculeChef Decoder)
     ▼
  预测反应物集合 x_pred
     │  (Molecular Transformer)
     ▼
  重建产物 y_pred

6.2 评估策略

在 USPTO 测试集的过滤子集上评估(已去除与训练集重叠的反应),分为两类:

  • 可达产物(Reachable Products):所有反应物均在 MoleculeChef 的原料词汇表中
  • 不可达产物(Unreachable Products):至少一个反应物不在词汇表中

评估指标:原始产物 QED 分数 vs. 重建产物 QED 分数的 Pearson

6.3 结果

类别

可达产物

0.61

不可达产物

0.26

结果解读

  • • 可达产物 :模型能较好地找到产生与目标类似性质分子的反应物组合,但并非精确匹配原始反应物(这在单步、有限词汇表的约束下是预期内的)。
  • • 不可达产物 :即使原始反应路线超出模型词汇表范围,模型仍能在受限条件下找到替代反应物,生成性质相似的分子。这一结果尤其有实际意义:如果目标分子的精确合成路线过于复杂,模型可以推荐一条更易实现、且产物性质相近的替代路线

七、定性评估

7.1 隐空间随机游走

论文展示了从同一起始分子出发,在隐空间做随机游走时各方法的生成行为(Figure 9):

  • CVAE / GVAE:生成的分子中出现大量被领域专家标注为"不稳定、有毒、强氧化性、腐蚀性"的结构
  • MoleculeChef:在整个随机游走过程中,生成的分子均通过专家的定性检验,未出现明显的化学缺陷

这一定性差异从化学角度验证了反应归纳偏置的有效性:从稳定原料通过已知反应类型生成的分子,在化学稳定性方面具有天然的保障。


八、与相关工作的对比

8.1 技术路线对比

维度

基于 SMILES 的方法

基于图的方法

MoleculeChef

分子表示

SMILES 字符串

分子图

反应物多重集 + 分子图

有效性保障

弱(字符级易失效)

中(图操作可掩码)

强(原料天然有效)

语义合理性

强(反应归纳偏置)

合成路线

有(天然输出)

连续优化

逆合成

支持

训练复杂度

高(双模块)

8.2 与合成规划工作的区别

Segler et al. (2018) 的 AlphaZero 式合成规划工具基于大型反应数据库做多步逆合成搜索,是较强的计算合成规划系统。MoleculeChef 与之的关键区别在于:

  • 目标不同:合成规划的输入是已知目标分子,MoleculeChef 的目标是同时发现新分子并给出合成路线
  • 深度不同:MoleculeChef 目前仅支持单步反应,合成规划支持多步
  • 互补关系:两者并非竞争,MoleculeChef 可以作为合成规划的前端,提供候选分子及初步路线

九、局限性与未来方向

9.1 当前局限

局限性

具体表现

影响

单步反应

只能模拟一步合成,无法处理需要多步反应的复杂分子

显著限制可生成分子的化学空间

有限词汇表

原料仅限 4,344 种高频分子

无法生成需要稀有或非商业化原料的分子

反应类型未建模

模型不显式预测反应类型,依赖 MT 的黑箱预测

缺乏反应机理层面的可解释性

单一产物假设

97% 时间输出单一产物,但实际反应常有副产物

对副反应的处理不够精细

QED 作为代理

QED 仅是药物活性的粗略代理,与实际生物活性相关性有限

优化结果未必有真实药学价值

9.2 未来研究方向

  1. 1. 多步反应扩展:将单步反应框架扩展为多步,可与 MCTS(蒙特卡洛树搜索)等合成规划算法结合
  2. 2. 更大的原料词汇表:通过分层原料表示或迁移学习,支持更广泛的原料库
  3. 3. 反应条件建模:显式建模溶剂、温度、催化剂等反应条件,提升合成路线的完整性
  4. 4. 贝叶斯优化集成:将隐空间优化从局部梯度优化升级为全局贝叶斯优化,更高效地探索化学空间
  5. 5. 真实生物活性优化:引入分子对接或高通量筛选数据,替代 QED 作为优化目标
  6. 6. 可解释性增强:在反应物选择过程中引入注意力机制,揭示模型决策背后的化学逻辑

十、学术价值与影响

10.1 核心贡献

本文的核心贡献可概括为以下四点:

① 范式创新:将分子搜索问题与分子合成问题统一建模,将"生成合成路线"从事后分析转变为生成过程的天然副产品,开创了"反应驱动的分子生成"新范式。

② 技术贡献

  • • 提出基于 WAE 的反应物多重集生成模型,有效规避 VAE 的后验崩溃问题
  • • 设计了保序不变的多重集编码方案(求和聚合 + GGNN)
  • • 首次实现可微分的端到端分子生成与性质优化管道

③ 实验验证:在有效性、质量等关键指标上显著超越同期基线,并通过化学领域专家的定性评估,验证了化学归纳偏置的实际价值。

④ 任务扩展:展示了同一模型框架在逆合成任务上的应用潜力,为未来的多任务化学 AI 奠定基础。

10.2 对后续研究的启示

MoleculeChef 提出的"反应驱动生成"思路在后续若干工作中得到延伸:

  • REACT(2021)等工作进一步探索了基于反应模板的分子优化
  • 合成可达性约束成为 2020 年后分子生成领域的重要研究课题
  • • 将生成式 AI 与化学反应数据库结合的方向,至今仍是 AI 制药的核心趋势之一

10.3 方法论意义

从更广的视角来看,MoleculeChef 体现了一个重要的设计哲学:通过引入领域知识的归纳偏置,生成式模型可以在减少搜索空间的同时,大幅提升输出的实用性和质量。这一思路在蛋白质结构生成、材料设计等相邻领域均具有借鉴价值。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目录
  • 一、研究背景与动机
    • 1.1 AI 驱动的药物分子发现
    • 1.2 现有方法的三大范式及其局限
      • 范式一:虚拟筛选(Virtual Screening, VS)
      • 范式二:机器学习从头设计(ML De Novo Design)
      • 范式三:合成规划(Synthesis Planning, SP)
    • 1.3 核心研究动机
  • 二、问题定义
    • 2.1 分子搜索问题(Molecular Search Problem)
    • 2.2 分子合成问题(Molecular Recipe Problem)
    • 2.3 联合建模框架
  • 三、模型架构详解
    • 3.1 整体结构
    • 3.2 分子图表示:门控图神经网络(GGNN)
    • 3.3 编码器(Encoder)
    • 3.4 解码器(Decoder)
    • 3.5 反应预测模型:Molecular Transformer(MT)
  • 四、训练目标与优化策略
    • 4.1 为何选择 WAE 而非 VAE
    • 4.2 性质预测网络
  • 五、实验设计与结果分析
    • 5.1 数据集
    • 5.2 评估指标
    • 5.3 基线方法
    • 5.4 生成质量评估结果
    • 5.5 局部优化实验
  • 六、逆合成预测
    • 6.1 方法设计
    • 6.2 评估策略
    • 6.3 结果
  • 七、定性评估
    • 7.1 隐空间随机游走
  • 八、与相关工作的对比
    • 8.1 技术路线对比
    • 8.2 与合成规划工作的区别
  • 九、局限性与未来方向
    • 9.1 当前局限
    • 9.2 未来研究方向
  • 十、学术价值与影响
    • 10.1 核心贡献
    • 10.2 对后续研究的启示
    • 10.3 方法论意义
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档