

论文全称:A Model to Search for Synthesizable Molecules 发表会议:NeurIPS 2019 作者机构:剑桥大学 × 图灵研究所 × 伦敦大学学院 × BenevolentAI × 明斯特大学 代码开源:https://github.com/john-bradshaw/molecule-chef
计算机辅助药物设计(Computer-Aided Drug Design, CADD)是现代制药研发的核心工具之一。随着深度学习的兴起,生成式分子设计(Generative Molecular Design)逐渐成为热门研究方向,其目标是训练深度生成模型,在化学空间中自动搜索具有特定性质(如药物活性、溶解度、类药性)的新分子。
然而,现有的分子生成方法面临一个根本性的矛盾:模型可以生成结构上"好看"的分子,却无法保证这些分子在实验室中能够被实际合成。
虚拟筛选是最经典的计算分子发现方法,流程为:
核心局限:生成过程完全非定向(non-targeted)。考虑到药物样分子空间估计在 之间,而虚拟筛选通常只能覆盖 ,相当于大海捞针。

以 Gómez-Bombarelli et al. (2018) 的字符级变分自编码器(CVAE)为代表,核心思路是:
核心局限:
合成规划(如 Segler et al. 2018, Nature)通过递归地逆推反应路径来规划分子合成,但它独立于分子搜索问题,无法在搜索的同时生成合成路线。
本文的核心洞见是:分子搜索问题(Molecular Search Problem)和分子合成问题(Molecular Recipe Problem)本质上可以被统一建模。
如果生成过程本身就是"模拟化学反应",那么生成的每一个分子天然地附带了合成路线,无需事后补充。这种设计不仅解决了合成可行性问题,还通过引入化学反应的归纳偏置(Inductive Bias)提升了模型的外推能力和语义有效性。
给定性质评估函数 ,在分子图空间 中找到使 最大化的分子 :
本文以 QED(Quantitative Estimate of Drug-likeness)作为 的代理函数,因为 QED 可通过 RDKit 确定性计算。
给定一组易于获取的原料分子集合 (商业可购),以及目标分子 ,找到一个反应物子集 ,使得化学反应 能够生成 :
MoleculeChef 将两个问题统一为一个生成模型:
MoleculeChef 由两个核心组件组成:
连续隐空间 z
│
▼
MoleculeChef 解码器 (WAE)
│
▼
反应物多重集 x ⊆ R
│
▼
Molecular Transformer (MT)
│
▼
产物分子 y ⊆ G
对于任意分子图 (节点为原子,边为化学键类型),采用 4 层门控图神经网络(Gated Graph Neural Network, GGNN)计算分子嵌入 。
GGNN 的核心更新规则为:
其中 为边类型(单键、双键、三键)。
图级表示通过节点级表示的加权求和(聚合变换)得到,保证对节点排列的不变性:
选择 GGNN 而非摩根指纹(Morgan Fingerprints)或独立嵌入的优势在于:
编码器 将反应物多重集 映射为隐空间上的分布,分三步完成:
Step 1 — 分子嵌入:对每个反应物 ,用 GGNN 计算
Step 2 — 多重集聚合(顺序无关):
求和操作保证了对多重集中分子顺序的不变性(order-invariant),这是处理无序集合的关键设计。
Step 3 — 隐空间参数化:通过前馈网络参数化高斯分布:
解码器 从连续隐向量 生成反应物多重集,采用 RNN 顺序生成,每步从预定义原料库 中选择一个分子(或停止)。
初始化:,其中 为可学习的投影矩阵,将隐空间维度映射到 RNN 隐层维度。
逐步生成(Algorithm 1 详解):
for t = 1 to T_max:
h_t = RNN(m_{t-1}, h_{t-1}) # 更新隐状态
B = STACK([GGNN(g) for g in R] + [s]) # 所有原料嵌入 + 停止嵌入
logits = h_t · B^T # 计算每个原料的得分
x_t ~ softmax(logits) # 采样选择
if x_t == HALT: break # 停止条件
else: m_t = GGNN(x_t) # 已选分子反馈关键设计要点:
s 是可学习的停止嵌入,与原料嵌入处于同一度量空间,使得模型自适应决定反应物数量论文选用 Schwaller et al. (2019) 提出的 Molecular Transformer 作为反应预测器。MT 基于 Transformer 架构,将化学反应建模为 SMILES 序列间的 seq2seq 翻译问题:
MT 在反应预测任务上达到当时的 SOTA 性能(Top-1 准确率约 88.7%)。
MoleculeChef 的模块化设计使得反应预测器可以独立升级——随着反应预测技术的进步,整个框架的上限也随之提升。
变分自编码器(VAE)通过最大化 ELBO 训练:
然而,VAE 在与复杂解码器(如 RNN)配合时存在著名的后验崩溃(Posterior Collapse)问题:解码器过于强大,导致 KL 项趋于 0,隐变量完全失去信息承载能力。大量图生成工作(JTVAE、CGVAE 等)均需要人为调低 KL 权重以规避此问题。
本文选用 Wasserstein 自编码器(WAE),其目标函数为:
其中:
WAE 与 VAE 的核心差异在于:VAE 约束每个编码 接近先验,而 WAE 只约束边缘分布 接近先验。这使得编码器可以为每个数据点产生更集中的分布(甚至退化为确定性映射),从根本上规避后验崩溃。
实验验证表明 WAE 训练更稳定,不存在 VAE 的局部最优问题。
为支持隐空间中的梯度导向优化(Local Optimization),模型同时训练一个性质预测网络 (2 层 MLP):
总体训练目标:
其中 为 MSE 损失。
USPTO 数据集(Lowe 2012):美国专利商标局化学反应数据库,经 Jin et al. (2017) 处理和清洗。
筛选策略:
最终数据规模:
指标 | 定义 | 方向 |
|---|---|---|
有效性(Validity) | 产物中至少一个分子可被 RDKit 解析的比例 | ↑ |
唯一性(Uniqueness) | 有效产物中从未生成过的比例 | ↑ |
新颖性(Novelty) | 有效分子中不在训练集中的比例 | ↑ |
质量(Quality) | 通过 Brown et al. 质量过滤器的有效分子比例(训练集归一化) | ↑ |
FCD(Fréchet ChemNet Distance) | 生成分子与训练集分子分布的 Fréchet 距离(基于 ChemNet 特征) | ↓ |
质量过滤器旨在去除"潜在不稳定、高反应活性、合成繁琐或药化学家视觉上不美观"的分子。
模型 | 表示方式 | 核心架构 |
|---|---|---|
CVAE (Gómez-Bombarelli 2018) | SMILES 字符串 | 字符级 VAE |
GVAE (Kusner 2017) | SMILES 解析树 | 语法 VAE |
AAE (Kadurin 2017) | SMILES | 对抗自编码器 |
CGVAE (Liu 2018) | 分子图 | 约束图 VAE |
LSTM (Segler 2017) | SMILES | 栈式 LSTM(无隐空间) |
从先验 采样 20,000 次,结果如下:
模型 | 有效性 % | 唯一性 % | 新颖性 % | 质量 % | FCD ↓ |
|---|---|---|---|---|---|
MoleculeChef + MT | 99.05 | 95.95 | 89.11 | 95.30 | 0.73 |
AAE | 85.86 | 98.54 | 93.37 | 94.89 | 1.12 |
CGVAE | 100.00 | 93.51 | 95.88 | 44.45 | 11.73 |
CVAE | 12.02 | 56.28 | 85.65 | 52.86 | 37.65 |
GVAE | 12.91 | 70.06 | 87.88 | 46.87 | 29.32 |
LSTM | 91.18 | 93.42 | 74.03 | 100.12 | 0.43 |

核心结论分析:
取 250 个训练集中的反应物多重集,编码进隐空间,然后:
取每次的最优 QED 分数,比较两种策略的分布。
结果:梯度优化策略下,最优 QED 分数的分布整体向高分区域移动,证明隐空间中确实存在有意义的性质梯度,可用于定向分子优化。

MoleculeChef 的独特之处在于,通过训练一个产物 → 隐空间的回归网络,可以将逆合成问题转化为隐空间的点估计问题:
目标产物 y
│ (GNN + 4层全连接)
▼
隐向量 z_pred
│ (MoleculeChef Decoder)
▼
预测反应物集合 x_pred
│ (Molecular Transformer)
▼
重建产物 y_pred在 USPTO 测试集的过滤子集上评估(已去除与训练集重叠的反应),分为两类:
评估指标:原始产物 QED 分数 vs. 重建产物 QED 分数的 Pearson

类别 | |
|---|---|
可达产物 | 0.61 |
不可达产物 | 0.26 |
结果解读:
论文展示了从同一起始分子出发,在隐空间做随机游走时各方法的生成行为(Figure 9):
这一定性差异从化学角度验证了反应归纳偏置的有效性:从稳定原料通过已知反应类型生成的分子,在化学稳定性方面具有天然的保障。
维度 | 基于 SMILES 的方法 | 基于图的方法 | MoleculeChef |
|---|---|---|---|
分子表示 | SMILES 字符串 | 分子图 | 反应物多重集 + 分子图 |
有效性保障 | 弱(字符级易失效) | 中(图操作可掩码) | 强(原料天然有效) |
语义合理性 | 弱 | 中 | 强(反应归纳偏置) |
合成路线 | 无 | 无 | 有(天然输出) |
连续优化 | 是 | 是 | 是 |
逆合成 | 无 | 无 | 支持 |
训练复杂度 | 低 | 中 | 高(双模块) |
Segler et al. (2018) 的 AlphaZero 式合成规划工具基于大型反应数据库做多步逆合成搜索,是较强的计算合成规划系统。MoleculeChef 与之的关键区别在于:
局限性 | 具体表现 | 影响 |
|---|---|---|
单步反应 | 只能模拟一步合成,无法处理需要多步反应的复杂分子 | 显著限制可生成分子的化学空间 |
有限词汇表 | 原料仅限 4,344 种高频分子 | 无法生成需要稀有或非商业化原料的分子 |
反应类型未建模 | 模型不显式预测反应类型,依赖 MT 的黑箱预测 | 缺乏反应机理层面的可解释性 |
单一产物假设 | 97% 时间输出单一产物,但实际反应常有副产物 | 对副反应的处理不够精细 |
QED 作为代理 | QED 仅是药物活性的粗略代理,与实际生物活性相关性有限 | 优化结果未必有真实药学价值 |
本文的核心贡献可概括为以下四点:
① 范式创新:将分子搜索问题与分子合成问题统一建模,将"生成合成路线"从事后分析转变为生成过程的天然副产品,开创了"反应驱动的分子生成"新范式。
② 技术贡献:
③ 实验验证:在有效性、质量等关键指标上显著超越同期基线,并通过化学领域专家的定性评估,验证了化学归纳偏置的实际价值。
④ 任务扩展:展示了同一模型框架在逆合成任务上的应用潜力,为未来的多任务化学 AI 奠定基础。
MoleculeChef 提出的"反应驱动生成"思路在后续若干工作中得到延伸:
从更广的视角来看,MoleculeChef 体现了一个重要的设计哲学:通过引入领域知识的归纳偏置,生成式模型可以在减少搜索空间的同时,大幅提升输出的实用性和质量。这一思路在蛋白质结构生成、材料设计等相邻领域均具有借鉴价值。