

项目 | 内容 |
|---|---|
标题 | AutoLead: An LLM-Guided Bayesian Optimization Framework for Multi-Objective Lead Optimization |
作者 | Yiming Zhang, Jun Jin Choong, Kaushalya Madhawa, Keisuke Ozawa |
期刊 | Journal of Chemical Information and Modeling, 2026, 66 (9), 5091–5100 |
数据/代码 | LipinskiFix-1000 数据集与代码已在 Figshare 开源:10.6084/m9.figshare.3039895310.6084/m9 . figshare.32040558 |
先导化合物优化(Lead Optimization)是药物研发流程中承上启下的关键环节,本质是一个高维、强耦合的多目标黑盒优化问题。论文提出 AutoLead,核心思想是让大语言模型(LLM)承担"提议生成器 + 逆映射解码器"的角色,贝叶斯优化(BO)承担"不确定性驱动的决策核心",两者通过一个随迭代轮次渐进切换的概率调度机制耦合在一起,无需外部分子检索库,也无需任何针对分子编辑任务的指令微调。论文在三个基准——ChatDrug-200、DrugAssist-500,以及作者新构建的、更贴近真实药物化学场景的 LipinskiFix-1000——上系统验证了该框架,在绝大多数任务上取得了对现有方法(ChatDrug、MoleculeSTM 等)的大幅领先,并通过多组消融实验定位了性能增益的来源。
论文指出,与早期的虚拟筛选不同,Lead Optimization 要求化学家在保留药效的同时,对一系列相互牵制的理化/药代性质做联合调整——溶解度、膜通透性、成药性(QED)等往往无法同时单调改善。传统做法依赖专家启发式或基于规则的局部编辑,这类方法在目标简单、空间小的场景下可行,但面对组合爆炸的化学空间和强耦合的多目标约束时难以规模化。
论文将此前的 LLM 分子优化工作归纳为两条路线,并分别指出局限:
AutoLead 试图同时绕开这两条路线的代价:不需要外部检索数据库,也不需要为分子编辑专门微调 LLM。其做法是让 LLM 利用自身固有的化学结构-功能知识提出候选分子,这些候选作为种子供 BO 使用;BO 基于高斯过程(GP)建模的历史表现与不确定性估计,在"探索"与"利用"之间做有原则的决策,从而让框架能够在 LLM 驱动的探索与 GP 驱动的精确利用之间动态切换。

设 𝒮 为所有合法 SMILES 字符串的集合,定义性质评估器
f : 𝒮 → ℝ^d返回包括 QED、logP、TPSA、氢键供体/受体数、分子量等在内的 d 维目标属性向量。优化目标为
max_{s∈𝒮} U(f(s))其中 U(·) 对 d 个目标做聚合,默认取均匀平均:U(f(s)) = (1/d)·Σᵢ fᵢ(s)。

BO 无法直接在离散的 SMILES 空间上运作,论文为此引入一个 10 维归一化 RDKit 描述符空间 φ: 𝒮 → [0,1]^p(p = 10)。每个描述符除以一个固定的归一化常数,使其落入 [0,1]:
描述符 | 归一化常数 |
|---|---|
分子量(MW) | 500 Da |
脂溶性(logP) | 5.0 |
极性表面积(TPSA) | 200 Ų |
氢键供体数(HBD) | 10 |
氢键受体数(HBA) | 10 |
可旋转键数 | 20 |
环计数 | 10 |
芳香环数 | 5 |
饱和环数 | 5 |
sp³ 碳比例 | 本身已在 [0,1],无需归一化 |
这一设计的用意很明确:这 10 个维度本身就是药物化学中公认的可解释指标,归一化之后能显著改善 GP 的条件数和采集函数优化的稳定性——这与此前关于"目标尺度和信赖域势能在优化过程中是动态的"这一类工作的建议是一致的。需要强调:f 是性质评估器(比如直接算 logP 这种具体目标),而 φ 是用于优化的分子表征,两者角色不同。
把 BO 在描述符空间中找到的最优点 x 转换回一个真实、合法的 SMILES,这一步(逆映射 φ⁻¹)在数学上通常是不可解的。常规思路是训练一个解码器(如 VAE),但这需要额外的数据与训练成本。
论文给出的方案非常轻巧:不训练任何解码器,而是把目标向量"翻译"成一句自然语言提示,交给 LLM 生成。例如把向量 x verbalize 为类似"生成一个分子量约 310 Da、logP 约 3.5、……的分子"这样的句子,让 LLM 据此直接产出候选 SMILES。整体优化过程近似表示为:
ŝ = φ⁻¹(x) ≈ G_LLM( verbalize(x) )即 BO 在连续潜空间里高效搜索最优向量,LLM 驱动的逆映射充当"翻译桥梁",把抽象的优化结果落地为具体分子,最终再用性质评估器 f 验证是否满足目标。
这一设计是全文工程上最具巧思的部分:把"表征学习/解码器训练"问题转化为"提示工程"问题,代价从训练数据和算力,转移到了对 LLM 化学常识的依赖。第 5.1 节的消融实验专门验证了这一选择优于传统 VAE 解码器。
沿用标准 GP-BO 范式,记第 t−1 步为止的观测数据为 𝒟_{t-1} = {(xᵢ, uᵢ)}。在效用函数 U(x) 上放置 GP 先验,得到后验预测均值与方差:
μ_{t-1}(x) = k_{t-1}(x)ᵀ K⁻¹ y
σ²_{t-1}(x) = k(x,x) − k_{t-1}(x)ᵀ K⁻¹ k_{t-1}(x)其中 K 是训练输入的 Gram 矩阵(K_{ij} = k(xᵢ, xⱼ)),k_{t-1}(x) 是测试点与训练点之间的协方差向量,y 是历史观测效用值。协方差函数 k(·,·) 采用径向基函数核(RBF kernel)。
BO 每一步通过最大化**置信上界(UCB)**采集函数来选取下一个候选点:
x_t = argmax_x [ μ_{t-1}(x) + β_t · σ_{t-1}(x) ]论文说明 β 的取值与特征维度 p 相关——这是 GP-UCB 理论(Srinivas et al., 2010)中为保证探索-利用权衡的理论遗憾界(regret bound)而设计的标准做法,维度越高,探索项的权重也相应调整。
论文采用一种渐进式(transient)混合策略,让框架从"LLM 驱动的探索"逐步过渡到"BO 驱动的利用"。具体地,第 t 轮以概率 p_t 决定是否调用 BO:
z_t ~ Bernoulli(p_t) # p_t 随 t/T 单调上升
若 z_t = 1 且 |𝒟_{t-1}| ≥ τ: 使用 BO 提议 + LLM 逆映射解码
否则: 直接由 LLM 生成新分子 G_LLM其中 T 为总迭代预算,τ = 3,即至少累积 3 个观测点后才允许 BO 介入——避免在数据极少、GP 后验极不稳定时就贸然让 BO 主导决策。这种"先广撒网收集多样化候选,再逐步收紧到精确优化"的节奏,是整篇论文反复强调的设计哲学。
默认的标量化方式是对 d 个目标做均匀平均聚合为单一效用 U。但算法在迭代过程中会持续维护一个非支配解集合(Pareto 前沿归档),因此最终输出并不只是"按某个固定权重打分最高的一个分子",而是一组帕累托最优候选,为后续人工筛选保留了灵活性。
整个优化循环大致可概括为:
实验中,ChatDrug-200 与 DrugAssist-500 上的迭代预算统一设为 T = 10。
为了拆解"LLM 单独作用"与"BO 单独作用"各自的贡献,论文设计了三个变体进行系统对比:
变体 | 机制 |
|---|---|
LLMO(LLM-only) | 全程仅依赖 LLM,根据历史分子与属性自主生成候选 |
BO | 全程由 GP 代理 + UCB 主导搜索,LLM 仅承担逆映射解码角色 |
HO(Hybrid Optimizer,主推方案) | 按 §2.6 的渐进式概率调度,在 LLM 探索与 BO 利用间动态切换 |
ChatDrug-200:从 ChatDrug 框架中整理出的 200 个分子,覆盖 16 个单目标 + 12 个多目标编辑任务,涉及 logP、QED、TPSA(渗透性代理指标)、HBA/HBD 计数的调整,并区分宽松(loose)与严格(strict)两档改善阈值 Δ。
DrugAssist-500:从 DrugAssist 基准整理出的 500 个分子,任务覆盖溶解度、QED、HBA/HBD 等多属性联合优化。原始基准还包含 BBBP(血脑屏障通透性)、hERG 抑制等任务,但由于 RDKit 无法直接计算这两项,论文将评测聚焦在可由 RDKit 直接计算的溶解度、QED、HBA/HBD 任务上,同样区分宽松/严格阈值。
LipinskiFix-1000(本文新提出的基准):从高质量蛋白-配体复合物数据库 HiQBind 出发,筛选出违反 Lipinski 五规则中至少一项的真实配体分子,并施加分子量、脂溶性、QED 等额外质量约束以控制结构复杂度,去重后随机抽取 1000 个配体构成该基准。每条数据同时保留其蛋白靶点上下文信息,并标注违反的具体规则。任务目标是双重的:主目标恢复 Lipinski 五规则全部合规,次目标最大化 QED——这比单纯调整一两个数值的任务更贴近真实药物化学工作流。
基线沿用了以预训练自回归模型 MegaMolBART 为骨架的一组方法:Random、PCA、High-Variance、GS-Mutate,以及以 SMILES 为表征的 MoleculeSTM,再加上以 GPT-3.5-turbo 和 GPT-4o 为后端 LLM 的 ChatDrug。对于 ChatDrug 基线,论文将对话轮数设为 10 并重新运行其实现以保证评测口径一致;其余基线沿用 DrugAssist 论文中报告的数值。
所有方法均独立运行 3 次,报告均值与标准差。
在单目标设置下,AutoLead-HO 在多个严格阈值任务上(如 HBA+、QED+)显著超过包括 ChatDrug(GPT-4o)在内的所有基线。在更具挑战性的 12 个多目标任务上,HO 在除 logP&TPSA- 之外的全部任务上取得最佳表现(MoleculeSTM-SMILES 在 TPSA 降低相关任务上较强,但其余场景被 AutoLead 全面超越)。两个具有代表性的数字:
任务(严格阈值 Δ=0.5–1) | AutoLead-HO | 此前最优(ChatDrug) |
|---|---|---|
logP- & HBD+(同时降低 logP、增加氢键供体) | 76.8% | 3.3% |
logP+ & HBA+(同时增加 logP、增加氢键受体) | 20.0% | 0.2% |
结果同样确认了 HO 的泛化能力,在严格阈值设置下优势更为明显:
任务(严格阈值 Δ=1) | AutoLead 表现 | ChatDrug |
|---|---|---|
logP- & HBA+ | HO:72.0% | 0.8% |
HBD+ | BO 变体:70.7% | GPT-4o 版本:4.2% |
这是论文着力最深的部分。成功率定义为同时满足 Lipinski 五规则且 QED ≥ 0.7:
方法 | Success Rate | Valid Rate |
|---|---|---|
ChatDrug | 3.87% | 79.3% |
MoleculeSTM | 13.9% | 49.4% |
AutoLead-HO | 28.9% | 93.6% |
值得注意的是,AutoLead-HO 不仅成功率大幅领先,有效率也同步领先(93.6% vs. 79.3%/49.4%),说明其优势不是靠放宽化学合理性换来的。
论文在 Fig.2 中展示了若干在 LipinskiFix-1000 上成功优化的真实案例:多个转化显示分子量与 logP 明显下降、HBD/HBA 计数被调整到合理区间,QED 同步显著提升;具体的编辑手段包括策略性引入氟原子、环收缩、去除冗余官能团等。论文强调这些修改在化学上是合理的,并且保留了原始分子的核心骨架,这与药物化学中"最小必要修改"的实践直觉相符。ChatDrug-200 与 DrugAssist-500 上的额外案例见论文补充材料 Fig. S2。

这一部分是本文区别于一般"刷榜论文"的关键——作者用一系列对照实验定位了性能增益究竟来自框架的哪个组件。
将 AutoLead-BO 中的 LLM 逆映射解码器替换为 VAE 解码器,分别测试 16 / 32 / 128 维潜空间,在 ChatDrug-200 的代表性任务(QED+、logP+&HBD+)上对比。所有 VAE 变体均不及 LLM 驱动方案。这一结果直接验证了"用语言模型做反向翻译"这一设计选择的有效性,也说明传统解码器要从一个仅由理化属性定义的潜空间映射回高质量、有效的分子结构,本身存在结构性困难。
按算法设计,若 LLM 逆映射解码失败或产出无效 SMILES,系统会回退到由 LLM 直接生成分子(G_LLM)。为排除"BO 只是摆设、真正干活的是回退路径"这种可能性,作者在 LipinskiFix-1000 上分别统计了"经由 BO+LLM 逆映射路径生成"与"经由直接生成回退路径生成"两类分子的有效率与成功率。结果显示逆映射路径的分子有效率和成功率都明显高于回退路径,确认逆映射解码器确实在发挥实质性作用,而不仅是一个偶尔失效就被绕过的摆设组件。
作者统计了 HO 策略在不同任务上实际调用 BO 的步数比例,发现这一比例会随任务难度系统性变化:
任务 | BO 使用比例 |
|---|---|
logP+(Δ=0,简单单目标) | 0.17% |
QED+(较难单目标) | 56.19% |
logP+ & HBD+(多目标) | 56.62% |
LipinskiFix-1000(最难、多重严格约束) | 64.8%(峰值) |
这组数字很有说服力:简单任务上 LLM 自身的化学直觉几乎就够用,BO 几乎不出场;而面对真正复杂的多目标约束时,框架会自动把更多决策权交给基于不确定性建模的 BO。这验证了混合调度机制不是一个固定配比的"伪装组合",而是确实在"看场合办事"。
将 LLM 后端由 GPT-3.5-turbo 升级到 GPT-4o:
且无论后端如何切换,HO 始终保持在 85% 以上的有效率,持续优于 LLMO。作者据此提出一个有意思的假说:更强的 LLM 在充当"逆映射解码器"这一角色时收益更大——因为这一角色对模型的化学知识精度要求更高,BO 的结构化搜索正好能把更强 LLM 的能力转化为实际的优化收益,而单纯让 LLM 自由探索(LLMO)则更难"榨干"模型能力提升带来的增量。
对比 2 维、5 维、10 维描述符空间下 AutoLead-HO 的表现:10 维在 ChatDrug-200 与 DrugAssist-500 上平均表现更优;差距在 LipinskiFix-1000 上被进一步放大:
特征维度 | LipinskiFix-1000 成功率 |
|---|---|
2D | 2.9% |
5D | 2.3% |
10D | 28.9% |
10 维相对 2D/5D 提升接近一个数量级,说明对于结构复杂、约束众多的真实先导优化任务,精简特征集不足以支撑有效搜索,丰富的描述符集合才能真正刻画多目标优化所需的解空间结构。
以下几点是笔者在阅读后认为值得关注、但论文未必专门展开讨论的问题,供读者批判性思考:
AutoLead 的价值不在于又造出了一个"更大的模型",而在于一个工程取舍清晰、消融充分的系统设计: