首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AutoLead:融合大语言模型与贝叶斯优化进行多目标先导化合物优化

AutoLead:融合大语言模型与贝叶斯优化进行多目标先导化合物优化

作者头像
DrugIntel
发布2026-06-29 14:07:27
发布2026-06-29 14:07:27
520
举报

文献信息

项目

内容

标题

AutoLead: An LLM-Guided Bayesian Optimization Framework for Multi-Objective Lead Optimization

作者

Yiming Zhang, Jun Jin Choong, Kaushalya Madhawa, Keisuke Ozawa

期刊

Journal of Chemical Information and Modeling, 2026, 66 (9), 5091–5100

数据/代码

LipinskiFix-1000 数据集与代码已在 Figshare 开源:10.6084/m9.figshare.3039895310.6084/m9 . figshare.32040558


摘要

先导化合物优化(Lead Optimization)是药物研发流程中承上启下的关键环节,本质是一个高维、强耦合的多目标黑盒优化问题。论文提出 AutoLead,核心思想是让大语言模型(LLM)承担"提议生成器 + 逆映射解码器"的角色,贝叶斯优化(BO)承担"不确定性驱动的决策核心",两者通过一个随迭代轮次渐进切换的概率调度机制耦合在一起,无需外部分子检索库,也无需任何针对分子编辑任务的指令微调。论文在三个基准——ChatDrug-200、DrugAssist-500,以及作者新构建的、更贴近真实药物化学场景的 LipinskiFix-1000——上系统验证了该框架,在绝大多数任务上取得了对现有方法(ChatDrug、MoleculeSTM 等)的大幅领先,并通过多组消融实验定位了性能增益的来源。


1. 研究背景与问题定位

1.1 先导化合物优化为何是多目标难题

论文指出,与早期的虚拟筛选不同,Lead Optimization 要求化学家在保留药效的同时,对一系列相互牵制的理化/药代性质做联合调整——溶解度、膜通透性、成药性(QED)等往往无法同时单调改善。传统做法依赖专家启发式或基于规则的局部编辑,这类方法在目标简单、空间小的场景下可行,但面对组合爆炸的化学空间和强耦合的多目标约束时难以规模化。

1.2 现有 LLM 路线及其局限

论文将此前的 LLM 分子优化工作归纳为两条路线,并分别指出局限:

  1. 1. 域内微调型 LLM(如 DrugAssist):在大规模分子编辑指令数据上做监督微调,在多属性优化上取得过领先结果,但严重依赖大规模、任务定制的指令微调数据集,迁移和复用成本高。
  2. 2. 通用 LLM + 对话式编辑(如 ChatDrug):通过提示工程和多轮对话迭代编辑分子,但其机制依赖外部分子数据库做检索,这本质上把探索限制在"已知化学空间"内,削弱了生成新颖候选分子的能力;此外其评测任务也多偏向单目标或松耦合的双属性场景,与真实 Lead Optimization 中紧耦合的多目标约束有差距。

1.3 AutoLead 的定位

AutoLead 试图同时绕开这两条路线的代价:不需要外部检索数据库,也不需要为分子编辑专门微调 LLM。其做法是让 LLM 利用自身固有的化学结构-功能知识提出候选分子,这些候选作为种子供 BO 使用;BO 基于高斯过程(GP)建模的历史表现与不确定性估计,在"探索"与"利用"之间做有原则的决策,从而让框架能够在 LLM 驱动的探索与 GP 驱动的精确利用之间动态切换。

2. 方法

2.1 问题形式化

设 𝒮 为所有合法 SMILES 字符串的集合,定义性质评估器

代码语言:javascript
复制
f : 𝒮 → ℝ^d

返回包括 QED、logP、TPSA、氢键供体/受体数、分子量等在内的 d 维目标属性向量。优化目标为

代码语言:javascript
复制
max_{s∈𝒮}  U(f(s))

其中 U(·) 对 d 个目标做聚合,默认取均匀平均:U(f(s)) = (1/d)·Σᵢ fᵢ(s)。

2.2 连续描述符空间:把"分子"变成"数字"

BO 无法直接在离散的 SMILES 空间上运作,论文为此引入一个 10 维归一化 RDKit 描述符空间 φ: 𝒮 → [0,1]^p(p = 10)。每个描述符除以一个固定的归一化常数,使其落入 [0,1]:

描述符

归一化常数

分子量(MW)

500 Da

脂溶性(logP)

5.0

极性表面积(TPSA)

200 Ų

氢键供体数(HBD)

10

氢键受体数(HBA)

10

可旋转键数

20

环计数

10

芳香环数

5

饱和环数

5

sp³ 碳比例

本身已在 [0,1],无需归一化

这一设计的用意很明确:这 10 个维度本身就是药物化学中公认的可解释指标,归一化之后能显著改善 GP 的条件数和采集函数优化的稳定性——这与此前关于"目标尺度和信赖域势能在优化过程中是动态的"这一类工作的建议是一致的。需要强调:f 是性质评估器(比如直接算 logP 这种具体目标),而 φ 是用于优化的分子表征,两者角色不同。

2.3 核心创新:LLM 驱动的"训练免费"逆映射解码器

把 BO 在描述符空间中找到的最优点 x 转换回一个真实、合法的 SMILES,这一步(逆映射 φ⁻¹)在数学上通常是不可解的。常规思路是训练一个解码器(如 VAE),但这需要额外的数据与训练成本。

论文给出的方案非常轻巧:不训练任何解码器,而是把目标向量"翻译"成一句自然语言提示,交给 LLM 生成。例如把向量 x verbalize 为类似"生成一个分子量约 310 Da、logP 约 3.5、……的分子"这样的句子,让 LLM 据此直接产出候选 SMILES。整体优化过程近似表示为:

代码语言:javascript
复制
ŝ = φ⁻¹(x) ≈ G_LLM( verbalize(x) )

即 BO 在连续潜空间里高效搜索最优向量,LLM 驱动的逆映射充当"翻译桥梁",把抽象的优化结果落地为具体分子,最终再用性质评估器 f 验证是否满足目标。

这一设计是全文工程上最具巧思的部分:把"表征学习/解码器训练"问题转化为"提示工程"问题,代价从训练数据和算力,转移到了对 LLM 化学常识的依赖。第 5.1 节的消融实验专门验证了这一选择优于传统 VAE 解码器。

2.4 贝叶斯代理建模:高斯过程

沿用标准 GP-BO 范式,记第 t−1 步为止的观测数据为 𝒟_{t-1} = {(xᵢ, uᵢ)}。在效用函数 U(x) 上放置 GP 先验,得到后验预测均值与方差:

代码语言:javascript
复制
μ_{t-1}(x) = k_{t-1}(x)ᵀ K⁻¹ y
σ²_{t-1}(x) = k(x,x) − k_{t-1}(x)ᵀ K⁻¹ k_{t-1}(x)

其中 K 是训练输入的 Gram 矩阵(K_{ij} = k(xᵢ, xⱼ)),k_{t-1}(x) 是测试点与训练点之间的协方差向量,y 是历史观测效用值。协方差函数 k(·,·) 采用径向基函数核(RBF kernel)

2.5 采集函数:UCB

BO 每一步通过最大化**置信上界(UCB)**采集函数来选取下一个候选点:

代码语言:javascript
复制
x_t = argmax_x [ μ_{t-1}(x) + β_t · σ_{t-1}(x) ]

论文说明 β 的取值与特征维度 p 相关——这是 GP-UCB 理论(Srinivas et al., 2010)中为保证探索-利用权衡的理论遗憾界(regret bound)而设计的标准做法,维度越高,探索项的权重也相应调整。

2.6 LLM-in-the-Loop 调度:何时该探索,何时该利用

论文采用一种渐进式(transient)混合策略,让框架从"LLM 驱动的探索"逐步过渡到"BO 驱动的利用"。具体地,第 t 轮以概率 p_t 决定是否调用 BO:

代码语言:javascript
复制
z_t ~ Bernoulli(p_t)        # p_t 随 t/T 单调上升
若 z_t = 1 且 |𝒟_{t-1}| ≥ τ:   使用 BO 提议 + LLM 逆映射解码
否则:                          直接由 LLM 生成新分子 G_LLM

其中 T 为总迭代预算,τ = 3,即至少累积 3 个观测点后才允许 BO 介入——避免在数据极少、GP 后验极不稳定时就贸然让 BO 主导决策。这种"先广撒网收集多样化候选,再逐步收紧到精确优化"的节奏,是整篇论文反复强调的设计哲学。

2.7 多目标处理

默认的标量化方式是对 d 个目标做均匀平均聚合为单一效用 U。但算法在迭代过程中会持续维护一个非支配解集合(Pareto 前沿归档),因此最终输出并不只是"按某个固定权重打分最高的一个分子",而是一组帕累托最优候选,为后续人工筛选保留了灵活性。

2.8 整体算法流程

整个优化循环大致可概括为:

  1. 1. 从初始分子 s₀ 出发,初始化历史轨迹;
  2. 2. 每一轮按 §2.6 的 Bernoulli 调度决定本轮走 LLM 探索还是 BO+LLM-解码的利用路径;
  3. 3. 生成新候选分子,用性质评估器 f 验证是否合法、是否满足目标;
  4. 4. 将新观测加入历史数据,更新 GP 代理模型与非支配解集合;
  5. 5. 若某分子已满足目标阈值则提前终止,否则循环至迭代预算 T 用尽;
  6. 6. 输出最终的非支配分子集合。

实验中,ChatDrug-200 与 DrugAssist-500 上的迭代预算统一设为 T = 10

2.9 三个对照变体

为了拆解"LLM 单独作用"与"BO 单独作用"各自的贡献,论文设计了三个变体进行系统对比:

变体

机制

LLMO(LLM-only)

全程仅依赖 LLM,根据历史分子与属性自主生成候选

BO

全程由 GP 代理 + UCB 主导搜索,LLM 仅承担逆映射解码角色

HO(Hybrid Optimizer,主推方案)

按 §2.6 的渐进式概率调度,在 LLM 探索与 BO 利用间动态切换


3. 实验设置

3.1 三个基准数据集

ChatDrug-200:从 ChatDrug 框架中整理出的 200 个分子,覆盖 16 个单目标 + 12 个多目标编辑任务,涉及 logP、QED、TPSA(渗透性代理指标)、HBA/HBD 计数的调整,并区分宽松(loose)与严格(strict)两档改善阈值 Δ。

DrugAssist-500:从 DrugAssist 基准整理出的 500 个分子,任务覆盖溶解度、QED、HBA/HBD 等多属性联合优化。原始基准还包含 BBBP(血脑屏障通透性)、hERG 抑制等任务,但由于 RDKit 无法直接计算这两项,论文将评测聚焦在可由 RDKit 直接计算的溶解度、QED、HBA/HBD 任务上,同样区分宽松/严格阈值。

LipinskiFix-1000(本文新提出的基准):从高质量蛋白-配体复合物数据库 HiQBind 出发,筛选出违反 Lipinski 五规则中至少一项的真实配体分子,并施加分子量、脂溶性、QED 等额外质量约束以控制结构复杂度,去重后随机抽取 1000 个配体构成该基准。每条数据同时保留其蛋白靶点上下文信息,并标注违反的具体规则。任务目标是双重的:主目标恢复 Lipinski 五规则全部合规,次目标最大化 QED——这比单纯调整一两个数值的任务更贴近真实药物化学工作流。

3.2 评价指标

  • Success Rate(成功率):成功优化到满足指定阈值的分子比例;
  • Valid Rate(有效率):生成结果中化学有效分子的比例。

3.3 基线方法

基线沿用了以预训练自回归模型 MegaMolBART 为骨架的一组方法:Random、PCA、High-Variance、GS-Mutate,以及以 SMILES 为表征的 MoleculeSTM,再加上以 GPT-3.5-turboGPT-4o 为后端 LLM 的 ChatDrug。对于 ChatDrug 基线,论文将对话轮数设为 10 并重新运行其实现以保证评测口径一致;其余基线沿用 DrugAssist 论文中报告的数值。

3.4 实验协议

所有方法均独立运行 3 次,报告均值与标准差。


4. 主要实验结果

4.1 ChatDrug-200:单目标与多目标编辑

在单目标设置下,AutoLead-HO 在多个严格阈值任务上(如 HBA+、QED+)显著超过包括 ChatDrug(GPT-4o)在内的所有基线。在更具挑战性的 12 个多目标任务上,HO 在除 logP&TPSA- 之外的全部任务上取得最佳表现(MoleculeSTM-SMILES 在 TPSA 降低相关任务上较强,但其余场景被 AutoLead 全面超越)。两个具有代表性的数字:

任务(严格阈值 Δ=0.5–1)

AutoLead-HO

此前最优(ChatDrug)

logP- & HBD+(同时降低 logP、增加氢键供体)

76.8%

3.3%

logP+ & HBA+(同时增加 logP、增加氢键受体)

20.0%

0.2%

4.2 DrugAssist-500:交互式多属性优化

结果同样确认了 HO 的泛化能力,在严格阈值设置下优势更为明显:

任务(严格阈值 Δ=1)

AutoLead 表现

ChatDrug

logP- & HBA+

HO:72.0%

0.8%

HBD+

BO 变体:70.7%

GPT-4o 版本:4.2%

4.3 LipinskiFix-1000:更贴近真实场景的硬任务

这是论文着力最深的部分。成功率定义为同时满足 Lipinski 五规则且 QED ≥ 0.7:

方法

Success Rate

Valid Rate

ChatDrug

3.87%

79.3%

MoleculeSTM

13.9%

49.4%

AutoLead-HO

28.9%

93.6%

值得注意的是,AutoLead-HO 不仅成功率大幅领先,有效率也同步领先(93.6% vs. 79.3%/49.4%),说明其优势不是靠放宽化学合理性换来的。

4.4 案例研究:真实分子改造示例

论文在 Fig.2 中展示了若干在 LipinskiFix-1000 上成功优化的真实案例:多个转化显示分子量与 logP 明显下降、HBD/HBA 计数被调整到合理区间,QED 同步显著提升;具体的编辑手段包括策略性引入氟原子、环收缩、去除冗余官能团等。论文强调这些修改在化学上是合理的,并且保留了原始分子的核心骨架,这与药物化学中"最小必要修改"的实践直觉相符。ChatDrug-200 与 DrugAssist-500 上的额外案例见论文补充材料 Fig. S2。

5. 消融实验与深入分析

这一部分是本文区别于一般"刷榜论文"的关键——作者用一系列对照实验定位了性能增益究竟来自框架的哪个组件。

5.1 LLM 解码器 vs. 传统 VAE 解码器

将 AutoLead-BO 中的 LLM 逆映射解码器替换为 VAE 解码器,分别测试 16 / 32 / 128 维潜空间,在 ChatDrug-200 的代表性任务(QED+、logP+&HBD+)上对比。所有 VAE 变体均不及 LLM 驱动方案。这一结果直接验证了"用语言模型做反向翻译"这一设计选择的有效性,也说明传统解码器要从一个仅由理化属性定义的潜空间映射回高质量、有效的分子结构,本身存在结构性困难。

5.2 逆映射路径的"真实贡献"有多大

按算法设计,若 LLM 逆映射解码失败或产出无效 SMILES,系统会回退到由 LLM 直接生成分子(G_LLM)。为排除"BO 只是摆设、真正干活的是回退路径"这种可能性,作者在 LipinskiFix-1000 上分别统计了"经由 BO+LLM 逆映射路径生成"与"经由直接生成回退路径生成"两类分子的有效率与成功率。结果显示逆映射路径的分子有效率和成功率都明显高于回退路径,确认逆映射解码器确实在发挥实质性作用,而不仅是一个偶尔失效就被绕过的摆设组件。

5.3 BO 调用比例随任务难度自适应

作者统计了 HO 策略在不同任务上实际调用 BO 的步数比例,发现这一比例会随任务难度系统性变化:

任务

BO 使用比例

logP+(Δ=0,简单单目标)

0.17%

QED+(较难单目标)

56.19%

logP+ & HBD+(多目标)

56.62%

LipinskiFix-1000(最难、多重严格约束)

64.8%(峰值)

这组数字很有说服力:简单任务上 LLM 自身的化学直觉几乎就够用,BO 几乎不出场;而面对真正复杂的多目标约束时,框架会自动把更多决策权交给基于不确定性建模的 BO。这验证了混合调度机制不是一个固定配比的"伪装组合",而是确实在"看场合办事"。

5.4 LLM 后端能力与 BO 的协同效应

将 LLM 后端由 GPT-3.5-turbo 升级到 GPT-4o:

  • LLMO 策略仅提升 +0.6%;
  • HO 策略提升达 +2.1%

且无论后端如何切换,HO 始终保持在 85% 以上的有效率,持续优于 LLMO。作者据此提出一个有意思的假说:更强的 LLM 在充当"逆映射解码器"这一角色时收益更大——因为这一角色对模型的化学知识精度要求更高,BO 的结构化搜索正好能把更强 LLM 的能力转化为实际的优化收益,而单纯让 LLM 自由探索(LLMO)则更难"榨干"模型能力提升带来的增量。

5.5 特征空间维度:越丰富越关键

对比 2 维、5 维、10 维描述符空间下 AutoLead-HO 的表现:10 维在 ChatDrug-200 与 DrugAssist-500 上平均表现更优;差距在 LipinskiFix-1000 上被进一步放大:

特征维度

LipinskiFix-1000 成功率

2D

2.9%

5D

2.3%

10D

28.9%

10 维相对 2D/5D 提升接近一个数量级,说明对于结构复杂、约束众多的真实先导优化任务,精简特征集不足以支撑有效搜索,丰富的描述符集合才能真正刻画多目标优化所需的解空间结构。


6. 局限性

6.1 论文中明确提及的局限

  • • 当前的对照体系主要围绕与本文评测协议直接兼容的方法展开,尚未在统一框架下与更广义的、面向帕累托前沿的进化算法/图搜索类多目标方法做系统比较;
  • • DrugAssist-500 中原本包含的 BBBP、hERG 抑制等生物学指标,由于 RDKit 无法直接计算,本文评测未纳入,目前的优化目标仍局限在理化性质与成药性(QED)层面,尚未接入结合亲和力、毒性等"生物学黑盒"指标;
  • • LipinskiFix-1000 的设计聚焦在 Lipinski 合规性与 QED 这两个可由 RDKit 直接、廉价计算的目标上,这是一个工程上的取舍,而非声称这两个指标足以代表"成药性"的全部内涵。

6.2 值得进一步讨论的开放问题

以下几点是笔者在阅读后认为值得关注、但论文未必专门展开讨论的问题,供读者批判性思考:

  • • 框架的逆映射解码与候选生成都依赖商用 LLM API 的输出,提示设计的细微变化、模型版本迭代都可能影响复现性,这是所有"LLM-in-the-loop"类工作共同面临的工程挑战;
  • • 论文的评测体系主要衡量"理化性质是否达标",并未引入结合亲和力预测、ADMET 等下游生物学验证,这意味着论文展示的成功案例仍需后续湿实验或更细粒度计算验证才能判断其在真实药物研发管线中的价值;
  • • 混合调度策略中的 τ=3、迭代预算 T=10 等超参数选择,论文给出了直觉解释,但其对不同规模/难度任务的敏感性尚未做更系统的扫描分析。

7. 总体评价

AutoLead 的价值不在于又造出了一个"更大的模型",而在于一个工程取舍清晰、消融充分的系统设计:

  1. 1. "LLM 当解码器"这一设计本身轻巧且被验证有效——把"训练专用解码器"这件昂贵的事,转化成了"写好提示词"这件相对廉价的事,且消融实验(§5.1)证明它确实优于传统 VAE 解码器,而非单纯偷懒之举;
  2. 2. 混合调度机制不是噱头——§5.3 的 BO 使用比例统计和 §5.4 的 LLM 后端协同分析,从数据层面证明了"LLM 探索 + BO 利用"的分工在不同难度任务上确实自适应地发挥作用;
  3. 3. LipinskiFix-1000 本身是一份扎实的社区贡献——相比此前偏"练习题"性质的基准,它更贴近真实早期药物发现中"修复违规先导化合物"的实际工作场景,且数据和代码均已开源,为后续相关研究提供了一个更现实的测试场景。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文献信息
  • 摘要
  • 1. 研究背景与问题定位
    • 1.1 先导化合物优化为何是多目标难题
    • 1.2 现有 LLM 路线及其局限
    • 1.3 AutoLead 的定位
  • 2. 方法
    • 2.1 问题形式化
    • 2.2 连续描述符空间:把"分子"变成"数字"
    • 2.3 核心创新:LLM 驱动的"训练免费"逆映射解码器
    • 2.4 贝叶斯代理建模:高斯过程
    • 2.5 采集函数:UCB
    • 2.6 LLM-in-the-Loop 调度:何时该探索,何时该利用
    • 2.7 多目标处理
    • 2.8 整体算法流程
    • 2.9 三个对照变体
  • 3. 实验设置
    • 3.1 三个基准数据集
    • 3.2 评价指标
    • 3.3 基线方法
    • 3.4 实验协议
  • 4. 主要实验结果
    • 4.1 ChatDrug-200:单目标与多目标编辑
    • 4.2 DrugAssist-500:交互式多属性优化
    • 4.3 LipinskiFix-1000:更贴近真实场景的硬任务
    • 4.4 案例研究:真实分子改造示例
  • 5. 消融实验与深入分析
    • 5.1 LLM 解码器 vs. 传统 VAE 解码器
    • 5.2 逆映射路径的"真实贡献"有多大
    • 5.3 BO 调用比例随任务难度自适应
    • 5.4 LLM 后端能力与 BO 的协同效应
    • 5.5 特征空间维度:越丰富越关键
  • 6. 局限性
    • 6.1 论文中明确提及的局限
    • 6.2 值得进一步讨论的开放问题
  • 7. 总体评价
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档