首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >INFORM FUSION | TransDLM:用自然语言重新定义分子优化

INFORM FUSION | TransDLM:用自然语言重新定义分子优化

作者头像
MindDance
发布2026-01-22 12:21:06
发布2026-01-22 12:21:06
1150
举报

在药物优化过程中,如何在保留分子核心骨架的同时改善其 ADMET 性质,一直是化学家面临的核心挑战。现有的深度学习方法依赖外部属性预测器,但预测器的误差会在迭代优化中不断累积,导致结果偏离目标。武汉大学和格里菲斯大学的联合团队提出 TransDLM,一个基于扩散语言模型的分子优化框架。通过将分子属性需求隐式嵌入到 IUPAC 化学命名的文本描述中,TransDLM 完全避免了外部预测器的使用,在 ADMET 属性优化上实现了 27.9% 的成功率提升,同时 FCD 指标改善了 43.8%

传统分子优化与文本引导分子优化的对比图,展示误差传播的负面影响
传统分子优化与文本引导分子优化的对比图,展示误差传播的负面影响

传统分子优化与文本引导分子优化的对比图,展示误差传播的负面影响

一、外部预测器的困境

1.1 误差传播的雪崩效应

当前主流的分子优化方法遵循一个直观的范式:训练一个属性预测器(如 LogD、溶解度预测模型),然后在生成过程中用预测值作为反馈信号,引导模型朝着目标属性方向优化。这个框架在遗传算法、强化学习、基于梯度的优化中被广泛采用。

但这个看似合理的设计隐藏着致命缺陷:预测器的误差会随迭代指数级放大

假设预测器对单个分子的平均误差是 5%,在第一轮优化中,这个误差可能影响不大。但当生成的新分子被再次送入预测器评估时,误差开始累积——不仅新分子本身的预测有 5% 偏差,之前的偏差还会通过梯度或采样策略传递下来。经过 10 轮迭代,累积误差可能超过 50%,生成的分子完全偏离真实的优化轨迹。

更糟糕的是,预测器往往在训练数据分布的边缘区域性能急剧下降。而分子优化恰恰需要探索训练集覆盖不足的新颖化学空间。这种分布外泛化失败误差累积相互作用,导致优化过程陷入虚假的局部最优。

1.2 化学空间的覆盖鸿沟

化学空间的规模是天文数字级的。即使是相对简单的类药分子,估计也有 10³⁰ 到 10⁶⁰ 种可能的化合物。而现有最大的属性数据集如 ChEMBL,也只包含数百万个化合物的标注。这意味着,任何预测器覆盖的化学空间比例都是微乎其微的。

当优化算法生成一个包含新颖官能团组合的分子时,预测器实际上是在进行外推,而不是插值。外推的可靠性极低——一个在苯环衍生物上训练的溶解度预测器,很难准确预测含有杂环或桥环的分子。

这种泛化鸿沟使得基于预测器的方法陷入两难:要么保守地停留在训练数据附近,牺牲创新性;要么激进地探索新空间,但面临预测不可靠的风险。

二、语言的力量

2.1 IUPAC 命名的语义优势

TransDLM 的核心洞察是:分子的自然语言描述比形式化表示承载更丰富的语义

对比 SMILES 字符串和 IUPAC 名称就能理解这一点。SMILES 是一种线性编码,例如 CC(C)Cc1ccc(cc1)C(C)C(=O)O 表示布洛芬。这个字符串对计算机友好,但对人类和语言模型来说,很难直接理解分子的化学含义。

而 IUPAC 名称如 2-[4-(2-甲基丙基)苯基]丙酸 则明确揭示了分子结构:一个苯环(苯基)、侧链位置(4-位)、取代基类型(2-甲基丙基)、主链结构(丙酸)。每个词汇都对应明确的化学实体或官能团。

IUPAC 名称与 SMILES 的对比示例,说明 IUPAC 在语义表达上的优势
IUPAC 名称与 SMILES 的对比示例,说明 IUPAC 在语义表达上的优势

IUPAC 名称与 SMILES 的对比示例,说明 IUPAC 在语义表达上的优势

更重要的是,IUPAC 名称天然地编码了物理化学信息。词汇如羟基、羧基、甲基立即传达了极性、氢键能力、疏水性等性质。预训练语言模型如 SciBERT 在大规模化学文献上训练,已经学会了这些词汇与分子性质的关联。

TransDLM 利用这一点,将优化目标嵌入到文本描述中。例如,要优化溶解度,可以在文本中添加如高极性、含羟基等暗示,引导模型生成符合这些特征的分子。

2.2 隐式属性嵌入

TransDLM 的设计理念是:不直接预测属性值,而是学习属性与文本描述的关联

具体实现上,TransDLM 使用预训练的 SciBERT 模型编码 IUPAC 名称,得到 768 维的文本嵌入向量。这个向量不仅捕捉了分子的结构信息,还隐式包含了与这种结构相关的典型属性模式。

在训练阶段,模型学习的目标是:给定一个源分子和目标属性描述(如高溶解度、低清除率),生成一个新分子,使其 IUPAC 名称的文本嵌入与目标描述在语义上对齐。

这种隐式嵌入机制避免了显式的属性预测。模型不需要输出一个具体的 LogD 数值,只需确保生成的 IUPAC 名称在语义空间中靠近高 LogD 的典型描述。由于语言模型的表示能力远超简单的回归器,这种方法能更鲁棒地泛化到新颖分子。

三、扩散语言模型的精妙设计

3.1 四阶段生成流程

TransDLM 的生成过程包含四个关键阶段:

嵌入(Embedding):将源分子的 SMILES 字符串转换为 token 序列,每个 token 对应一个字符或子结构。使用可学习的嵌入矩阵将 token 映射到连续向量空间。

加噪(Noising):与图像扩散模型类似,逐步向嵌入向量添加高斯噪声。但关键区别在于,TransDLM 不从纯噪声开始采样,而是从编码后的源分子嵌入开始。这个设计确保了生成过程始终锚定在源分子附近,极大增强了骨架保留能力。

去噪(Denoising):这是核心阶段。去噪网络基于 Transformer 架构,使用交叉注意力机制(Cross-Attention)融入文本引导信号。具体来说,文本嵌入作为 Key 和 Value,分子嵌入作为 Query,通过注意力权重动态调整去噪方向。

TransDLM 框架图,展示 Recap 分解、文本生成、SMILES 分词、扩散/去噪及交叉注意力机制的完整流程
TransDLM 框架图,展示 Recap 分解、文本生成、SMILES 分词、扩散/去噪及交叉注意力机制的完整流程

TransDLM 框架图,展示 Recap 分解、文本生成、SMILES 分词、扩散/去噪及交叉注意力机制的完整流程

舍入(Rounding):去噪后得到的是连续向量,需要映射回离散的 token。TransDLM 采用最近邻搜索,将连续嵌入舍入到最接近的 token 嵌入,最终重构为 SMILES 字符串。

3.2 交叉注意力的引导机制

交叉注意力层是 TransDLM 实现文本引导的关键机制。在标准的自注意力中,序列元素之间相互交互;在交叉注意力中,分子序列能查询文本语义信息。

数学上,对于分子嵌入的第 i 个位置,其更新公式为:

其中 来自分子嵌入, 和 来自文本嵌入。注意力权重 衡量了分子位置 i 与文本位置 j 的语义相关性。

这种设计的巧妙之处在于,模型能自动学习哪些文本特征应该影响分子的哪些部分。例如,当文本描述中提到高极性时,注意力权重可能集中在分子序列中对应羟基或羧基的位置,引导模型在这些位置进行修饰。

3.3 从源分子采样的策略

与大多数扩散模型从纯噪声开始采样不同,TransDLM 从编码后的源分子开始。这个看似微小的改变带来巨大影响。

从纯噪声采样意味着模型需要从头构建整个分子结构。虽然这提供了最大的生成自由度,但也使得保留源分子的核心骨架变得极其困难——模型需要在随机初始化的基础上,通过条件引导逐步逼近源分子的骨架,同时还要优化属性,这是一个高度欠约束的问题。

从源分子采样则将问题变为局部修饰而非全局生成。加噪过程只破坏了细节信息(如具体的取代基),而保留了粗粒度结构(如环系、主链)。去噪过程因此可以专注于修改那些影响属性的局部特征,而不需要重新构造整个骨架。

消融实验验证了这一策略的有效性。从源分子采样(TransDLM)在所有结构相似性指标上都显著优于从纯噪声采样(TransDLM_noise),证明这是保留骨架的关键设计。

四、实验的验证

4.1 ADMET 属性的全方位提升

在 MMP 数据集上的实验结果令人印象深刻。MMP 数据集包含了成对的分子,每对分子结构高度相似但某些属性有显著差异,是评估局部优化能力的理想基准。

LogD 优化:TransDLM 实现了 30.8% 的准确率提升。LogD 是衡量脂水分配系数的关键参数,直接影响药物的膜渗透性和生物利用度。这个大幅提升说明模型确实学会了通过添加或移除特定官能团来调控分子的亲疏水平衡。

溶解度优化:提升了 1.8% 。虽然绝对数值看似较小,但考虑到溶解度受多种因素(氢键、晶格能、表面积等)共同影响,任何改善都极具价值。

清除率(Clint)优化:提升了 0.3% 。清除率涉及代谢酶的识别和代谢位点的稳定性,是最难优化的属性之一。即使微小的提升也意味着模型捕捉到了代谢不稳定性的结构特征。

综合成功率(All Criteria):同时满足所有三个 ADMET 属性要求的分子比例提升了 27.9% 。这是最重要的指标,因为药物开发需要多属性联合优化。TransDLM 在这个严格标准下的优势,证明了其在多参数平衡上的能力。

4.2 结构保留的精准控制

结构相似性评估使用了多个互补指标。BLEU 得分衡量生成 SMILES 与参考 SMILES 的 n-gram 重叠,TransDLM 达到了最优值。Levenshtein 距离改善了 8.6% ,意味着生成的字符串与参考更接近。

更重要的是指纹相似度(MACCS FTS 和 Morgan FTS),它们基于分子指纹的 Tanimoto 系数。TransDLM 在这两个指标上都领先基线模型,说明生成的分子在子结构模式上与源分子高度一致。

特别值得关注的是 FCD(Fréchet ChemNet Distance),它使用预训练的化学网络评估生成分子分布与真实分布的差异。TransDLM 实现了 43.8% 的改善,说明生成的分子不仅单个样本合理,整体分布也更接近真实药物化学空间。

不同模型在相同输入文本描述下的分子优化案例可视化,对比结构修改和属性达标表现
不同模型在相同输入文本描述下的分子优化案例可视化,对比结构修改和属性达标表现

不同模型在相同输入文本描述下的分子优化案例可视化,对比结构修改和属性达标表现

4.3 案例分析的启示

论文展示了三个代表性案例,揭示了 TransDLM 的修改策略:

案例 1:源分子含有一个苯环和酰胺基团。为了提高溶解度,TransDLM 在苯环上添加了羟基(—OH),增加了氢键供体数量。这个修改精准且高效,既保留了骨架又改善了极性。

案例 2:源分子含有长链脂肪侧链。为了降低 LogD(提高亲水性),TransDLM 缩短了侧链长度并引入了极性基团。这种修改体现了对脂水平衡的深刻理解。

案例 3:源分子结构复杂,包含多个潜在修改位点。TransDLM 虽然没有识别出所有位点,但仍成功保留了核心骨架并满足了属性要求。这个案例揭示了模型的当前局限——在极复杂结构上,可能无法实现最精细的控制。

五、消融实验的洞察

5.1 IUPAC 命名的决定性作用

对比 TransDLM(使用 IUPAC)和 TransDLM_SMILES(使用 SMILES 字符串作为文本引导),前者在几乎所有指标上都优于后者。这个结果验证了核心假设:IUPAC 命名比 SMILES 字符串承载更丰富的化学语义

IUPAC 的优势在于其系统性和可解释性。每个词汇都有明确的化学定义,预训练语言模型能学习这些词汇与性质的关联。相比之下,SMILES 是一种任意的编码规则,同一分子可以有多种等价的 SMILES 表示,缺乏语义一致性。

这个发现对未来的分子生成模型有重要启示:选择合适的表示至关重要。不是所有的分子编码都适合与语言模型结合,标准化的命名体系可能比任意的线性编码更适合作为多模态学习的桥梁。

5.2 采样策略的权衡

对比从源分子采样(TransDLM)和从纯噪声采样(TransDLM_noise),结果揭示了一个有趣的权衡:骨架保留与属性优化的矛盾

从源分子采样在结构相似性上遥遥领先——BLEU、Levenshtein、指纹相似度等指标都显著更优。但在某些属性指标上,从纯噪声采样反而略胜一筹。这符合直觉:更大的生成自由度允许模型进行更激进的结构修改,从而达到更极端的属性值。

但实际应用中,骨架保留往往更重要。药物优化通常从一个已验证的先导化合物出发,目标是微调而非重新发明。TransDLM 的设计哲学正是优先保证结构约束,在此基础上尽可能优化属性——这与工业界的实际需求完美契合。

六、方法论的启示

6.1 去预测器化的范式转变

TransDLM 代表了一种去预测器化的新范式。传统方法将属性优化视为监督学习问题,训练预测器后用其引导生成。TransDLM 则将优化视为条件生成问题,通过语言模型的语义理解能力,直接学习属性与结构的隐式映射。

这种转变的深层意义在于,它将离散的化学结构与连续的语义空间连接起来。在语义空间中,相似的性质对应相似的文本描述,插值和泛化变得自然而然。这避免了在高维离散化学空间中直接建模属性函数的困难。

6.2 预训练语言模型的化学潜力

TransDLM 的成功很大程度上归功于 SciBERT 等预训练语言模型。这些模型在海量化学文献上训练,学到了丰富的化学知识——官能团的命名、反应条件的描述、性质与结构的关联。

将这些预训练知识迁移到分子生成任务,相当于为模型注入了人类积累数百年的化学智慧。这比从头在有限的分子数据集上学习要高效得多。未来,随着化学领域专用的大语言模型(如 ChemBERTa、MolFormer)不断进化,基于语言引导的分子设计有望取得更大突破。

6.3 交叉注意力的通用机制

交叉注意力作为多模态融合的标准工具,在 TransDLM 中展现了其威力。它不仅简单有效,更重要的是可解释——通过分析注意力权重,可以理解模型如何将文本描述映射到分子修改。

这个机制具有很强的通用性。未来可以扩展到其他模态的条件生成:用蛋白质结构引导配体设计、用反应条件引导产物预测、用临床需求引导药物优化。交叉注意力提供了一个统一的框架来整合异质信息源。

七、局限与展望

尽管 TransDLM 取得了显著进展,仍有改进空间。模型参数量约 1.81 亿,对计算资源有一定要求。未来可以探索蒸馏或稀疏化技术,在保持性能的同时降低计算成本。

在极复杂的分子结构上,模型可能无法识别所有潜在修改位点。这可能需要引入更精细的结构感知机制,如显式的官能团识别或基于片段的分解策略。

从应用角度看,将 TransDLM 扩展到 3D 构象优化是自然的下一步。当前模型主要处理 2D 拓扑结构,但许多药物性质(如与靶标的结合亲和力)强烈依赖 3D 构象。整合 3D 信息将显著提升模型的实用性。

更宏大的愿景是构建人机协同的分子设计平台。药物化学家可以用自然语言描述设计意图(如"保留苯环但提高溶解度"),TransDLM 自动生成候选分子,化学家评估并反馈,模型根据反馈迭代改进。这种交互式设计流程有望大幅提升药物发现的效率。

值得思考的问题

Q1: 为什么文本引导能避免误差传播?

误差传播的根源在于迭代依赖——当前步的输出作为下一步的输入,误差沿着这个依赖链传递。传统方法中,预测器评估生成的分子,评估结果反馈给生成器,形成闭环。TransDLM 打破了这个闭环,文本描述是固定的外部输入,不受生成过程影响。模型只需学习从文本到分子的映射,而不需要在生成过程中反复调用不可靠的预测器。

Q2: IUPAC 命名如何在语义层面编码属性信息?

IUPAC 命名是系统化的,每个词汇对应明确的化学实体。例如,羟基、羧基、氨基等官能团名称直接关联极性、酸碱性、氢键能力。预训练语言模型通过大规模文献学习了这些关联——它见过数百万次如"含羟基的化合物溶解度较高"这样的表述。因此,当模型看到优化目标中提到高溶解度时,能自动联想到应该添加羟基等极性基团。

Q3: 交叉注意力的可解释性如何帮助调试模型?

注意力权重矩阵可以可视化为热力图,展示文本中哪些词汇影响了分子中哪些位置的修改。如果模型在某个案例中失败(如添加了错误的官能团),分析注意力权重可以发现是文本描述模糊、还是模型误解了语义、或是结构编码有误。这种可解释性使得模型不再是黑箱,错误可以被诊断和修正,加速迭代改进。

参考文献:Xiong Y, Li K, Chen J, et al. Text-guided multi-property molecular optimization with a diffusion language model[J]. Information Fusion, 2025: 103907.

代码数据

https://github.com/Cello2195/TransDLM

欢迎在评论区分享您对本工作的看法。如果您对 AI 药物发现和多属性优化感兴趣,欢迎关注 MindDance 公众号获取更多前沿内容,也欢迎将文章分享给您的同行。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、外部预测器的困境
    • 1.1 误差传播的雪崩效应
    • 1.2 化学空间的覆盖鸿沟
  • 二、语言的力量
    • 2.1 IUPAC 命名的语义优势
    • 2.2 隐式属性嵌入
  • 三、扩散语言模型的精妙设计
    • 3.1 四阶段生成流程
    • 3.2 交叉注意力的引导机制
    • 3.3 从源分子采样的策略
  • 四、实验的验证
    • 4.1 ADMET 属性的全方位提升
    • 4.2 结构保留的精准控制
    • 4.3 案例分析的启示
  • 五、消融实验的洞察
    • 5.1 IUPAC 命名的决定性作用
    • 5.2 采样策略的权衡
  • 六、方法论的启示
    • 6.1 去预测器化的范式转变
    • 6.2 预训练语言模型的化学潜力
    • 6.3 交叉注意力的通用机制
  • 七、局限与展望
  • 值得思考的问题
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档