首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Chem. Sci. | 量化当前一步逆合成模型的失效模式

Chem. Sci. | 量化当前一步逆合成模型的失效模式

作者头像
DrugAI
发布2026-06-24 13:21:48
发布2026-06-24 13:21:48
760
举报

计算机辅助合成规划(CASP)已经成为现代人工智能辅助药物发现和有机合成设计的重要工具,其核心在于利用一步逆合成模型不断将目标分子分解为可获得的起始原料。然而,即使当前最先进的逆合成模型在标准基准测试中取得了较高准确率,它们仍然经常无法重现文献中真实报道的合成路线。

研究人员系统分析了当前一步逆合成模型的失败原因,并量化了不同类型错误对模型性能的贡献。研究评估了五种具有代表性的模板型和无模板型逆合成模型,并从产物复杂度、反应复杂度、立体化学、离去基团选择、多阶段反应以及候选排序等多个角度分析模型行为。

结果表明,随着目标分子复杂度和反应复杂度增加,模型性能显著下降。所有模型均表现出系统性偏差,即倾向于预测较简单的反应转化,低估参与反应的原子数量以及环结构变化程度。此外,大量预测错误并非来自完全错误的断键策略,而是源于立体化学错误、离去基团差异、多步反应拆分以及正确答案排序过低等因素。研究建立了一套新的评估框架,从而更全面地揭示当前逆合成模型的局限性,并为未来模型设计和实际应用提供指导。

逆合成分析是有机合成设计的核心思想,其目标是在已知目标分子的前提下,反向推导出合理的前体分子和反应路径。随着深度学习的发展,数据驱动的一步逆合成模型已经逐渐取代传统专家规则系统,成为现代CASP平台的重要组成部分。

目前主流方法主要包括模板型方法和无模板方法。模板型方法通过学习历史反应中的转化规则预测可能反应模板,而无模板方法则直接利用图神经网络或Transformer等深度学习架构从分子表示中学习反应规律。

然而,现有研究大多使用Top-k Exact Match Accuracy作为主要评价指标,即判断文献记录的反应物是否出现在模型前k个预测结果中。虽然这一指标简单客观,但它无法解释模型为什么失败。例如,模型可能预测了正确断键方式却选择了不同离去基团,也可能仅在立体化学上出现错误,或者将一个多阶段反应拆分成两个步骤完成。

研究人员认为,仅依赖Top-k准确率无法全面理解逆合成模型的能力边界。因此,本研究试图系统量化不同类型失效模式,并分析这些错误如何随反应复杂度变化而变化。

方法

研究选取五种具有代表性的一步逆合成模型进行比较,包括两种模板型模型Template-Relevance(TR)和NeuralLoc,以及三种无模板模型Augmented Transformer(AT)、Graph2SMILES(G2S)和R-SMILES 2。实验使用USPTO、Pistachio和CAS三个大型反应数据库,并采用文献级划分策略构建训练集和测试集,以更真实地评估模型泛化能力。研究设计了产物复杂度指标和反应复杂度指标,其中反应复杂度由参与反应的原子数量和发生变化的环结构数量共同衡量。同时构建多种补充评价指标,包括立体化学无关准确率、Synthon准确率、Superset准确率和Two-step Superset准确率,用于识别不同类型的失败模式。

结果

一步逆合成模型在复杂反应上的性能下降

研究首先比较了不同模型在三个大型反应数据库上的整体表现。结果显示,无模板模型整体优于模板模型,其中Graph2SMILES和R-SMILES 2取得最高准确率,而Template-Relevance表现相对较弱。

然而,无论采用哪种模型,当目标分子复杂度增加时,Top-k准确率均持续下降。同样,当反应涉及更多反应中心或更多环结构变化时,模型性能也明显下降。研究进一步发现,这种下降并非偶然现象,而是一种普遍规律。在所有数据集和所有模型中都观察到相同趋势。

更重要的是,即使训练集和测试集具有相似复杂度分布,模型仍然倾向于预测更简单的反应。

图1: 一步逆合成模型失效模式分析框架。

模型系统性低估反应复杂度

为了理解性能下降原因,研究分析了模型预测结果中的结构变化程度。

结果发现,所有模型均倾向于低估参与反应的原子数量。换句话说,模型更喜欢预测局部的小规模结构修饰,而不是涉及多个反应中心的大规模结构重组。与此同时,模型还系统性低估环结构变化数量。对于环形成、开环以及环重排反应,模型往往无法准确预测真实反应中发生的结构重构程度。

这种现象在三个数据集上均保持一致。

研究认为,这说明当前模型内部存在明显的“简单反应偏好”,即使训练数据中已经包含复杂反应实例,模型依然更倾向于生成较简单的转化方案。

一个典型案例显示,在一个复杂的分子内[2+2+2]环化反应中,Graph2SMILES和R-SMILES 2成功识别了真实反应机制,而Template-Relevance、NeuralLoc和AT则倾向于预测更简单的保护基变化反应。

图2: 不同模型在复杂反应上的性能分析。

失效模式一:立体化学信息处理不足

研究随后分析立体化学错误对整体性能的影响。通过引入“立体化学无关准确率”评价指标,研究发现许多所谓错误预测实际上仅在立体构型上与文献记录不同,而整体断键策略完全正确。

当忽略R/S和E/Z立体信息后,模型准确率普遍提高2%至3%。进一步分析发现,在涉及立体化学变化的反应中,这种差异更加明显。

研究指出,目前许多逆合成模型实际上并未真正学习立体化学逻辑,而是简单复制产物中的立体信息或者完全忽略立体构型。因此,在不对称合成和手性药物设计中,这类模型仍存在明显局限。

图3: 立体化学与离去基团导致的失效模式分析。

失效模式二:正确断键但错误离去基团

研究发现另一类常见错误并非来自反应中心判断错误,而是离去基团选择不同。例如,模型可能正确识别了应当断开的化学键,但选择了不同的卤素、酯基或其他离去基团。

为了评估这一情况,研究引入Synthon准确率指标,仅关注核心断键结构而忽略具体离去基团。结果显示,采用Synthon评价后,各模型Top-10准确率提升12%至15%。

这说明相当一部分所谓“错误预测”实际上已经识别出正确的逆合成策略,只是在具体试剂选择上与文献不同。研究认为,从合成规划角度看,识别正确断键位置比预测完全一致的离去基团更重要,因此Synthon评价能够更真实反映模型能力。

失效模式三:多阶段反应预测失败

研究进一步发现,许多文献反应实际上包含多个连续转化步骤,而模型通常只预测其中一个步骤。

例如,一个反应可能同时涉及脱保护和酰胺偶联,而模型第一步仅预测脱保护过程。当研究人员将模型第一次预测结果再次输入模型时,第二次预测成功恢复了文献中的真实前体。为此,研究提出Two-step Superset Accuracy指标。结果显示,采用该指标后,模型性能可额外提高6%至17%。

进一步分析表明,这类错误主要集中于多阶段反应、串联反应以及复杂反应级联过程中。这说明当前许多“一步逆合成失败”实际上源于数据记录方式与模型反应粒度不一致,而非模型完全不理解反应机理。

图4: 多阶段反应相关失效模式分析。

失效模式四:正确答案排序过低

研究最后分析了排序问题对性能的影响。在实际CASP系统中,由于搜索空间巨大,通常只保留前50个候选结果继续扩展搜索。

然而研究发现,一部分文献前体实际上已经被模型生成,只是排名过低,因此在搜索过程中被提前剪枝。对于Template-Relevance模型,研究通过穷举所有可能模板计算理论上限性能。

结果表明,大约4%至9%的失败案例属于这种“预测正确但排名过低”的情况。如果进一步纳入训练过程中被过滤掉的低频模板,理论性能还能提高约5%至10%。

这说明部分失败并非模型能力不足,而是排序策略和计算预算限制导致的结果。

讨论

本研究首次系统量化了一步逆合成模型的主要失效模式,并揭示了当前逆合成人工智能的重要局限。

研究表明,Top-k准确率虽然是最常用评价指标,但无法反映模型失败的真实原因。通过引入立体化学无关准确率、Synthon准确率、Superset准确率和Two-step Superset准确率,可以更精细地理解模型行为。

研究同时发现,当前模型存在明显的复杂度偏置。随着目标分子复杂度提高,模型不仅准确率下降,而且会系统性低估真实反应中的结构变化规模。这种偏差无法仅通过增加复杂样本数量解决,说明现有模型架构本身可能尚未充分学习复杂反应规律。

对于未来发展方向,研究人员认为需要从两个层面改进。一方面,需要构建更能覆盖复杂化学空间的数据集,特别是包含多中心反应、环重排和立体选择性反应的数据;另一方面,需要开发能够显式建模复杂结构变化的新型神经网络架构。

对于CASP工具的实际使用,研究提出一个重要观点:逆合成模型不应被视为寻找唯一正确答案的系统,而应被视为产生合成灵感的工具。即使模型没有完全复现文献路线,其提出的断键策略仍然可能具有重要价值。因此,在实际药物设计和复杂天然产物合成规划中,研究人员应更多关注模型给出的战略性断裂模式,而非仅关注是否完全匹配历史反应记录。

总体而言,本研究不仅揭示了当前逆合成模型的关键短板,也为下一代AI驱动合成规划系统的发展提供了明确方向。

整理 | DrugOne团队

参考资料

Tran, Suong BA, Jihye Roh, and Connor W. Coley. "Quantifying the Failure Modes of Current One-step Retrosynthesis Models." Chemical Science (2026).

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档