编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自Hankz Hankui Zhuo的一篇关于反向合成规划的论文。在反向合成规划中,使用简单的基元合成复杂分子存在大量可能的路径。即使是经验丰富的化学家在选择最有前景的转化路线时也经常遇到困难。目前的方法依赖于人工定义的或经过机器训练的评分函数,这些评分函数在化学知识方面具有限制,或者使用昂贵的估计方法进行引导。在这里,作者提出了一种经验引导的蒙特卡洛树搜索(EG-MCTS)来解决这个问题。作者建立了一个经验引导网络来在搜索过程中从合成经验中学习知识,而不是使用随机搜索。

化学合成分析,即反向合成,旨在设计一条路径,使用一组可用的基元合成目标分子。反向合成任务具有挑战性,因为每一步可用反应的搜索空间非常大。已经有一些单步反向合成的方法,如基于模板的方法和无模板的方法,旨在预测目标分子的所有有前景的单步分解反应。基于单步反向合成,作者研究了多步反向合成问题,这是具有挑战性的,因为需要考虑多步实质性反应的各种组合。目前已经有工作提出了一些方法来解决这个挑战,通过构建评分函数来指导反应的搜索,这些评分函数可以是人工定义的或经过机器训练的。评分函数的作用是评估搜索状态的价值,例如预测分子的反向合成成本或应用于分解分子的反应。最近,Kim等人提出了一种自我改进的方法来增强现有的方法。为了简化,作者将这种增强方法称为Retro*+。还提出了基于强化学习的方法来构建评分函数,将反向合成问题的相似性与策略游戏的策略相结合。尽管先前的方法取得了成功,但它们所依赖的学习组件通常基于现有的单步反应数据库(如USPTO)。它们所能获取的知识主要取决于数据库的质量和数量。更重要的是,现有的数据库只包含单步反应。因此,目前的学习组件很难直接从中获取多步信息和知识。换句话说,构建一个基于路径级别和前瞻性的评分函数来准确预测分子或反应是具有挑战性的。

图 1
图1展示了对目标分子A进行搜索的过程。Retro等方法通过学习一个预测分子合成成本的评分函数来引导搜索。Retro从单步反应数据集构建多步合成路线。由于数据集中包含反应I + J→H和反应G + H→F,评分函数学习到分子H和F的成本分别为1和2。然而,反应D + E→C不在数据集中,所以分子C的预测成本可能比H和F更高。Retro的基本算法A搜索倾向于搜索合成成本较低的分子,因此首先选择模板TA2。一旦模板TA2被证明成功,Retro*+会进一步增加它的概率,以避免选择其他潜在的更好路线,例如指向模板TA1的路线。在路线长度方面,比指向TA2的路线更短的指向TA1的路线有可能不会被Retro*+探索。基于这一观察,作者猜测在MCTS搜索中利用模板库中的所有潜在模板来帮助构建合成路线可能有助于引导反向合成规划。
此外,作者还观察到在自我对弈过程中,许多经验无法成功构建合成目标分子的有效路径。例如,在图1中显示的通过分子K和L的合成路径并不成功,因为N不属于基元。这些失败的经验可以用来学习用于引导反向合成规划的评分函数,以避免类似的失败。需要注意的是,先前的方法,如Retro*、Retro*+以及基于强化学习的方法,使用学习到的评分函数来估计给定分子的预期合成成本或价值。由于Retro*仅从成功合成的分子中进行训练,忽略了失败的合成路径,而这些路径可能有助于提高合成性能。基于强化学习的方法通过在搜索过程中为失败或未证明的分子设置惩罚值(较高的合成成本或较低的合成价值),考虑到失败的经验进行评分函数的学习。与设置惩罚值不同,作者的方法旨在使评分函数反映实际的分解情况,特别是那些未证明的情况。作者提出了一种基于蒙特卡洛树搜索的搜索方法,即经验引导的蒙特卡洛树搜索(EG-MCTS),用于生成用于合成目标分子的路线。作者遵循常见的做法,忽略试剂和其他化学反应条件。首先,模型通过收集反向合成经验来训练一个经验引导网络(EGN),用于估计反应模板的评分函数。然后,作者使用学到的EGN生成目标分子的反向合成路线。
为了在收集合成经验时探索概率较低但潜在成功的反应模板,EG-MCTS使用蒙特卡洛树搜索(MCTS)来探索反应模板,并记录这些模板的得分以用于训练评分函数。MCTS的核心组件“上置信界限”(UCB)在探索很少访问的路线和利用高价值路线之间平衡权衡。它使高价值路线的综合得分随着访问次数的增加而减少。即使EGN在随机初始阶段可能会预测TA2的较高得分,但随着对TA2的多次访问,其得分会逐渐降低,搜索将转向探索TA1。因此, EG-MCTS方法将在MCTS探索过程中发现TA1导致更少步骤的路线,并记录关于TA1的经验以供未来探索。为了利用失败的经验,作者估计失败的经验和成功的经验一起来评估反应模板的得分。
模型

图 2
EG-MCTS方法由两个阶段组成,即(I)学习用于引导搜索的经验引导网络(EGN),以及(II)使用学到的EGN生成分子的合成路线(如图2a所示)。
为了解决定义评分函数的困难和缺乏路径级别合成路线的问题,在阶段I中,作者旨在使用网络引导的MCTS规划来收集合成经验,然后使用这些经验来更新网络。蒙特卡洛树搜索作为一种通用的搜索方法,在游戏中(如围棋)已经取得了成功。MCTS的一个变种,PUCT,已经成功应用于反向合成规划。作何使用神经网络而不是传统的Rollout策略来计算搜索节点的启发式值。这个神经网络,即经验引导网络,估计每个模板T对每个分子m的评分Q作为初始评估值。
在图2a中展示的阶段I中,作者首先用随机权重初始化EGN。对于训练集中的每个目标分子,作者使用带有EGN的EG-MCTS规划构建搜索树,并根据搜索树收集合成经验作为EGN的训练数据。在获得新的EGN后,作者在验证集上验证其性能。如果达到最佳性能,阶段I停止并返回训练良好的EGN。否则,阶段I将按照经验收集、EGN更新和EGN验证的顺序循环进行。在阶段II中,作者使用它来引导EG-MCTS规划。在为一个新的目标分子生成搜索树后,作者分析搜索树中的合成路线。关键部分的EG-MCTS规划在阶段I和II中都出现,帮助收集合成经验和生成合成路线。EG-MCTS规划构建的搜索树被表示为一个AND-OR树。OR节点(分子节点)包含一个分子,而AND节点(反应节点)包含一个反应模板。规划过程可以从图2b中找到,它由三个模块组成,即选择、扩展和更新。选择模块选择最有前景的分子节点m,扩展模块使用单步反向合成模型扩展所选节点,并使用EGN预测初始值。之后,更新模块沿着树向上更新。这三个分子模块循环执行,直到搜索成本耗尽。
实验部分

表 1
作者对EG-MCTS进行了评估,并与基准方法在作者收集的180个分子的测试集以及Retro*和Retro*+的测试集(称为Retro*-190)进行了比较。基元集合B来自eMolecules。作者考虑了所有方法生成的每个分子的第一条路线来计算评估指标,假设一个好的算法应该能够尽快找到高质量的路径。作者的评估指标包括规划的效率和解决方案路线的质量。

表 2
表1显示了所有方法在作者的测试集和Retro*-190上的规划效率表现。指标Avg iter、Avg T和Avg M均在迭代次数限制为500的情况下进行计算。在所有指标中,EG-MCTS在所有指标上的表现都比非学习版本要好得多,显示了作者的EGN所带来的性能改进。在作者的测试集中,EG-MCTS比次优方法Retro*+成功率高3.88%,比Retro*+少使用25.22次迭代。在Retro*-190中,作者的EG-MCTS在指标avg iter上也具有很大的优势。表1中迭代限制的成功率显示了迭代限制对这些算法的成功率的影响。可以看到作者的EG-MCTS在两个测试集上的表现都非常出色。作者在迭代限制为5000的情况下探索了EG-MCTS和Retro*+的性能。结果显示,两种算法的成功率收敛到相同的值(Retro*-190为98.42%,作者的测试集为96.11%),而EG-MCTS的平均迭代次数仍然低于Retro*+。从理论上讲,如果不限制搜索成本,任何搜索算法都可以找到可解的目标分子的解决方案。除了贪婪深度优先搜索(Greedy DFS)之外,在作者的测试集上有132个分子被所有方法成功解决,在Retro*-190上有103个分子成功解决。为了衡量解决方案路线的质量,作者比较了路线的长度,即路线中的反应数量。结果如表2所示。指标LRN(最长路线数量)表示某种方法在所有成功解决的分子中生成的最长路线数量。具体而言,对于所有方法成功解决的每个分子,如果某种方法生成了最长的路线,则该方法的LRN增加1。类似地,指标SRN(最短路线数量)表示某种方法在所有成功解决的分子中生成的最短路线数量。指标Avg表示每种方法生成的所有路线长度的平均值。
作者的方法在所有方法中具有出色的综合性能。尽管Retro*+和Retro*-0+在规划效率上表现良好,但它们在两个测试集上给出的路线质量并不好。作者认为原因可能是在进行自我改进时,它们只是增加已经被证明成功的路径的概率。在EG-MCTS中,模型学习了一条综合路径评分,因此可以充分考虑所有潜在路径。
结论
作者提出了一种新颖的基于MCTS的反向合成规划方法EG-MCTS。作者在真实世界的基准数据集上的实验结果表明, EG-MCTS在现有方法上取得了显著的改进。生成的路线与已发布的路线之间的比较也证实了方法的有效性和可行性。作者使用EG-MCTS对真实药物或化合物进行反向合成规划,结果表明EG-MCTS具有指导作用。
参考资料
Hong, S., Zhuo, H.H., Jin, K. et al. Retrosynthetic planning with experience-guided Monte Carlo tree search. Commun Chem 6, 120 (2023).
https://doi.org/10.1038/s42004-023-00911-8