作者 | 王豫 编辑 | 龙文韬 校对 | 李仲深
今天给大家介绍的是韩国江原国立大学Umit V.等人在2021年发表的一篇名为“Substructure-based neural machine translation for retrosynthetic prediction”的文章。随着机器翻译方法的快速改进,神经网络机器翻译开始在逆合成规划中发挥重要作用。作者利用无模板的序列到序列模型,将逆合成规划问题重新转化为语言翻译问题,不像先前的使用SMILES字符串来表示反应物和产物的模型,作者引入了一种新的基于分子碎片的方法来表示化学反应,并使用古本系数进行结果评估。结果表明,与目前最先进的计算方法相比,该方法能获得更好的预测结果。该方法解决了现有的逆合成方法产生无效SMILES字符串等主要缺陷。具体来说,我们的方法预测高度相似的反应物分子的准确率为57.7%。此外,作者的方法得到了比现有方法更稳健的预测。

一、研究背景
虽然有机化学的知识已经积累了几十年,设计有效的合成路线的目标分子仍然是有机合成的关键任务。逆合成方法提出了一种合理的路线,可以从一系列可用的反应物和试剂中生成目标分子。这种方法本质上既是迭代的又是递归的,因为它需要对反合成变换进行连续计算。逆合成转化递归地进行,直到识别出更简单的和商业上可用的分子。近期,表现最好的神经机器翻译模型引入了注意机制作为其神经结构的一部分,以提高其对长句子的性能,例如建立在Transformer上的逆合成预测架构。像这样的编码器-解码器模型,特别是引入注意机制后都采用了类似的策略来处理翻译任务。分子结构的SMILES表示是基于序列到序列模型的典型输入。然而,以前报告的模型都没有关注子结构、片段、级别上的翻译。
在文章中,作者提出了一种无模板的方法,通过学习在子结构水平上的化学变化来预测逆合成反应。这种方法通过使用MACCS密钥,将一个分子表示为一个句子,该句子基于一组对应于一个单词的子结构。作者还提出了一种独特的标记化方案,适当地消除了基于SMILES标记化产生的问题。作者的模型由双向LSTM单元组成,并以完全数据驱动和端到端的方式进行训练,并且没有标注反应类别信息。最后,作者彻底讨论了数据集和描述符管理等步骤。评估结果基于美国专利商标局(USPTO)反应数据集的三个数据集。
二、模型与方法
2.1 数据集
在本研究中,作者使用了经过过滤的美国专利反应数据集USPTO,该数据集是通过文本挖掘方法获得的。Schwaller等人消除了数据集中没有原子映射的重复反应字符串。他们还用RDKit删除了780个由于SMILES标准化失败的反应。数据固有的局限性是绝大多数的条目都是单个产品的反应。因此,本研究只使用了对应92%数据集的单个产品案例。
SMILES符号用字母、数字和符号组成的线性序列表示分子结构。因此,从语言学的角度来看,SMILES是一种具有语法规范的语言。然而,在该方法中,分子被表示为一组片段,使用由166个预先定义的子结构组成的MACCS密钥。这种基于二进制位的分子描述符将一个分子转换为166位向量,其中每个位表示从预定义的SMARTS模式字典中提取的特征是否存在。
2.2 描述符管理
在该方法中,一个分子用MACCS密钥表示为一组片段。作者调查了数据集中每MACCS密钥的出现次数。同时,作者比较了100万个随机取样的药物样小分子的结果,这是生成的数据库(GDB-13)的一个子集,包含9.75亿个分子。图1显示了这两个数据库中MACCS密钥的规范化频率分布。直接的两两比较使减少MACCS密钥的数量合理化(图1)。在本研究中,5个从未出现过的密钥和9个在USPTO数据库中不常见的密钥被省略。根据比较,在GDB-13数据库中从未或几乎从未观察到的另外26个键也被排除在外。

图1. 两个数据集中MACCS密钥频率分布图
分子属于不同的化合物数据库,如药物或天然产物,其指纹图谱特征也不同。因此,作者将分析范围缩小到药物样分子,并通过GDB-13中的100万个药物样小分子来修改指纹表达。基于发生分析去除冗余键具有明显的优势。它缩短了源句和目标句的长度,并为翻译过程中使用的键提供了更好的排序分布。这里,每个分子由126个MACCS密钥代表,这可以充分代表GDB-13的100万个随机样本子集的98%。在化学家处理的机器翻译任务中,源分子和目标分子是可互换的反应物和产物的占位符。选择取决于预期的分析。对于一个反合成的预测任务,源句和目标句分别指产物和反应物。
2.3 反应预处理
模型只考虑经过处理的MACCS密钥的非零索引。根据频率的排列,将英文字母分配到非零的MACCS密钥上,形成独特的人工单词。这种进一步的编码将乘积和反应式的句子转换成字母键的基于频率的排序版本,这暗示了单词的位置信息,使方案适合于使用序列到序列的体系结构。单字母单词是用英语中最常见的21个字母中的大小写字母生成的。双字母的单词是由每42个单个字母加上x和z组成的,这样我们就可以覆盖所有126个MACCS密钥。因此,字母片段词汇表的长度固定为126。示例产物反应物对的生成过程如图2所示。

图2. 为逆合成预测任务获取产品句和反应式句的数据准备过程
MACCS非零索引可以作为LSTM模型的良好标记和输入。该模型进一步将产物和反应物编码成语言表示,为MACCS密钥中的每个索引分配一到两个字母。应用进一步的编码是有效的,特别是考虑到管理的MACCS密钥的尺寸相对较小。这给出了一个排序,增强可读性,并提供了视觉理解。
2.4 反应数据集管理
产物反应物对数据集在翻译机处理之前进行了进一步的整理。在用126个截断的MACCS密钥代表每个分子之后,应用一系列的过滤器来移除相同的产物反应物对和内部孪生对。内部孪生对是一对产物句和反应物句相同的数据条目,当化学变化超出了基于MACCS密钥的表示法的灵敏度时,孪生对就会出现。因为把分子和MACCS密钥联系起来,在一个子结构子空间上操作,一定数量的信息就丢失了。预处理程序产生并移除了5748个内部孪生对。此外,排除了三种或三种以上反应物的反应。为了避免冗长的片段序列,最长配对的长度被设置为100。
然后将产物反应物对放入单映射生成器中,以保证产物句与反应物句一一对应。如果一个反应物的句子由两个反应物组成,可以根据它们的序列长度,将它们降序排列。其中反应物用符号分开。策划数据集包含总计352546个产物反应物对,可以进一步细分为两个不连通的子集:单反应物数据集和双反应物数据集。以这种方式组织数据集对于独立评估模型性能至关重要。这些数据集可以在线免费获取,图3总结了数据集大小和管理步骤。

图3. 数据集管理过程和获取训练/测试对流程图
2.5 模型构架
作者的序列到序列神经网络包括两个双向LSTM单元:一个用于编码器,另一个用于解码器。此外,作者还使用了单向LSTMs来量化使用双向LSTMs对模型性能的改善程度。编码器和解码器层通过全局注意力机制连接,该机制捕获源序列所有元素之间的非局部关系。注意力机制允许神经网络关注源句子的不同部分,并在训练过程中考虑单词之间的非线性关系。全局方法将注意力集中在源句子上的所有单词上,以便在解码器单元的每个时间步长为每个目标单词计算全局上下文向量。因此,全局上下文向量表示所有源隐藏状态的加权和。这些上下文信息可以提高预测的准确性。
2.6 评价标准
关联系数如Tanimoto、Sörensen Dice和非对称Tversky指数被认为是结构相似基准的有效相似度量,因此被广泛使用。为了评估合成模型的性能,作者选择了被认为是计算结构相似度的最佳度量之一的古本(Tanimoto)系数作为相似度度量。计算预测序列与所有测试分子的真值之间的成对相似性。两种化学结构之间的古本系数(Tc)值在0~1之间。如果分子没有共同的片段,则系数为零,而相同的分子有统一的Tc。虽然这些是古本相似性度量的两端的情况,没有单一的标准来定义相似的和不相似的分子。作者定义了三个阈值(0.50、0.70和0.85)来评估翻译实验的质量。使用古本相似度度量(等式1),在验证集中出现的每一对验证语句的每个epoch结束时计算预测和真值句之间的相似度。

模型可以用一种或两种反应物进行预测,因为所有的反应都包含在组合数据集中。因此,有多种可能性来比较预测序列与真值。表1列出了与反应物数量相对应的评估潜在对。计算了所有可能的预测序列对和真值之间的古本相似性。然后,基于更多相似结构更容易匹配的假设,选择相似度最高的配对。

表1. 预测序列和真值之间可能的配对
三、结果与讨论
3.1 预测精度
基于单反应物、双反应物和组合测试集三个数据集对模型的性能进行评估。对测试集的评估结果汇总在表2中。每个测试数据集的预测质量用两两的谷本相似度值来表示。作者还引入三个标准来评估翻译模型的成功率:精确匹配的数量(Tc=1.0)、生物活性相似匹配的数量(0.85<Tc<1.00)和总体成功率表现为所有测试分子中预测序列和真实序列(一系列片段)之间的平均谷本相似性。

表2. 在三个测试数据集中对分子的成功率
对于单反应物反应,双向LSTM模型在综合使用前两个标准的基础上获得了57.7%的精度。准确相似率为29.0%,生物活性相似率为28.7%。预测序列与真实序列Tc值的平均值为0.84。这些结果表明,模型对单反应物反应具有较高的预测精度。对于双反应物反应,完全匹配的成功率(27.9%)与单反应物反应的成功率几乎相同。然而,高度相似预测的成功率从28.5%下降到10.5%。在组合的集合中,25.3%的预测是准确的,12.9%的预测高度相似。同样,对于包含双反应物和组合反应物的数据集,Tc平均值从0.84下降到0.66和0.68。
结果表明,基于双向LSTM的模型优于基于单向LSTM的模型。对于所有的数据集来说,精确匹配的成功率持续下降约6%。这可能是由于基于MACCS表示的分子表示不依赖于键的顺序。换句话说,大多数关于分子和化学反应的信息都嵌入到MACCS密钥中。
3.2 与现有模型比较
因为该模型没有预先提供反应类信息,作者仅比较了该方法与其他不考虑反应类标签的合成预测方法的预测精度。根据重现结果。Top-1的精度范围从28.3% (Liu等人在USPTO-50 K数据集上的LSTM模型)到54.1% (Lin等人在USPTO MIT数据集上的变压器模型)。在另外的一篇报道中,Tetko等人使用100倍的波束大小为10的增强USPTO-50 K数据集训练的增强Transformer模型达到了53.5%的Top-1精度,此外还使用了五倍的增强过滤USPTO-full训练集来训练他们的模型,Top-1准确率报告为46.2%。这些结果优于基于MACCS模型的完美预测的准确率(29%),但低于整体预测准确率(57.7%,考虑高度相似的部分)。
3.3 逆合成预测样例
在本研究中,作者假设候选反应物的Tc>0.85表示与真实反应物足够相似。为了验证这一假设,作者通过比较候选反应物和真实反应物来评估它们的质量。图4给出了随机选择的预测,举例说明了可能的预测案例。使用相似图来可视化候选物和真实反应物之间的相似之处。

图4. 不精确的候选者在相似程度上的不同举例
化学检验表明,平均相似度分数与基于知识的分数密切相关。该评分方法为候选反应物的质量提供了一个清晰的概念,并且相似度评分与手工检查的相似度评分很好地一致。相似度测量的得分低于基于知识的得分,这可能是由于包含了侧链和几何因素(Morgan指纹提供了更详细的拓扑探测)。虽然相似度评分的解释很难客观地评估,但它可以用来评估逆合成预测的质量。根据有机化学的规则,较高的相似度分数表明所需要的分子更具有综合可及性。
3.4 模型特点讨论
与基于字符的SMILES方法相比,基于单词的MACCS密钥模型的关键优势在于,网络需要学习相对简单的语法规则:密钥的升序和共现,以产生有意义的结果。在基于SMILES的方法中,网络不仅要理解SMILES的复杂语法,而且要理解规范表示,才能综合预测正确的序列。SMILES符号语法结构学习的困难可能会导致出现问题的结果,如无效的SMILES字符串。一般来说,现有的基于字符的模型会产生字面上无效的、字面上有效但化学上不合理的,或者字面上和化学上有效但不可行的候选者。这里可以通过投影一个分子结构的SMILES表示到子结构域来避免这个问题。因此该方法可以从根本上有效地解决这些技术问题。
另外值得一提的是,该模型能够产生稳健的预测。对于同一输入分子的每一次独立运行,模型始终给出相同的输出。模型的鲁棒性可能是由于分子描述子的低复杂度和良好的可解释性。一般来说,逆合成模型采用top-N精度评分来评估模型的整体性能。然而,正如Schwaller最近所讨论的,top-N精度分数可能不是评估retrosynthetic模型的充分指标,因为对于每个建议,模型往往会从数据集得出预期的答案,而不是做出化学上更有意义的预测。尽管MACCS密钥在相似基准上的性能不佳受到了批评,但这种描述符的一个优点是,与经过散列过程的穷举生成算法获得的指纹相比,比特和子结构之间存在一一对应关系。因此,MACCS密钥是测试翻译方法的概念验证水平的自然选择。
根据设计,模型预测的是MACCS密钥表示,而不是SMILES字符串。将预测的结构指纹序列转换为有效分子需要一个字典来查找匹配指纹的候选反应物。幸运的是,对于MACCS密钥,在转换过程中保留任何位的参考SMARTS值。与基于哈希的指纹不同,键与其定义之间始终存在一对一的对应关系。因此,可以利用建立在预定义子结构上的指纹,并使用USPTO和PubChem数据库构建一个查找表来检索与预测的MACCS匹配的分子。如果在表格中没有找到一个完美的匹配,最接近的匹配被选为真实分子的候选者。如图4所示,查找表中的每个对象都包含检索机制中的SMILEES、MACCS密钥和语言表示。查询是基于语言表示发送的。

图5. 图4中示例4反应的输入输出信息示例
四、总结
作者开发了一个序列到序列的机器反应模型,通过学习子结构层次上的关系来自动提取化学反应的反应规则。通过构造一个抽象语言的小尺寸固定长度的非零元素的词汇MACCS密钥,解决了SMILES表示带来的模型结果容易错误,预测结果不可合成的问题。此外作者还指出了top-k精确度的弊端,并提出了新的评估指标。结果表明,该方法在0.90<Tc<1.00范围内实现了高水平的整体精度。相信这种方法在有机化学中具有广阔的应用前景。对于未来的版本,有必要开发一个定义更好的适用性更强的结构密钥。
参考文献
Ucak, U.V., Kang, T., Ko, J. et al. Substructure-based neural machine translation for retrosynthetic prediction. J Cheminform 13, 4 (2021). https://doi.org/10.1186/s13321-020-00482-z