研究背景
分子片段在药物研发中具有重要作用,如通过基于片段的从头药物设计获得高活性化合物、通过基于分子片段的骨架跃迁获得新颖结构。将化合物按照预先定义的规则进行拆分,是获得分子片段的有效途径。然而,作为基础工具,分子片段化方法的创新研究近年来并未引起足够的重视。
RECAP[1]和BRICS[2]算法基于逆合成化学定义了一系列切割键,并被广泛用作其他分子片段化工具的基本规则,如molBLOCKS[3]和eMolFrag[4]。其他非基于逆合成化学的断键规则虽然相对罕见,但也有报道[5,6]。上述方法和软件往往只断裂非环键,以保持环结构的完整性。在分子具有较小环系统的情况下,这种限制具有其合理性。然而,在过去十年中,大环化合物因其独特优势得到研究人员的关注,大环药物的研究数量大幅增加。因此,排除环键的切割可能不利于提高片段多样性,并阻碍新颖独特片段的获得,特别是那些可能有利于线性化合物大环化的片段。此外,大多数可用的片段化程序倾向于将分子切割成最小的砌块(building blocks),这可能会导致某些药效团的破坏,例如酯和酰胺基团。在RDKit (http://www.rdkit.org)中实现的BRICS算法提供了一个额外的选项来输出分子片段化过程中的所有中间子结构,旨在对片段空间进行彻底的采样。然而,对于那些具有高分子量和大量断裂键的化合物来说,这将导致运行时间呈指数级增长,并且冗余的较大子结构不适合作为片段。modified molBLOCKS[7]是基于molBLOCKS开发的方法,通过组合最小砌块来实现详尽的片段空间采样。虽然该程序能够通过指定输出片段所包含的最小砌块的最大数量来控制输出片段的大小,但其在大型数据集上的计算性能并不明确。
为了同时解决上述问题,我们提出了化合物分子片段生成方法MacFrag。MacFrag的主要功能和创新点如下:
1) 定义了系统的环键断裂规则,对BRICS方法进行拓展,从而增加获得新颖分子片段的概率;
2) 生成的分子片段可包含不同数量的最小砌块,以覆盖更广阔的片段空间,满足不同的药物设计任务需求;
3) 将分子转为由最小砌块作为节点的图,引入高效的诱导连通子图枚举算法Simple[8],极大地加速了分子片段化过程。
实验方法
图1 MacFrag流程图
1.断裂键的识别
给定一个分子,MacFrag的第一步是识别所有的可断裂键,并将分子切割成最小的砌块。我们参考了RDKit中的BRICS规则,去除了对环键断裂的限制。最终,使用SMARTS字符串定义了19个原子环境,随后将它们组合成49个可断裂键。我们设置了一个用户可定义的参数maxSR ,所包含原子数等于或小于该值的环结构将保持不变。若将maxSR设置一个较大的值,则意味着环键不会被切割,等同于RDKit中BRICS的原始版本。此外,MacFrag支持用户自定义断键规则。
2.子图和片段枚举
通过将砌块视为节点,将连接它们的化学键视为边,分子被简化为无向图。随后,使用高效的Simple算法枚举具有指定最大节点数的所有连通诱导子图。MacFrag并非通过最小砌块进行组合获得片段,而是将子图映射到原始分子,并在去除额外的原子和键后提取片段。输出片段带有假原子标记,以指定断裂键的位置。参数maxBlocks用来控制片段包含的砌块的最大数量。
实验结果
首先对MacFrag的计算性能进行了评估,并与RDKit中的BRICS和modified molBLOCKS两种同样可以对片段空间进行采样的方法进行了比较。在modifiedmolBLOCKS中,使用RECAP作为断键规则。从ChEMBL数据库中随机选取大量分子数据集(数量从10000到100000不等)进行片段化,并统计不同方法的运行时间,每个实验重复3次,取平均值。
结果表明,MacFrag具有更优越的计算性能(图2B和2C)。对于分子量低于500的小分子, MacFrag的速度分别是BRICS和modifiedmolBLOCKS的2.5和11.8倍。当分子量增加到500~1000时,MacFrag在运行速度方面的优势更为显著,分别为BRICS和modifiedmolBLOCKS的7.9和104倍。
图2 MacFrag与BRICS和modifiedmolBLOCKS的性能比较
随后,我们对大规模化合物分子进行切割,以评估三个程序获得的片段的质量。从ChEMBL数据库中收集到1 921 745个分子量低于1000的分子进行分子片段化,使用RDKit计算RO3相关的分子片段性质。RO3性质包括分子量(MW,<300)、氢键供体数目(NHD,≤3)、氢键受体数目(NHA,≤3)、logP(≤3)、可旋转键数目(NROT,≤3)、极性表面积(PSA,≤60)。实验采用双侧Wilcoxon秩和检验计算各属性的统计差异,p值使用****p标注,代表p< 0.0001。标记中值以进一步展示组间差异。
图3 不同方法生成的分子片段的RO3相关性质分布
如图3所示,尽管每两种不同的方法生成片段的性质都存在高度显著的差异(p<0.0001),但MacFrag碎片的性质分布在较低的区域。以分子量为例,MacFrag片段的中值为288.3,而modified molBLOCKS和BRICS的中值分别为369.2和389.4。在这些片段中,约13%的MacFrag片段可以符合RO3规则,而modifiedmolBLOCKS片段和BRIC片段分别只有5%和6%。此外,随着违背RO3规则的最大数量增加,MacFrag获得的片段比例仍然较高(图2D)。在符合RO3规则的片段中,有82758个分子片段是MacFrag特有的,这在很大程度上应归因于环键的断裂(图4)。
图4 MacFrag通过断裂大环键获得新颖独特的分子片段
研究总结
综上所述,该团队提出的MacFrag方法可以高效地枚举分子的片段空间,适用于大规模分子数据的片段化,尤其是那些包含大分子的数据库。此外,MacFrag去除了对环键断裂的限制,有助于在保证化学可合成性的同时获取新颖片段。MacFrag作为一个实用工具,将在高质量片段库的构建以及创新药物研究中发挥积极作用。
该工作的第一作者为华东理工大学药学院在职博士生刁妍妍,通讯作者为华东理工大学药学院李洪林教授,博士研究生胡枫和沈子豪参与了部分工作。相关算法已申请软件著作权保护。这项工作得到了国家重点研发计划和国家自然科学基金的支持。
原文链接:https://doi.org/10.1093/bioinformatics/btad012
参考文献
[1] Lewell X Q, Judd D B, Watson S P, et al. Recap retrosynthetic combinatorial analysis procedure: a powerful new technique for identifying privileged molecular fragments with useful applications in combinatorial chemistry. Journal of chemical information and computer sciences, 1998, 38(3): 511-522.
[2] Degen J, Wegscheid‐Gerlach C, Zaliani A, et al. On the Art of Compiling and Using'Drug‐Like'Chemical Fragment Spaces. ChemMedChem: Chemistry Enabling Drug Discovery, 2008, 3(10): 1503-1507.
[3] Ghersi D, Singh M. molBLOCKS: decomposing small molecule sets and uncovering enriched fragments. Bioinformatics, 2014, 30(14): 2081-2083.
[4] Liu T, Naderi M, Alvin C, et al. Break down in order to build up: decomposing small molecules for fragment-based drug design with e molfrag. Journal of chemical information and modeling, 2017, 57(4): 627-631.
[5] Vainio M J, Kogej T, Raubacher F, et al. Scaffold hopping by fragment replacement. J. Chem. Inf. Model., 2013, 53: 1825-1835.
[6] Firth N C, Atrash B, Brown N, et al. MOARF, an integrated workflow for multiobjective optimization: implementation, synthesis, and biological evaluation. Journal of chemical information and modeling, 2015, 55(6): 1169-1180.
[7] Heikamp K, Zuccotto F, Kiczun M, et al. Exhaustive sampling of the fragment space associated to a molecule leading to the generation of conserved fragments. Chemical biology & drug design,2018, 91(3): 655-667.
[8] Komusiewicz C, Sommer F. Enumerating connected induced subgraphs: Improved delay and experimental comparison. International Conference on Current Trends in Theory and Practice of Informatics. Springer, Cham, 2019: 272-284.
[9] Diao Y, Hu F, Shen Z, et al. MacFrag: segmenting large-scale molecules to obtain diverse fragments with high qualities. Bioinformatics, 2023.
供稿:胡枫
校稿:刁妍妍
编辑:王思雨
华东理工大学/上海市新药设计重点实验室/李洪林教授课题组