编译 | 杨慧丹 审稿 | 王玉杰
今天给大家介绍的是来自西班牙巴塞罗那生物医学研究所(IRB Barcelona)的研究人员于6月24日发表在Nature Communications期刊上的一篇文章“Bioactivity descriptors for uncharacterized chemical compounds”。文中作者提出了一组可以推断任何化合物的生物活性特征的深度神经网络,使用深度机器学习计算模型对分子的生物活性信息进行了大规模预测分析。同时还披露了一个高效开源工具——CC signaturizers,可以预测任何分子的生物活性空间,并有望成为审查预期的化合物生物活性谱的参考工具。
药物发现过程往往要从数十万甚至数百万化合物的起始池中选择一种药物,Computational drug discovery (CDD) 方法可以在这个庞大而复杂过程中提供帮助,而分子的有效数学表示——化学描述符(chemical descriptors),是所有 CDD 方法的关键,它可以编码小分子的理化和结构特性,是化学信息学的核心。
记录表明,除了使用广泛的分子指纹,分子的其他数字表示也是可能的。生物活性数据的广泛发布促进了化合物的丰富表达,超越了化学结构并捕获分子的生物特征。然而,大多数小分子都没有生物活性描述符(bioactivity descriptors),这限制了该方法对众多已被充分表征的化合物的适用性。
1. Chemical Checker与CC signaturizers
该团队将主要的化学基因组学和药物数据库整合在名为Chemical Checker(CC)的单一资源中,这是迄今为止最大的小分子生物活性特征集合。当前版本的CC分为5个复杂等级(A: Chemistry, B: Targets, C: Networks, D: Cells, and E: Clinics),每个等级又分为5个子层,总共由25个空间组成,涵盖了分子的2D/3D结构、目标和代谢基因用于捕获分子、靶标和代谢基因的2D/3D结构、靶标的网络特性、细胞反应谱、药物适应症和副作用等(图1a)。在CC中,生物活性特征按数据类型(配体-受体结合、细胞敏感性概况、毒理学等)进行组织,可作为日常化学信息学任务中化学描述符的替代,其遵循化学到临床的基本原理,便于在药物发现流程的每个步骤选择相关特征类别。从本质上讲,CC是存放在公共领域的小分子数据的替代表示,也受到实验数据的可用性以及源数据库(如ChEMBL、DrugBank)覆盖范围的限制。
研究人员将所有可用的实验信息与深度机器学习方法相结合,基于CC开发了新工具CC signaturizers,该工具可以对分子的所有活动概况(从化学到临床水平)进行预测分析。
图1.CC signaturizers的训练与评估。
2. 生物活性特征的预测
生物活性特征的推断可被视为一个度量学习问题。在实践中,对于每个CC空间(Si),使用孪生神经网络(SNN)来解决度量学习问题,将可用于该化合物的CC signatures的堆叠阵列作为输入,将优化的n维嵌入作为输出,以辨别Si中相似和不相似的分子。signaturizer将分子可用的CC signatures子集作为输入,并生成128D signature,原则上可捕获CC空间中分子的相似性概况。
在训练和验证了signaturizers后,研究人员依据不同的生物活动空间可以相互关联,大量推断出CC中可用的约800,000个分子的缺少的signatures,为每个分子获得了一套完整的25×128维的signatures。同时还为预测分配了适用性分数(α)以探索所推断的signatures的可靠性(图2a,2b)。
图2.signaturizers进行大规模生物活性预测。
3. 生物活性引导的化学空间导航
综合起来,CC signatures提供了一种新的生物活性驱动的方式来组织化学空间,并有可能揭示更高层次的组织。研究人员分析了30多个不同的化合物集合(图3a),通过在完整的CC上进行大规模的GSig聚类,然后计算每个库中化合物的GSigs并将它们映射到CC集群中,从而获得每个集合的特定集群占用向量,以揭示这些集合所涵盖的生物活性空间。结果发现,与药物相关的库(例如IUPHAR和IDG)的占用向量与参考的CC库相似,这意味着它们均匀地分布在生物活性空间中。
同时,为了更好地了解每个集合所涵盖的生物活性区域,另外选择了5个与药物分子、代谢物和天然产品提取物相关的总量超3万的化合物集合进行分析(图3c)。结果显示这些集合大部分位于GSig空间的高α区(图3b),尤其是天然产品集合,证明了所推断的CC signatures确实有助于表征大型天然产品集合。
图3.Signature-based的复合集合分析
4. 特征-活性关系(SigAR)模型
研究人员为了探究signaturizers是否可以用作分子特征以预测特定生物测定的结果(类似于在结构-活性关系(SAR)研究中使用化学描述符),他们开发了特征-活性关系(signature–activity relationship,SigAR)模型,并训练机器学习分类器从活性(1)和非活性(0)化合物的CC signatures 中学习辨别特征,目的是为新的(未测试的)化合物指定1/0标签。
研究人员使用了来自MoleculeNet的9个最先进的生物物理和生理学基准数据集,以评估在各种情况下SigAR模型的性能。主要比较了CC signatures与流行的Morgan指纹(MFp)。研究结果表明,与单独使用化学信息预测模型相比,SigAR模型在一系列生物物理学和生理学活动预测基准数据集中具有优越的性能。
图4.MoleculeNet基准测试,将CC Signature的预测能力与基于MFp的经典方法进行比较
研究人员展示了所提出的CC signaturizers在大规模的分子生物活性预测分析的应用,以及如何使用CC signaturizers以生物相关的方式在化学空间中导航,同时揭示了在注释信息不明确的天然产品集合中存在某种出乎意料的高阶结构。CC signaturizers输出的生物信息可以融入相似性搜索、化学空间的可视化、聚类和属性预测,以及其他使用广泛的 CDD 任务。CC signaturizers推断的生物活性特征可用于注释大部分未表征的化学库,并丰富了化合物集合中针对药物靶标的活性信息。该signaturizers将每年更新一次版本,且已准备好容纳新的数据类型,为定制和拓展当前signaturizers提供了机会。
参考资料
Bertoni, M., Duran-Frigola, M., Badia-i-Mompel, P. et al. Bioactivity descriptors for uncharacterized chemical compounds. Nat Commun 12, 3932 (2021). https://doi.org/10.1038/s41467-021-24150-4