前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >榕树集--新型抗生素的发现

榕树集--新型抗生素的发现

作者头像
DrugSci
发布2024-01-22 15:29:27
1650
发布2024-01-22 15:29:27
举报
文章被收录于专栏:FindKeyFindKey

简介‍

在本文中研究团队提出了一种基于深度学习的可解释方法,用于发现新型抗生素结构。通过神经网络学到的抗生素活性相关的化学亚结构被用于预测抗生素的结构类别。研究团队通过图神经网络预测了超过1200万个化合物的抗生素活性和毒性,并通过可解释的图算法确定了具有高抗生素活性和低毒性的化合物的亚结构理由。实验验证表明,具有特定亚结构的化合物对金黄色葡萄球菌具有抗生素活性,其中一种结构类别对耐药性较强的金黄色葡萄球菌和肠球菌具有选择性。这一方法为深度学习引导的抗生素结构类别发现提供了新途径,并强调了机器学习在药物发现中的可解释性和对选择性抗生素活性的化学基础的洞察力。

深度学习模型建立

数据集准备

作者首先筛选了 39,312个化合物,包含了多数已知的抗生素,天然产物以及结构多样性分子,分子量在 40 Da 到4200 Da之间。测试了其对甲氧西林敏感菌株金黄色葡萄球菌RN4220的生长抑制活性,最终获得了512个活性物质,整体的1.3%。

Rich !!!假如没有数据集的话就造一个数据集出来。

数据处理

作者使用Chemprop,进行图神经网络的训练,以建立一个基于化学结构的二元分类预测模型。

首先使用Rdkit基于输入的SMILES格式生成基于图的分子表示。基于Rdkit可以计算的特征(Supplementary Data 1),为分子的每个原子和键生成一个特征向量:

  • 原子特征包括原子序数、每个原子的键数、正电荷、手性、与之相连的氢原子数、杂化化、芳香性和原子质量
  • 键特征包括键类型(单、双、三键或芳香键)、共轭、环和立体化学。 ‍

最终得分来自于多个模型以提高其鲁棒性。这10个模型的集成,precision-recall curve(AUPRC)为0.364,其表现良好。并且与其余的没有Rdkit特征的模型以及基于Morgan分子指纹的模型相比,使用ChemProp构建的基于Rdkit特征的模型表现最好。

在化学空间中进行过滤以及可视化

基于上述数据,作者构建了4个集成模型,分别用于预测抗生素活性, HepG2细胞毒性, HSkMC细胞毒性,IMR-90 细胞毒性。随后基于这些模型来预测12,076,365个化合物,这些化合物分别来自于Mcule以及Broad Institute,大多数可以直接合成,无需购买,拿到了3646个化合物,占整体的0.03%。

作者应用了基于Morgan指纹的t-SNE 分析并将分子进行可视化。可以看到作者筛选出的药物中,多个hits与训练集中的活性化合物不同,证明作者所建立的模型,筛选到了未知的化学空间。

基于Rationales预测抗生素类别

由于图神经网络是根据每个分子中的原子和键中包含的信息进行预测的,作者想进行更为人性化的解释,所以假设其抗生素的化合物预测得分较高占据主导因素的为亚结构(rationales)。可以通过识别这样的rationales来为模型提供解释,也就是说将rationale作为模型的输入的话,会拿到一个较高的预测得分。在基于训练好的模型的情况下,基于图搜索算法来拿到这样的rationales。作者的目标是使用MC tree搜索到至少含有8个原子,并且预测得分大于0.1的rationales。尽管基于最大亚结构的方法较为流行,但是当应用于深度学习的模型时,MCS-based方法不一定产生具有参考意义的亚结构。

作者首先验证了基于rationales的计算是否能重新在训练数据中找到新的结构类别。作者重新训练了模型,但是这个新模型的训练数据将包含quinolone双环核心或β-内酰胺环的化合物排除在外。并使用这个新模型产生的rationalse与之前hits进行比较。可以发现的是新模型预测的rationales与已知的结构类别的片段重叠,包括quinolone双环核心和头孢菌素和β-内酰胺环,说明这个模型可以基于化学结构的性质来识别新的抗生素骨架。作者也使用了传统的QSAR分析,QSAR并不能实现相似的效果。

新奇的被筛选出的亚结构‍‍

作者希望自己的模型可以预测出具有结构新颖的抗生素。基于PAINS和Brenk警告,删除了一些可能具有反应基团,诱变以及不利药代动力学的亚结构的分子,拿到了2209个hits。并计算了每个hits与训练集中的活性化合物的Tanimoto相似性,将阈值设置为<=0.5,以及不含β-内酰胺环或quinolone双环核心的hits,最终产生了1261个hits。为了使用这些rationales来清晰的反应结构类别,计算出了在rationales保持不变的至少12个原子的化学骨架,发现带有rationalse的hits中的16个分子可以分为5个rationales,5个骨架中3个含氯,表明在这些化学分子中,氯原子是影响抗生素活性的重要因素。

随后进行生物活性实验验证,这里不再赘述。

讨论:

抗生素耐药危机,从1962年氟喹诺酮类抗生素引入后的38年内变得明显,直到2000年氧唑烷酮类抗生素的引入。在本研究中,作者使用基于图的深度学习模型对12,076,365种化合物的抗生素活性和细胞毒性进行预测,识别了潜在的抗生素结构类别。作者的方法揭示了多种对S. aureus具有抗生素活性的化合物。并且在这些化合物中,发现了一种结构类别具有很高的选择性,能克服耐药性,具有良好的毒理学和化学性质,并且在小鼠感染模型中对MRSA的局部和全身治疗均有效。此外,机制和结构活性关系分析还表明,可以进一步优化这种结构类别,使其对革兰氏阳性病原体更具选择性,并对革兰氏阴性病原体具有更高的渗透性。

参考

Wong, F., Zheng, E.J., Valeri, J.A. et al. Discovery of a structural class of antibiotics with explainable deep learning. Nature (2023). https://doi.org/10.1038/s41586-023-06887-8

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介‍
  • 深度学习模型建立
    • 数据集准备
      • 数据处理
      • 在化学空间中进行过滤以及可视化
      • 基于Rationales预测抗生素类别
      • 新奇的被筛选出的亚结构‍‍
      • 讨论:
      • 参考
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档