前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2024 | 具有动态目标感知片段的药物发现

ICML 2024 | 具有动态目标感知片段的药物发现

作者头像
DrugAI
发布2024-06-18 15:40:42
800
发布2024-06-18 15:40:42
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Sung Ju Hwang团队的一篇论文。基于片段的药物发现是一种在广阔的化学空间中发现药物候选物的有效策略,并已广泛应用于分子生成模型。然而,许多现有的片段提取方法在这些模型中没有考虑目标化学性质或者依赖于启发式规则,现有的基于片段的生成模型也无法在生成过程中使用新发现的目标导向片段更新片段词汇表。为此,作者提出了一种用于药物发现的分子生成框架,称为目标导向片段提取、组装和修改(GEAM)。GEAM由三个模块组成,每个模块分别负责目标导向片段提取、片段组装和片段修改。片段提取模块利用信息瓶颈原理识别对所需目标性质有贡献的重要片段,从而构建一个有效的目标导向片段词汇表。此外,GEAM能够通过片段修改模块探索初始词汇表以外的片段,并通过动态目标导向词汇表更新进一步增强探索能力。作者通过各种药物发现任务的实验表明,GEAM能够通过三个模块的生成循环有效地发现药物候选物。作者的代码可以在https://github.com/SeulLee05/GEAM获取。

药物发现的目的是在广阔的化学空间中发现具有所需性质的分子。近几十年来,基于片段的药物发现(FBDD)被认为是一种有效的策略,是探索化学空间的一种手段,并导致发现了许多针对各种靶标的有效化合物。受FBDD有效性的启发,许多分子生成模型也采用了FBDD来缩小搜索空间,简化生成过程,取得了有意义的成功。

FBDD的第一步片段库构建直接影响最终的生成结果,因为构建的片段将用于整个生成过程。然而,现有的片段提取或基序挖掘方法存在两个局限性:(1)没有考虑药物发现问题的目标化学性质以及(2)依赖于启发式片段选择规则。例如,通常的策略是随机选择片段或基于频率提取片段,他们并不考虑目标属性。

模型部分

图1:FGIB架构与jak2配体生成任务的性能比较

如图1(a)所示,作者首先提出了一种新的基于深度学习的目标感知片段提取方法,即片段智能图信息瓶颈(FGIB)。分子结构与其活性之间有很强的联系,被称为构效关系(SAR)。受SAR的启发,FGIB利用图信息瓶颈(GIB)理论在给定的分子图中识别重要的子图来预测目标的化学性质。这些已识别的子图作为后续生成的构建块。如图1(b)所示,使用本文提出的FGIB提取的目标感知片段显著提高了优化性能,优于现有的FBDD方法。

为了有效地利用提取的片段进行分子生成,作者构建了一个由片段组装模块和片段修改模块组成的生成模型。在这项工作中,作者对装配模块采用软行为批评家(SAC),对修改模块采用遗传算法(GA)。通过这两个模块的相互作用,生成模型既可以利用提取的目标感知片段,也可以探索超出初始片段词汇的内容。此外,为了进一步提高分子的新颖性和多样性,作者建议使用FGIB在生成过程中实时提取新的片段,并动态更新片段词汇表。

图2:GEAM的整体框架

片段提取模块、片段装配模块和片段修改模块作为一个整体,分别以FGIB、SAC和GA的形式构成了生成框架,作者称之为目标感知片段提取、装配和修改(GEAM)。如图2所示,GEAM通过迭代过程生成分子,该过程依次运行每个模块,如下所示:

  1. FGIB构建初始目标感知片段词汇表后,SAC组装这些片段并生成新的分子。
  2. GEAM将最顶端生成的分子作为遗传算法的初始群体,遗传算法从该群体中生成子代分子。
  3. 由于交叉和突变,子代分子中包含了当前片段词汇表无法构建的新子图,FGIB从子代分子中提取有意义的子图并更新词汇表。

通过FGIB向SAC提供目标感知片段,SAC向GA提供优质种群,GA向FGIB提供新型片段这三个模块的协同,GEAM有效地探索了化学空间,发现了新的候选药物。

实验结果

对于GEAM与GEAM-static,GEAM能够在生成过程中动态收集和更新片段词汇,而GEAM-static使用固定的片段词汇,词汇大小在整个生成过程中保持不变。

表1:新颖性命中率(%)结果

表2:新颖性前5%对接分数(kcal/mol)结果

如表1和表2所示,GEAM和GEAM-static在所有任务中显著优于所有基线方法,表明所提出的目标感知提取方法以及SAC和GA的组合在发现新颖、类药和可合成的高结合亲和力药物候选者方面非常有效。

表3:新颖性(%)结果

表4:生成命中分子的 #Circles

如表3和表4所示,GEAM显示出与GEAM-static相当或更好的性能,动态词汇更新的使用在不降低优化性能的情况下增强了新颖性和多样性。通常来说,分子优化模型越强大,生成多样分子的可能性就越小,但GEAM通过即时发现新颖且高质量的目标感知片段有效克服了这一权衡。

表5:PMO MPO AUC的Top-100结果

如表5所示,GEAM在大多数任务中优于基线方法,表明其在各种药物发现问题中的适用性。值得注意的是,GEAM在某些任务中显著提升了GEAM-static的性能。

表6:PMO MPO新颖性(%) / #Circles结果

如表6所示,GEAM在新颖性和多样性方面均优于其他方法。特别是,GEAM生成了比GEAM-static更多的新颖且多样的分子,这再次确认了GEAM的动态词汇更新在不降低优化性能的情况下有效提高了新颖性和多样性。

图3:FGIB、SAC和GA的消融研究以及PLIP图像

为了检验所提出的目标感知片段提取方法与FGIB的效果,如图3(a)所示,作者将FREED与FREED (FGIB)进行比较,后者是使用FGIB提取的片段的FREED变体。FREED (FGIB)显著优于FREED,表明使用FGIB的目标感知片段提取方法大大提升了优化性能。作者还在图3(b)中将GEAM与使用不同片段词汇的GEAM进行比较。GEAM (FREED)、GEAM (MiCaM)、GEAM (BRICS)分别是使用FREED词汇、MiCaM词汇和随机BRICS词汇的GEAM变体。GEAM显著优于所有这些变体,验证了作者目标感知片段词汇的重要性。

为了检验所提出的组装和修改模块组合使用的效果,作者在图3(c)中将GEAM与GEAM-w/o A和GEAM-w/o M进行比较。结果显示GEAM优于所有这些变体,突显了联合使用片段组装模块和片段修改模块的重要性。作者对提取的目标感知片段进行了定性分析,图3(d)展示了一个使用蛋白质-配体相互作用分析器(PLIP)的分子和目标蛋白jak2的结合相互作用的例子。

图4:GEAM与GEAM-static的生成进展

为了全面检验动态更新片段词汇的效果,作者在图4中比较了GEAM和GEAM-static的生成进程。GEAM-static-1000是词汇大小为K = 1000的GEAM-static。如预期的那样,GEAM-static-1000表现出最差的优化性能,因为它的词汇由同一训练分子中的前1000个片段组成,而不是前300个片段,并且由于在整个生成过程中使用了比GEAM和GEAM-static更多的片段,它显示出最高的多样性。GEAM显示出最佳的优化性能和新颖性,这要归功于词汇更新不断地纳入训练分子之外的新颖片段,同时相比于GEAM-static也提高了多样性。

结论

作者提出了GEAM,一种用于药物发现的基于片段的分子生成框架。GEAM由三个模块组成:FGIB、SAC和GA,它们分别负责目标感知片段提取、片段组装和片段修改。在GEAM的生成周期中,FGIB向SAC提供目标感知片段,SAC向GA提供高质量的种群,而GA向FGIB提供新颖的片段,从而使GEAM在各种药物发现任务中表现出色,具有高新颖性和多样性。这些结果突显了GEAM在实际药物发现中的强大适用性。

编译 | 于洲

审稿 | 曾全晨

参考资料

Lee S, Lee S, Hwang S J. Drug Discovery with Dynamic Goal-aware Fragments[J]. arXiv preprint arXiv:2310.00841, 2023.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档