首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Anal. Chem. | 迁移与强化学习优化的分子生成用于质谱注释

Anal. Chem. | 迁移与强化学习优化的分子生成用于质谱注释

作者头像
DrugAI
发布2026-01-06 12:49:46
发布2026-01-06 12:49:46
760
举报
文章被收录于专栏:DrugAIDrugAI

DRUGONE

尽管质谱参考库和注释工具规模不断扩大,但将分子结构分配给串联质谱的成功率仍然较低。由于并非所有化学产物都已被发现或收录于数据库,生成式人工智能被认为是填补这一空白的关键。研究人员提出了一种新方法——优化分子生成(OMG),专门用于质谱注释的全新分子生成。OMG 包含两个步骤:分子生成和候选排序。首先利用迁移学习在目标分子式相关的分子集合上对先验分子生成模型进行微调,然后通过强化学习结合定制的课程学习策略,引导模型生成符合查询谱图的候选分子。最后利用排序模型(JESTR 和 ESP)对生成结果进行评估。实验表明,OMG 在 CANOPUS 和 MassSpecGym 数据集上的表现优于当前基线,凸显了迁移学习与强化学习在质谱注释中的潜力。

非靶向代谢组学结合质谱技术,为表征生物系统的化学景观提供了强有力的工具,推动了表型学、疾病研究和生物标志物发现。然而,大多数质谱数据仍未得到注释。传统注释依赖于数据库匹配,但受限于数据库覆盖率,仍有大量未知分子未被收录。

  • 一些方法通过模拟碎裂谱(如 CFM-ID、ESP 等)对候选分子进行比对。
  • 另一些方法(如 SIRIUS、MIST)通过将谱图翻译为指纹,与候选分子进行匹配。
  • JESTR 等模型通过联合嵌入空间实现谱图与分子的排序。

然而,这些方法都依赖于检索候选分子,而数据库覆盖不足的问题仍然突出。**全新分子生成(de novo generation)**能直接在化学空间中推断分子结构,为未知分子的发现提供可能。现有部分工作(如 MassGenie、MS2Mol、DiffMS 等)采用生成模型进行分子生成,但准确率有限且可复现性不足。研究人员提出利用迁移学习与强化学习结合的思路,提升质谱注释中的全新分子生成效率。

结果

数据集与候选集特征

  • 使用 CANOPUS(小而精细的数据集)和 MassSpecGym(大规模基准数据集)进行评估。
  • 迁移学习候选集来自 PubChem 或 MassSpecGym 提供的参考集合。
  • 分析发现:候选集规模过大会降低生成的特异性,而较小且与目标分子更相似的候选集有助于提高生成准确率。

分子生成结果

  • OMG 在 CANOPUS 数据集上生成的分子中,13.94% 包含真实分子结构;在 MassSpecGym 上为 7.06%。
  • 对于成功生成的分子,OMG 的候选集合具有较高的新颖性和内部多样性,避免了过拟合问题。
  • 尽管部分查询因超参数和词表限制未能生成候选,但这一机制起到“高精度过滤”的作用,避免了假阳性。

排序结果

  • 在 CANOPUS 数据集上,OMG 结合 JESTR 排序的 Top-1 准确率为 10.51%,优于 DiffMS 和 MADGEN;Top-10 表现亦具优势。
  • 在 MassSpecGym 上,OMG 结合 ESP 排序的 Top-1 准确率为 2.42%,优于其他方法。
  • 当仅考虑成功生成的子集时,OMG 的候选分子与目标分子在结构相似度上显著提升。

消融实验

  • 迁移学习对性能提升最显著(准确率提高约 4.42%)。
  • 单独使用课程学习效果有限,需结合迁移学习才能显著提升准确率(最高达 10.51%)。
  • 实验证明,较小且高相似度的候选集能更好地支持迁移学习与生成性能。

讨论

OMG 将全新分子生成与候选排序解耦,充分发挥了迁移学习与强化学习的优势,能在已知分子式的条件下有效提升质谱注释表现。

优势:

  • 提高了生成准确率与候选多样性;
  • 避免依赖成对训练数据,适用于新分子的注释;
  • 灵活引入不同排序模型,提高扩展性。

局限:

  • REINVENT4 的 SMILES 词表不完整,导致部分分子无法生成;
  • 超参数未针对每个查询单独优化,影响生成率;
  • 模型运行时间较长(平均每分子约 13.7 分钟)。

未来方向包括:

  • 结合谱图信息直接引导生成;
  • 开发自动化超参数优化方法;
  • 扩展生成器词表并重新训练;
  • 探索更小且相关性更强的候选集设计策略。

总结

研究人员提出的 OMG 框架首次将迁移学习与课程学习引入质谱注释的分子生成任务。通过优化生成与排序流程,OMG 显著提升了分子注释的准确率和新颖性。该方法为代谢组学研究中的未知分子识别提供了有效工具,并为生成式 AI 在化学与生物领域的应用拓展提供了新思路。

整理 | DrugOne团队

参考资料

Martin, Margaret R., and Soha Hassoun. "Optimized De Novo Molecular Generation (OMG) for Mass Spectra Annotation Using Transfer and Reinforcement Learning." Analytical Chemistry (2025).

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档