
DRUGONE
尽管质谱参考库和注释工具规模不断扩大,但将分子结构分配给串联质谱的成功率仍然较低。由于并非所有化学产物都已被发现或收录于数据库,生成式人工智能被认为是填补这一空白的关键。研究人员提出了一种新方法——优化分子生成(OMG),专门用于质谱注释的全新分子生成。OMG 包含两个步骤:分子生成和候选排序。首先利用迁移学习在目标分子式相关的分子集合上对先验分子生成模型进行微调,然后通过强化学习结合定制的课程学习策略,引导模型生成符合查询谱图的候选分子。最后利用排序模型(JESTR 和 ESP)对生成结果进行评估。实验表明,OMG 在 CANOPUS 和 MassSpecGym 数据集上的表现优于当前基线,凸显了迁移学习与强化学习在质谱注释中的潜力。

非靶向代谢组学结合质谱技术,为表征生物系统的化学景观提供了强有力的工具,推动了表型学、疾病研究和生物标志物发现。然而,大多数质谱数据仍未得到注释。传统注释依赖于数据库匹配,但受限于数据库覆盖率,仍有大量未知分子未被收录。
然而,这些方法都依赖于检索候选分子,而数据库覆盖不足的问题仍然突出。**全新分子生成(de novo generation)**能直接在化学空间中推断分子结构,为未知分子的发现提供可能。现有部分工作(如 MassGenie、MS2Mol、DiffMS 等)采用生成模型进行分子生成,但准确率有限且可复现性不足。研究人员提出利用迁移学习与强化学习结合的思路,提升质谱注释中的全新分子生成效率。

结果
数据集与候选集特征

分子生成结果

排序结果

消融实验

讨论
OMG 将全新分子生成与候选排序解耦,充分发挥了迁移学习与强化学习的优势,能在已知分子式的条件下有效提升质谱注释表现。
优势:
局限:
未来方向包括:
总结
研究人员提出的 OMG 框架首次将迁移学习与课程学习引入质谱注释的分子生成任务。通过优化生成与排序流程,OMG 显著提升了分子注释的准确率和新颖性。该方法为代谢组学研究中的未知分子识别提供了有效工具,并为生成式 AI 在化学与生物领域的应用拓展提供了新思路。
整理 | DrugOne团队
参考资料
Martin, Margaret R., and Soha Hassoun. "Optimized De Novo Molecular Generation (OMG) for Mass Spectra Annotation Using Transfer and Reinforcement Learning." Analytical Chemistry (2025).
内容为【DrugOne】公众号原创|转载请注明来源