首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Commun. | 超快速的EI-MS数据库匹配算法用于百万级化合物的鉴定

Nat. Commun. | 超快速的EI-MS数据库匹配算法用于百万级化合物的鉴定

作者头像
DrugOne
发布2023-09-19 14:31:19
发布2023-09-19 14:31:19
7090
举报
文章被收录于专栏:DrugOneDrugOne

谱匹配是质谱法中最常用的化合物鉴定方法。然而,谱库的覆盖范围、谱匹配精度以及匹配速度等方面的问题限制了化合物鉴定的效率。那么,有无可能在扩大谱库覆盖范围的情况下,同时保证搜库速度与谱匹配准确度呢?近日,中南大学的卢红梅团队建立了百万规模的计算EI-MS库。在此基础上,提出了一种超快速准确的质谱匹配方法(FastEI)。

质谱分析(MS)是一种方便、高灵敏度和可靠的复杂混合物分析方法,在生命科学领域如代谢组学和蛋白质组学以及有机合成化学中至关重要。然而,由于现有谱库的覆盖范围有限,MS实验中的绝大多数化合物无法被识别。生成计算质谱可以快速从分子结构中生成大规模的计算质谱,从而扩展了化学空间覆盖范围。对于大规模的谱库,另一个挑战是如何在保证化合物鉴定准确性的同时,保证谱匹配速度。

中南大学卢红梅团队开发的超快速准确的质谱匹配方法(FastEI)很好的解决了上述问题。首先,在FastEI中加入百万规模的质谱库,以改进基于EI-MS的化合物鉴定; 其次,FastEI的高精度依赖于Word2vec谱嵌入。采用Word2vec模型从质谱中学习得到跟分子结构信息相关的有意义的表示,d维嵌入。第三,FastEI的超快匹配速度依赖于基于Hierarchical Navigable Small-world Graph (HNSW)的近邻搜索方法。最后,FastEI被打包成一个独立的、用户友好的软件,供没有编程背景的用户使用。用户只需在FastEI中加载未知物的测量的质谱,就可以快速准确地鉴定未知化合物。

图1. Word2vec和HNSW。

FastEI的准确性和速度与加权余弦相似度(WCS)在测试集上进行了比较(如图2所示)。测试集的测量光谱来自NIST 2017主库。FastEI和WCS的比较结果显示在下表中。我们可以发现,FastEI每个查询质谱的运行时间为0.0042秒,而WCS每个查询光谱的运行时间为2.4849秒。当匹配一个光谱时,FastEI比WCS快约592倍。

图2. FastEI与加权余弦相似度方法的性能比较。

为了展示百万级模拟库和FastEI的准确性优势,我们从有机实验室中收集了10个不属于NIST 2017库的化合物。它们的结构如图3所示。化合物1、2、4和5是具有苯环上不同取代基的常见芳香化合物。如果直接通过与NIST 2017库进行匹配来对这10个分子进行识别,将无法获得正确的结果。借助大规模的模拟库,这些化合物可以在很大程度上通过FastEI进行识别。它们的排名显示在图3中。可以看到,它们的Top 1准确率为50%,Top 10准确率可达到70%。

图3. FastEI在NIST 2017之外化合物上的性能。

参考资料

Yang, Q., Ji, H., Xu, Z. et al. Ultra-fast and accurate electron ionization mass spectrum matching for compound identification with million-scale in-silico library. Nat Commun 14, 3722 (2023).

https://doi.org/10.1038/s41467-023-39279-7

代码

https://github.com/Qiong-Yang/FastEI/releases/tag/v1.0.2-beta

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-07 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档