小分子的鉴定是生命科学各个领域的一项关键任务。质谱技术的最新进展使得能够从数十万个环境中收集小分子的串联质谱。为了识别样品中存在哪些分子,可以根据小分子数据库中的数百万个分子结构搜索从样品中收集的质谱。现有的方法是基于化学领域的知识,它们无法解释小分子质谱中的许多峰。研究人员提出了 molDiscovery,是一种质谱数据库搜索方法,通过学习概率模型来将小分子与其质谱相匹配,从而提高小分子识别的效率和准确性。
据该团队称,这一发展可以节省寻找可用于医学的新天然产品的时间和金钱。
研究人员Hosein Mohimani 助理教授说:“科学家们浪费了大量时间来分离已知的分子,基本上是重新发现青霉素。” “尽早检测分子是否已知可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能导致新药开发的新型天然产品。”
Mohimani 解释说,例如,科学家在海洋或土壤样本中检测到一种有望作为潜在药物的分子后,可能需要一年或更长时间才能识别该分子,但不能保证该物质是新的。MolDiscovery 使用质谱测量和预测性机器学习模型来快速准确地识别分子。
质谱测量是分子的指纹,但没有数据库可以匹配它们。尽管已经发现了数十万种天然分子,但科学家们无法获得他们的质谱数据。MolDiscovery 从质谱数据中预测分子的身份,而无需依赖质谱数据库进行匹配。
该团队希望 MolDiscovery 将成为实验室发现新型天然产物的有用工具。
参考资料
Cao, L., Guler, M., Tagirdzhanov, A. et al. MolDiscovery: learning mass spectrometry fragmentation of small molecules. Nat Commun 12, 3718 (2021).
https://doi.org/10.1038/s41467-021-23986-0
代码
https://github.com/mohimanilab/molDiscovery