前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Nat. Mach. Intell. | 大语言模型在分子科学中知识学习偏好的定量分析

Nat. Mach. Intell. | 大语言模型在分子科学中知识学习偏好的定量分析

作者头像
DrugAI
发布2025-03-03 21:10:12
发布2025-03-03 21:10:12
240
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自深圳鹏城实验室任智祥团队的一篇论文。深度学习技术在分子研究领域取得了重大突破,让我们能够更快更好地理解分子结构并设计新型分子。其中,大语言模型的出现开创了一个新天地,它让我们可以用处理人类语言的方式来解决分子科学问题。这些模型在理解和创造分子方面表现出色,往往比传统方法更有效。不过,研究人员发现两个关键问题亟待解决:一是如何准确评估模型对不同类型数据的处理能力,二是如何找出模型在学习过程中的特点和偏好。为此,研究团队开发了一个名为ChEBI-20-MM的综合测试系统,并通过1263次实验来深入研究这些问题。研究不仅揭示了不同数据类型之间的转化规律,还创新性地提出了一种新方法,能够清晰地展示模型是如何在特定场景下学习和运用知识的。这项研究为我们理解大语言模型的工作机制提供了新的视角,也为推动其在分子科学领域的应用铺平了道路。

这项研究深入探讨了分子科学领域的重要进展。图1a展示了六个关键分子任务,分为三大类目标:首先是“描述类”任务,主要包括两个方面:一是用通俗易懂的语言描述复杂的分子结构,二是识别和理解专业的IUPAC分子命名。这就像是在为分子创建“身份证”,确保在不同场合都能准确识别它们;其次是“分析类”任务,主要研究分子的特性并预测它们在不同条件下的表现。这对于新药研发和材料设计至关重要;最后是“生成类”任务,包括创造新分子结构和将纸质文献中的分子信息数字化,这为科研工作提供了新的可能性。图1b展示了评估框架,其包括六个基本任务和相应的模态。

图 1

为了全面评估这些任务的完成效果,研究团队建立了一个名为ChEBI-20-MM的测试平台,收集了近33,000个分子样本。这些分子可以用多种方式表示:既可以用专业的分子描述符(如SMILES、InChI等计算机可识别的代码),也可以用二维图形来展示。研究团队通过1,263次实验,系统地评估了不同表示方法之间的转换效率,为提高分子研究的准确性和效率提供了重要参考。

实验结果

图 2

图2a展示了模态转换概率矩阵,反映了不同数据模态对各类任务的适用性。图2b和图2c分别展示了在9个文本转换任务和嵌入任务中,不同编码器和解码器的使用频率。研究发现,

在分子表示方法方面:

  • 标准化的IUPAC命名系统最适合用来生成新分子结构和描述分子特征;
  • SMILES(一种简化的分子表示方法)在识别分子的标准名称时效果最好;
  • 在分子特性预测任务中,graph模态出现40次,SMILES出现25次,表明graph模态具有明显优势。

模型选择方面:

  • T5系列模型展现出全面的优势,能够很好地处理各类分子相关任务;
  • 不过在分子特征提取方面,除非使用规模较大的T5模型,否则专门的图神经网络表现更好;
  • 在数据处理策略上,平均池化方法往往能取得更好的效果。

关于模型知识-学习偏好的案例研究

研究团队通过深入分析,揭示了AI模型是如何学习和理解化学知识的。图3展示了这一研究的核心发现:

图 3

图3a呈现了一个特殊的对应关系表(称为token映射矩阵),展示了模型如何将不同的化学表达方式联系起来。例如,当看到“oxy”(氧基)和“methyl”(甲基)这样的常见化学基团时,模型能够准确理解它们的含义。为了找出最重要的知识对应关系,研究团队设置了严格的筛选标准,最终在两种重要的转换过程中发现了关键联系:

  • 在IUPAC标准命名到分子描述的转换中发现了7组重要对应关系
  • 在SELFIES编码到分子描述的转换中找到了5组关键联系

图3b通过具体实例展示了这些对应关系如何工作。比如,当模型看到IUPAC名称中的“min”时,会自动联想到氨基(amino)结构;当看到SELFIES编码中的“[N]”符号时,能够识别出这代表氮原子。这些发现表明,AI模型不是简单地进行字符匹配,而是真正理解了分子结构的规律。

讨论

多模态的影响研究中,研究团队对于分子特性分类和分子描述任务使用了SMILES、SELFIES和图网络处理的图形表示。在嵌入层的四种融合技术中,只有加权加法混合能够始终超越基准模型。对比学习策略也很有效,它既适用于处理图形数据,也适用于处理文本数据。然而,交叉注意力策略在单模态设置中会降低性能,但在模态融合中能改善结果。特别是在生成分子描述文字的任务中,对比学习和交叉注意力都发挥了重要作用。

随后,研究团队讨论了模型的知识学习偏好和科学洞察力。研究选择了置信度超过99%的知识模式,通过降低阈值T可以发现更多新颖见解。研究表明,随着模型复杂度增加和训练数据的扩充,系统探索和阐明科学现象的能力也在提升。这不仅提高了模型预测的深度和准确性,还能探索分子行为的未知方面。

最后,研究团队从三个维度进行了分析:文本长度分布反映了分子描述的复杂程度,分子骨架的多样性展示了模型对不同化学结构的理解能力,分子特征统计则体现了化学空间的复杂性。该研究强调评估标准需要保持公正,避免偏向特定的分子表示方式,同时要确保模型能准确理解和处理各类分子信息。未来研究将着重于更好地融合不同类型的分子数据,并结合生物化学和药物学知识开发更专业的评估方法,这对于提升AI在化学研究中的应用具有重要意义。

编译|于洲

审稿|王梓旭

参考资料

Liu P, Tao J, Ren Z. A quantitative analysis of knowledge-learning preferences in large language models in molecular science[J]. Nature Machine Intelligence, 2025: 1-13.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档