Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICML 2024 | 冷静看待大型语言模型在材料发现中的作用

ICML 2024 | 冷静看待大型语言模型在材料发现中的作用

作者头像
DrugAI
发布于 2024-07-16 07:02:03
发布于 2024-07-16 07:02:03
1780
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

今天为大家介绍的是来自Geoff Pleiss团队的一篇论文。自动化是当代材料发现的基石之一。贝叶斯优化(BO)是这种工作流程中的重要部分,使科学家能够利用先验领域知识高效地探索庞大的分子空间。尽管这些先验知识可以采取多种形式,但围绕大型语言模型(LLM)所包含的辅助科学知识有着显著的关注。然而,现有的工作迄今为止仅探讨了LLM在启发式材料搜索中的应用。实际上,最近的研究从点估计的非贝叶斯LLM中获得了不确定性估计,这是BO的核心部分。在本研究中,作者探讨了LLM是否真的有助于加速分子空间中基于原则的贝叶斯优化。作者采取冷静而客观的态度回答这一问题。具体来说,通过(i)将LLM视为标准但基于原则的BO代理模型的固定特征提取器,以及(ii)利用参数高效的微调方法和贝叶斯神经网络来获得LLM代理模型的后验分布。作者通过真实化学问题的广泛实验表明,LLM在分子BO中是有用的,但前提是它们经过了领域特定数据的预训练或微调。

材料发现是一个本质上繁琐且迭代的过程,包括设计材料候选物、进行实验准备、测试其性质,最终更新最初的设计假设。虽然在过去的一个世纪中人类研究人员主要推动了这一过程,但面对与医疗、营养或清洁能源相关的紧迫社会挑战,迫切需要更高效的自动化方法。与发现过程相关的主要挑战包括材料结构与其性质之间复杂且如同黑箱的映射关系,以及设计空间的广阔性。为了解决上述问题,贝叶斯优化(BO)在化学领域的应用越来越广泛。成功的BO的关键组成部分包括其先验知识(信息性先验意味着在有限数据下高效的后验推断)和其概率代理模型(例如,通过高斯过程或贝叶斯神经网络)。

然而,为构建准确的不确定性估计所需的良好先验很难通过分析方式定义。因此,通常使用通过预训练特征提取器获得的隐式先验。最近,大型语言模型(LLM)在许多传统上与自然语言处理相对独立的领域中变得非常流行,例如生物学、教育、法律和化学。另一方面,最近的研究警告说,LLM不一定真正理解事物,而只是作为非常昂贵的“随机鹦鹉”(图1)。

图1

尽管如此,由于LLM的明显能力,一些最近的研究利用现成的LLM,如GPT-4,用于分子贝叶斯优化和超参数调整。然而,它们的不确定性估计仅通过启发式方法获得,例如从生成答案令牌的softmax概率中得到,这些都是来自点估计的非贝叶斯LLM。因此,这些非贝叶斯不确定性可能并不适合对BO至关重要的探索与利用权衡。

实验设置

算法1

分子贝叶斯优化的伪代码如算法1所示。作者在以下数据集上评估所考虑的模型,这些数据集代表了分子材料发现中的现实问题集:(i) 最小化可能的液流电池电解质的氧化还原电位 (redoxmer) 和 (ii) 溶解能 (solvation),(iii) 最小化用于药物发现的激酶抑制剂的对接评分,(iv) 最大化激光的荧光振荡强度,(v) 最大化光伏材料的功率转换效率 (PCE),以及 (vi) 最大化有机光开关的π-π*跃迁波长。对于上述每个虚拟分子库,原作者进行了基于物理的模拟,本文作者在此将其作为真实值 f(x)。请注意,这些问题集涵盖了一系列不同的分子物理特性,因此代表了一组多样化的分子设计任务。

作者使用以下标准的非LLM、化学特定的基线模型:1024位摩根指纹作为化学特定(非学习)算法向量化方案,以及预训练的MolFormer transformer的特征向量。同时,对于通用LLM,作者使用了各种近期不同大小的架构:T5-Base,GPT2-Medium,以及LLAMA-2-7B。最后,作者使用Christofidellis等的工作来代表领域特定的LLM。

对于基于文本的代理模型,作者另外考虑了几种提示函数 c(x),将分子 x映射为一句话。它们包括:(i) just-smiles,仅包含 x 的SMILES表示,(ii) completion,将预测的 f(x)作为句子的补充部分,(iii) naive,直接询问LLM关于 f(x)的值,以及 (iv) single-number,在naive的基础上增加一个额外的指令,要求LLM仅输出数字。除非明确指定,否则作者默认使用的提示是just-smiles。

预训练过的LLM有用到什么程度?

图2

首先,作者研究了LLM在未经微调的情况下进行贝叶斯优化的能力。为此,作者将LLM视为固定特征提取器:给定一个预训练的LLM,移除其语言建模头,并获得函数φW∗,将分子x的文本上下文c(x)映射到其最终的transformer嵌入向量,然后可以应用代理模型g(如高斯过程或贝叶斯神经网络,见图2)。

作者在固定的LLM和非LLM特征上使用了两种常用的代理模型:(i) 对指纹特征和LLM/MolFormer特征分别使用Tanimoto核和Matérn核的高斯过程(GPs)(Griffiths等,2023),以及(ii) 使用每层包含50个隐藏单元的3层ReLU神经网络,并进行拉普拉斯近似。作者在整个过程中使用Thompson采样,因为它是通用的,并且在化学应用中越来越受欢迎。

图 3

作者在图3中展示了第一组结果。首先,作者注意到在指纹特征上,拉普拉斯近似(LA)在大多数问题上都具有竞争力,甚至优于高斯过程(GP)。因此,作者仅将LA作为LLM特征的代理模型。作者注意到,与简单的指纹基线模型相比,通用LLM(T5、GPT2-M和LLAMA-2-7B)获得的特征表现较差。这表明,尽管通用LLM似乎如图1所示“理解”化学,但这些LLM编码的特征对于化学专注的贝叶斯优化来说信息量较少。需要注意的是,尽管在作者的特定问题设置中得出这一结论,但LLM似乎对更一般的问题是有用的。

同时,化学专用的transformer特征(T5Chem,MolFormer)通常比通用的特征更适合。实际上,T5-Chem特征在大多数问题中提供了最佳性能。值得注意的是,T5-Chem在大多数情况下也优于非LLM的化学专用transformer MolFormer。T5-Chem模型比MolFormer更大(220M参数对44M参数),然而,MolFormer使用更多的数据进行训练(100M对33M)。因此,似乎自然语言专注的T5-Chem在贝叶斯优化方面提供了比MolFormer中非自然语言transformer更好的归纳偏置。作者得出了一个结论:领域特定的LLM在分子贝叶斯优化中作为特征提取器非常有用。它们通常优于通用LLM和化学专用的传统指纹特征。

图 4

除了单目标问题外,作者还进行了多目标贝叶斯优化实验,包括:(i) 在上述液流电池问题中结合两个目标,(ii) 在激光问题中增加一个额外的最大化目标(电子间隙)。作者分别将这些问题称为multi-redox和multi-laser。为了适应额外的目标,作者将这些问题转换为多输出回归问题——对于每个x,g(x)的后验分布因此为多变量高斯分布,结果如图4所示。作者发现,基于化学专用transformer的模型(MolFormer,T5-Chem)优于通用模型(T5)。此外,T5-Chem的表现略优于MolFormer:在multi-laser问题上表现更好,而在multi-redox问题上表现相似。因此,作者的结论与单目标实验中的结论一致。

图 5

作者在图5中展示了提示(prompt)如何影响贝叶斯优化性能的结果。提示确实产生了差异:与通用LLM(T5,LLAMA-2-7B)不同,化学专用的T5Chem在提示仅为SMILES字符串时效果最好。不过,作者注意到T5-Chem在大多数问题和所有提示下都取得了最佳表现。因此,化学专用的T5-Chem在不需要进行提示工程的情况下,提供了更好的贝叶斯优化性能。作者此处得出的结论是:提示确实会影响贝叶斯优化的性能。最好使用与预训练LLM时所用提示相近的提示。

微调后的LLM有用到什么程度?

图 6

在图6中,作者展示了对T5和T5Chem进行微调的结果,它们分别代表了通用和化学专用的LLM。作者发现微调确实对这两种情况都有好处。注意到,与固定特征版本相比,微调在大多数问题上提高了贝叶斯优化的性能。另一方面,也要注意到,在某些情况下,微调并没有显著改善未微调版本的性能。此外,在一个问题(光伏材料)中,作者发现微调降低了T5-Chem的性能。作者认为这可能是因为他们在所有问题上使用了相同的超参数(如学习率、权重衰减等),这更接近实际操作:人们通常只使用由软件包(如BoTorch, Balandat等,2020)提供的BO算法的默认超参数。无论如何,令人鼓舞的是,微调在大多数BO问题上通常表现良好,即使使用默认超参数。

编译|黄海涛

审稿|曾全晨

参考资料

Kristiadi, A., Strieth-Kalthoff, F., Skreta, M., Poupart, P., Aspuru-Guzik, A., & Pleiss, G. (2024). A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules?. arXiv preprint arXiv:2402.05015.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Comput. Sci. | 大语言模型时代的化学研究新范式
大语言模型(LLMs)为化学研究提供了新的发展机遇,包括研究规划、实验优化、数据分析、自动化执行和知识管理等方面。将LLM部署于活跃的环境中(即能与工具和数据实时交互的场景)将大幅提升其能力。然而,评估其性能仍存在困难,同时也需应对诸如可重复性、数据隐私与偏见等伦理问题。本文系统探讨了LLM在化学研究中的现有与潜在应用,并指出其在研究中扮演“主动科学伙伴”的路径与挑战。
DrugAI
2025/06/28
360
Nat. Comput. Sci. | 大语言模型时代的化学研究新范式
大型语言模型LLM
最近在学习OCI的生成式AI相关方面的内容,对相关内容做一下整理,内容涉及LLM基础、LLM架构、提示(Promot)、微调(fine-tuning)、各种模型、OCI的生成式AI、RAG,及向量数据库等等。争取写出一个系列的内容。
MySQLSE
2024/06/14
1380
大型语言模型LLM
OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了吗?一文总结生物制药必备经典模型(二)
本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
机器之心
2023/08/07
5050
OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了吗?一文总结生物制药必备经典模型(二)
GPT跨界预测癌症药物敏感性?Mayo Clinic团队推出SensitiveCancerGPT框架
在精准医学时代,药物敏感性预测(Drug Sensitivity Prediction, DSP)作为优化癌症治疗方案的关键环节,面临着肿瘤异质性、高维组学数据以及样本稀疏性等挑战。传统机器学习方法在处理这些复杂问题时往往表现有限,而生成式大语言模型(LLMs)如GPT的兴起,为DSP任务提供了全新视角。
实验盒
2025/03/17
1470
GPT跨界预测癌症药物敏感性?Mayo Clinic团队推出SensitiveCancerGPT框架
Nature|利用大型语言模型开展自主化学研究
化学研究以迭代循环为基础,通过设计、执行和改进实验来实现特定目标。研究人员的经验和直觉在最初的设计和随后的优化过程中起着至关重要的作用,而这在以前的化学研究自主系统中是无法复制的。
智药邦
2024/03/05
3010
Nature|利用大型语言模型开展自主化学研究
JCIM|大型语言模型作为分子设计引擎
新型分子和材料的设计是推动科技进步的重要驱动力,特别是在能源存储、合金设计、二维材料以及药物发现等领域。尽管传统生成式模型在分子设计方面取得了一定进展,但生成无效或相关度不高的分子、复杂的训练程序和高昂的计算成本仍是其面临的主要挑战。
智药邦
2024/09/27
1360
JCIM|大型语言模型作为分子设计引擎
利用大型语言模型在药物分子与适应症之间进行翻译
今天为大家介绍的是来自Yanshan Wang团队的一篇论文。药物分子够改变生物体精神或身体状态。每种被批准的药物都有一个适应症,这指的是该药物用于治疗特定医疗条件的治疗用途。尽管大型语言模型(LLM)最近在将分子及其文本描述之间进行翻译方面显示出了有效性,但在利用这些模型帮助实现药物分子与适应症之间,或反之亦然的翻译方面,研究仍存在空白。这种能力对药物发现过程大有裨益,能够根据给定的适应症生成药物,这将允许发现针对特定疾病或靶点的药物,并最终为患者提供更好的治疗方案。
DrugAI
2024/03/20
2790
利用大型语言模型在药物分子与适应症之间进行翻译
Nat. Mach. Intell.|大语言模型助力分子属性预测,驱动科学发现新范式
在药物研发和材料科学领域,分子属性预测(如溶解度、血脑屏障通透性)是决定实验成败的关键。然而,传统方法依赖人工经验或复杂神经网络,存在可解释性差、知识整合困难等问题。
实验盒
2025/02/28
2070
Nat. Mach. Intell.|大语言模型助力分子属性预测,驱动科学发现新范式
学界 | 同济大学综述论文:基于深度生成模型的药物研发
论文:Advances and challenges in deep generative models for de novo molecule generation
机器之心
2018/12/11
8200
学界 | 同济大学综述论文:基于深度生成模型的药物研发
清华大学刘知远团队提出ChatMol模型,基于自然语言进行交互式的分子发现
在大语言模型时代,自然语言将成为人机交互的关键媒介。在生物化学领域,诸如性质预测和分子挖掘等任务至关重要,但在技术上具有挑战性。在自然语言和化学语言中架起分子表达的桥梁可以显著提高这些语言的可解释性和易用性,整合各种来源的化学知识,从而更深入地了解分子。
智药邦
2024/09/18
3040
清华大学刘知远团队提出ChatMol模型,基于自然语言进行交互式的分子发现
AAAI | 深度生成模型—NEVAE
今天给大家介绍的是印度理工学院Niloy Ganguly教授课题组在AAAI2019发表的一篇关于分子生成的论文。作者基于VAE提出一种新的分子图生成模型NEVAE,其编码器和解码器经过特殊设计,通过多种技术创新来解决目前生成模型存在的缺点。实验表明,与几种最新模型相比,NEVAE可以更有效地发现合理的、多样的和新颖的分子。比起基于贝叶斯优化和强化学习的几种最新方法,该优化解码器能够识别出高121%属性值的分子。
DrugAI
2021/02/02
9030
AAAI | 深度生成模型—NEVAE
多任务深度学习预测化学反应
今天给大家介绍纽约大学Lu等人在2022年发表的一篇名为“Unified Deep Learning Model for Multitask Reaction Predictions with Explanation”的文章[1]。有机化学是现代多个学科领域的基石,深刻改变着我们生活的方方面面,因此近代以来科研工作者一直致力于探索开发鲁棒性更好的机器学习模型来辅助有机化学合成。
DrugAI
2023/02/13
1.4K0
多任务深度学习预测化学反应
基于自然语言进行交互式分子探索
今天为大家介绍的是来自Guotong Xie和 Zhiyuan Liu团队的一篇关于分子探索论文。在大型语言模型时代,自然语言被期望成为各种人机交互的关键媒介。在生物化学领域,围绕分子的一系列任务具有重要意义,同时也具有较高的技术门槛。将自然语言中的分子表达与化学语言相结合,不仅可以极大提高这些任务的可解释性和操作难度,还可以整合散落在各种辅助材料中的化学知识,以深入理解分子。基于这些好处,作者提出了对话式分子设计,这是一项采用自然语言描述和编辑目标分子的新任务。为了更好地完成这项任务,作者设计了ChatMol,一个生成式预训练模型,通过注入实验性质信息、分子空间知识以及自然语言与化学语言之间的关联来增强模型。
DrugAI
2023/09/19
2990
基于自然语言进行交互式分子探索
Chem. Sci. | SynAsk:首个可公开访问的特定化学领域大语言模型
今天为大家介绍的是来自广州国家实验室廖矿标课题组的一篇论文。自然语言处理(NLP)领域随着大语言模型(LLMs)的出现经历了一场变革性的转变,在各种语言任务和应用中掀起了一场革命。将LLMs整合到特定领域可增强其在特定领域的应用能力。值得注意的是,NLP在有机化学领域取得了重大进展,尤其是在预测合成任务方面,为专门针对有机化学领域开发LLMs铺平了道路。本研究介绍了SynAsk,这是一个由AIChemEco公司开发的综合性有机化学特定领域LLM平台。通过使用特定领域数据对LLM进行微调,并将其与思维链方法相结合,SynAsk可以无缝访问我们的知识库和高级化学工具,以问答格式实现功能。这种新颖的方法将微调技术与外部资源整合相结合,形成了一个专门针对有机化学的模型,有助于推动该领域的研究和发现。SynAsk可在https://synask.aichemeco.com上访问,代表了在利用自然语言处理进行合成应用方面的重大进步。
DrugAI
2025/01/02
4800
Chem. Sci. | SynAsk:首个可公开访问的特定化学领域大语言模型
CHEM SCI|在不对称催化中,用AI优化溶剂的选择
今天给大家介绍的是Chemical Science上有关溶剂优化的文章 "Machine learning and molecular descriptors enable rational solvent selection in asymmetric catalysis"。
智药邦
2021/09/27
8710
CHEM SCI|在不对称催化中,用AI优化溶剂的选择
耶鲁大学提出分子语言模型MolLM,结合生物医学文本与分子的二维和三维表示
目前用于分子和文本联合表示的深度学习模型主要依赖于一维或二维分子格式,而忽略了提供有价值的物理见解的重要三维结构信息,因此限制了模型在广泛的模态范围内的多功能性和适应性。相反,专注于明确的三维表示的有限研究往往忽略了生物医学领域内的文本数据。因此,将二维和三维分子信息以及生物医学文本相结合的分子表示学习模型仍十分缺乏。
智药邦
2024/08/07
2280
耶鲁大学提出分子语言模型MolLM,结合生物医学文本与分子的二维和三维表示
前沿 | GAN用于材料设计:哈佛大学新研究登上Science
论文:Inverse molecular design using machine learning: Generative models for matter engineering
机器之心
2018/08/21
1.1K0
前沿 | GAN用于材料设计:哈佛大学新研究登上Science
迈向语言模型中的分子关系建模
今天为大家介绍的是来自Xiang Wang团队的一篇论文。分子关系学习(MRL),旨在理解分子对之间的相互作用,对推进生化研究发挥着关键作用。近期,采用大型语言模型(LLMs)作为一种高效有效的MRL方法显得尤为有前途,这些模型以其庞大的知识库和高级的逻辑推理能力而闻名。尽管这些方法充满潜力,但它们主要依赖于文本数据,因此并未完全利用分子图中固有的丰富结构信息。此外,缺乏统一框架加剧了数据利用不足的问题,因为它阻碍了在不同数据集之间学到的相互作用机制的共享。为了应对这些挑战,作者提出了一种基于LLM的多模态框架,用于分子交互建模,遵循思维链(CoT)理论,称为MolTC,该框架有效地整合了成对两分子的图信息。为了实现统一的训练范式,MolTC创新性地开发了一种动态参数共享策略,用于跨数据集信息交换。
DrugAI
2024/03/26
2370
迈向语言模型中的分子关系建模
在线高斯自适应革新 OTTA 视觉语言模型 !
视觉-语言对齐已成为一种强大的范式,可用于预训练模型,这些模型能够处理各种下游任务,且在少量或没有 Token 数据的情况下也能胜任。如CLIP[19]这样的对比方法通过联合优化视觉编码器和文本编码器来学习可迁移的视觉表示,从而对配对图像和标题的表示进行对齐。这使创建图像分类器成为可能,而无需重新训练模型,只需使用类别的文本描述。随后,分类过程仅仅依赖于测量文本特征与图像特征之间的相似度,从而实现零样本预测。这已经在广泛认可的监督学习基准,如ImageNet[3]上展示了令人印象深刻的零样本性能。这一成功激励了对适应视觉-语言模型(VLMs)以处理未见任务的方法的研究,从而绕过了重新训练模型的需求,无论是通过 Prompt 优化[20, 32]、低秩适应[26]还是在嵌入空间中的 Adapter 。这些后一种方法特别引人关注,因为它们不需要访问模型权重——被称为黑盒方法——这使得它们适用于基于API的应用。
AIGC 先锋科技
2025/02/10
1540
在线高斯自适应革新 OTTA 视觉语言模型  !
Nat Mach Intel|MolFormer:大规模化学语言模型表征分子结构与性质
2022年12月21日,IBM的Jerret Ross等人在Nature Machine Intelligence上发表文章Large-scale chemical language representations capture molecular structure and properties。作者提出了MolFormer:一个基于Transformer的大规模化学语言模型表征分子结构与性质。
智药邦
2023/02/15
2.4K0
Nat Mach Intel|MolFormer:大规模化学语言模型表征分子结构与性质
推荐阅读
相关推荐
Nat. Comput. Sci. | 大语言模型时代的化学研究新范式
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档