前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JCIM|大型语言模型作为分子设计引擎

JCIM|大型语言模型作为分子设计引擎

作者头像
智药邦
发布2024-09-27 16:19:27
410
发布2024-09-27 16:19:27
举报
文章被收录于专栏:智药邦

新型分子和材料的设计是推动科技进步的重要驱动力,特别是在能源存储、合金设计、二维材料以及药物发现等领域。尽管传统生成式模型在分子设计方面取得了一定进展,但生成无效或相关度不高的分子、复杂的训练程序和高昂的计算成本仍是其面临的主要挑战。

随着人工智能技术的快速发展,基于转换器的生成模型为分子设计带来了新的解决方案。LLMs,这类在大规模自然语言文本数据上预训练的大模型,因其能够理解和生成自然语言指令的特性,被逐步应用于化学和材料科学领域。

2024年9月24日,来自宾夕法尼亚州立大学和密歇根州立大学的研究人员在Journal of Chemical Information and Modeling上发表文章Large Language Models as Molecular Design Engine。

本文探讨了预训练大语言模型(LLMs)在分子设计中的应用,特别是Claude 3 Opus LLM模型。实验结果表明,该模型能够根据自然语言提示,高效生成和修饰分子,生成的有效且独特分子比例高达97%。本文通过量化低维潜在空间中的分子修饰,深入分析了LLMs在不同提示条件下的行为,进一步验证了LLMs作为分子设计工具的巨大潜力。

数据集与表征学习

本研究选取了ZINC数据库中的约130万个小分子作为数据集,这些分子具有特定的化学特性,如含氮以及至少一个氢键供体或受体,且分子量低于200道尔顿。为了表征这些分子,作者采用了摩根指纹策略,生成了每个分子的1024维向量表示,并进行了主成分分析(PCA)以生成三维潜在嵌入,便于在低维空间中可视化分子。

通过K-means聚类方法,作者从PCA嵌入中选取了64个具有代表性的母分子作为评估LLM性能的基准。这些母分子的SMILES(简化分子输入行输入系统)字符串被用于生成其变体,并通过RDKit化学信息学工具包验证生成分子的有效性及唯一性。

图1(a)表示使用Claude API进行分子改性过程的母体SMILES生成过程。(b) 代表了Claude API的工作流程,以及如何获得(由RDKit)唯一验证的SMILES。

LLM交互与提示设计

作者采用了Anthropic的Claude 3 Opus模型,一种先进的LLM,通过其Python SDK与模型进行交互。作者设定了多种提示以引导LLM生成不同类型的分子变体,包括生成相似或完全不同的分子、加入特定化学基团以改变电子结构等。每种提示均被设计为简洁明了的自然语言指令,以便LLM能够准确理解并执行。

表1:用于描述如何执行分子改造任务的详细子项目

在交互过程中,作者设定模型温度为0以确保输出结果的确定性,并设置最大词块参数为1024以限制输出长度。LLM根据接收到的提示生成相应的分子SMILES字符串,并通过API传回请求端进行后处理和分析。

评估指标与方法

为了全面评估LLM在分子设计任务中的表现,作者采用了多种量化指标,包括谷本相似度、有效率以及化学多样性。

谷本相似度:用于量化母分子与生成分子之间的结构相似度,通过计算它们的摩根指纹之间的Tanimoto相似度得出。

有效率:定义为生成的有效且独特分子数量与总生成分子数量的比值,用于评估LLM生成有效分子的能力。

化学多样性:量化生成分子之间的异质性,通过计算生成分子指纹之间的平均Tanimoto相似度的倒数得出。

结果与讨论

代表性实例分析

根据不同提示指令,所有提示都能生成合理子分子集。A到D提示生成的子分子保留母体形状,E到H提示生成的子分子在官能团和框架上与母体不同但大小合理。图2显示了D提示生成的分子示例,均为有效分子。

图2 由子提示D生成的分子的一个代表示例

为了方便研究人员查看和分析输入分子以及为每个提示生成的输出分子,作者开发了一个基于Python的查看器。这个查看器已经包含在Zenodo软件库中,可供研究人员免费使用和下载。

分子指纹潜空间

为量化LLM修饰分子的行为,作者利用摩根指纹生成分子的潜空间嵌入,并用三维坐标z描述分子特征。图3展示了潜空间中的代表分子。一般而言,潜维度1关联环的共轭性,潜维度2关联环的普遍性,潜维度3则主要与酮类及基团数量相关。

图3 用基于计数的Morgan指纹对ZINC数据库中的小分子进行特征化并用PCA嵌入得到的潜在空间。

基本提示性能

为了评估不同提示对分子生成的影响,作者采用了Tanimoto相似度、有效性比率和化学多样性等关键指标。

研究结果显示,精细提示通常比粗提示产生更高的Tanimoto相似度,这表明它们生成的分子在结构上与母体分子更为相似。然而,这些变化的程度因每个提示中描述的具体修饰机制而异,凸显了提示工程在引导LLM行为方面的重要性。在有效性比率方面,大多数提示的有效率中位数保持在0.9以上,表明这种方法能够持续生成有效且独特的分子结构。与生成式模型相比,基于LLM的方法在生成有效分子方面表现出色。

此外,作者还发现精细提示的有效率较低,因为它们只要求模型通过局部的微小变化来产生相似的分子,而粗提示则要求模型提出完全不同的分子。尽管LLM在生成分子结构方面非常稳健可靠,但偶尔无法生成有效和独特的分子,这可能与SMILES表示法的离散性和LLM的幻觉现象有关。在化学多样性方面,粗提示一般比细提示产生更高的多样性,这与分子发生更大变化的结果相吻合。

图4 在相同的64个母分子上执行分子修饰任务时,对表1中每个子提示的评估指标

为了全面评估基于LLM的修饰方案的效率,作者还评估了其他性能指标,如API调用的持续时间。结果显示,响应时间的中位数为10.4秒,平均值为11.5秒,表明响应时间较长。总体而言,这项研究展示了提示工程在引导LLM进行分子生成方面的潜力,并为未来材料设计提供了有用的工具和方法。

评估偏差

在本文中,作者通过分析潜空间Z中父分子与子分子的平均位移,即偏差,来评估不同子提示对分子修饰的影响。理想情况下,这些位移应随机分布,表现为长度接近零的箭头。对比精细提示与粗略提示,作者发现精细提示导致更精细的分子变化,而粗略提示产生更显著的修饰。特别地,某些粗略提示如F和G倾向于生成潜空间特定区域的分子,而E则表现出较少的偏差。

图5 表1中每个子提示的所有10个子分子的平均位移(z)

进一步分析分子起源和轨迹,作者观察到从链状到环状的转变,这反映了模型在化学空间中的探索行为。精细提示和部分粗提示中,代表母体分子方向变化的箭头常相互抵消,表明模型能灵活调整分子结构以适应不同要求。

了解这些方向性变化有助于深入理解模型如何解释和响应提示,对分子设计和优化具有重要意义。未来研究需进一步探索设计空间、提示工程作用及模型在化学空间中导航的机制,以充分发挥大型语言模型在分子设计方面的潜力。通过量化潜空间中的方向性移动,作者证明了提示工程在利用LLM进行分子设计和发现中的重要性。

受控分子生成性能

作者研究了通过提示Q、R和S控制生成分子与母分子间的相似度。LLM能有效区分不同相似度级别,从“勉强相似”到“中等相似”,再到“略微相似”,谷本相似度中值分别为0.09、0.63和0.37。基本提示的相似度中位数在0.67-0.69间。这表明LLM能根据提示关键词量化不同相似度。未来,探索基于优化的方法如TextGrad可能有助于提升LLM性能,进一步优化引导生成过程。

结论

通过量化潜在空间中的分子修饰行为,本文深入分析了LLMs在不同提示条件下的表现进一步验证了其在分子设计领域的巨大潜力。未来研究可聚焦于开发自动提示工程方法,以更高效地探索化学设计空间并推动LLMs在分子科学领域的广泛应用。

参考资料:

https://doi.org/10.1021/acs.jcim.4c01396

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档