前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Nat. Mach. Intell.|大语言模型助力分子属性预测,驱动科学发现新范式

Nat. Mach. Intell.|大语言模型助力分子属性预测,驱动科学发现新范式

作者头像
实验盒
发布2025-02-28 15:34:21
发布2025-02-28 15:34:21
750
举报
文章被收录于专栏:实验盒实验盒

在药物研发和材料科学领域,分子属性预测(如溶解度、血脑屏障通透性)是决定实验成败的关键。然而,传统方法依赖人工经验或复杂神经网络,存在可解释性差、知识整合困难等问题。

近日,《Nature Machine Intelligence》刊登了一项突破性研究,提出全新框架LLM4SD,首次将大型语言模型(LLM)深度融入分子预测,在58项基准任务中全面超越现有技术,为AI驱动的科学发现开辟新路径。

知识+数据双轮驱动的科学引擎

LLM4SD的核心创新在于将LLM的“文献知识提炼”与“数据模式挖掘”能力相结合:

  1. 知识合成:通过提示词让LLM扮演化学家角色,从海量文献中提取规则(如“分子量<500 Da更易穿透血脑屏障”)。
  2. 知识推断:分析SMILES分子结构与标签的关系,发现潜在规律(如“含卤素分子更易通过血脑屏障”)。
  3. 特征向量化:将规则转化为可计算的RDKit代码,生成可解释特征,输入随机森林等模型训练。

技术亮点

  • 可解释性:模型决策依赖人类可理解的化学规则(如氢键数量、极性表面积)。
  • 零人工干预:规则生成、代码转换全程自动化,仅需最终人工审核。

58项任务全面领先

研究团队在MoleculeNet的58项任务中验证LLM4SD,涵盖生理学、生物物理、量子力学等四大领域:

  • 分类任务:血脑屏障预测(BBBP)AUC-ROC提升2.07%,HIV抑制预测超越现有最佳模型。
  • 回归任务:量子力学属性预测平均MAE降低48.2%,物化性质预测RMSE优化12.9%。
  • 模型对比:全面击败GROVER、GraphCL等9种主流图神经网络(GNN)及传统随机森林基线。

关键发现

  • 规模并非绝对:科学领域专用小模型(如Galactica-6.7B)性能媲美通用大模型GPT-4。
  • 规则验证:85%文献规则被证实有效,17%数据推断规则为潜在新发现(如羰基官能团影响血脑屏障通透性)。

突破边界:从分子到蛋白质

尽管当前研究聚焦分子属性,LLM4SD的潜力远不止于此:

  • 扩展挑战:蛋白质序列(300-500氨基酸)、基因序列(数万碱基)的长上下文处理仍需突破。
  • 未来方向
    • 预训练优化:引入UniProt、GenBank等生物数据库增强领域知识。
    • 检索增强:结合专业知识库提升推理准确性。
    • 高效分词:开发针对生物序列的特化编码方法。

启示与展望

LLM4SD的成功验证了LLM在科学发现中的独特价值:

  • 加速假设生成:自动提炼文献规律,缩短研究周期。
  • 降低认知门槛:即使非领域专家,也可通过自然语言与AI协作。
  • 推动跨学科融合:为化学生物学、计算医学提供新工具。

局限与思考

  • 当前框架依赖SMILES等结构化数据,复杂生物大分子应用仍需探索。
  • 规则自动化生成的可靠性需长期验证,避免“幻觉”干扰。

结语: LLM4SD的诞生标志着AI正从“数据拟合”迈向“知识驱动”的科学发现新时代。对于计算生物学者,掌握LLM与领域知识的深度融合,或将成为未来核心竞争力。

参考

Zheng Y, Koh HY, Ju J, et al. Large language models for scientific discovery in molecular property prediction. Nat Mach Intell (2025).

本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 知识+数据双轮驱动的科学引擎
  • 58项任务全面领先
  • 突破边界:从分子到蛋白质
  • 启示与展望
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档