在药物研发和材料科学领域,分子属性预测(如溶解度、血脑屏障通透性)是决定实验成败的关键。然而,传统方法依赖人工经验或复杂神经网络,存在可解释性差、知识整合困难等问题。
近日,《Nature Machine Intelligence》刊登了一项突破性研究,提出全新框架LLM4SD,首次将大型语言模型(LLM)深度融入分子预测,在58项基准任务中全面超越现有技术,为AI驱动的科学发现开辟新路径。
知识+数据双轮驱动的科学引擎
LLM4SD的核心创新在于将LLM的“文献知识提炼”与“数据模式挖掘”能力相结合:
- 知识合成:通过提示词让LLM扮演化学家角色,从海量文献中提取规则(如“分子量<500 Da更易穿透血脑屏障”)。
- 知识推断:分析SMILES分子结构与标签的关系,发现潜在规律(如“含卤素分子更易通过血脑屏障”)。
- 特征向量化:将规则转化为可计算的RDKit代码,生成可解释特征,输入随机森林等模型训练。
技术亮点:
- 可解释性:模型决策依赖人类可理解的化学规则(如氢键数量、极性表面积)。
- 零人工干预:规则生成、代码转换全程自动化,仅需最终人工审核。
58项任务全面领先
研究团队在MoleculeNet的58项任务中验证LLM4SD,涵盖生理学、生物物理、量子力学等四大领域:
- 分类任务:血脑屏障预测(BBBP)AUC-ROC提升2.07%,HIV抑制预测超越现有最佳模型。
- 回归任务:量子力学属性预测平均MAE降低48.2%,物化性质预测RMSE优化12.9%。
- 模型对比:全面击败GROVER、GraphCL等9种主流图神经网络(GNN)及传统随机森林基线。
关键发现:
- 规模并非绝对:科学领域专用小模型(如Galactica-6.7B)性能媲美通用大模型GPT-4。
- 规则验证:85%文献规则被证实有效,17%数据推断规则为潜在新发现(如羰基官能团影响血脑屏障通透性)。
突破边界:从分子到蛋白质
尽管当前研究聚焦分子属性,LLM4SD的潜力远不止于此:
- 扩展挑战:蛋白质序列(300-500氨基酸)、基因序列(数万碱基)的长上下文处理仍需突破。
- 未来方向:
- 预训练优化:引入UniProt、GenBank等生物数据库增强领域知识。
- 检索增强:结合专业知识库提升推理准确性。
- 高效分词:开发针对生物序列的特化编码方法。
启示与展望
LLM4SD的成功验证了LLM在科学发现中的独特价值:
- 加速假设生成:自动提炼文献规律,缩短研究周期。
- 降低认知门槛:即使非领域专家,也可通过自然语言与AI协作。
- 推动跨学科融合:为化学生物学、计算医学提供新工具。
局限与思考:
- 当前框架依赖SMILES等结构化数据,复杂生物大分子应用仍需探索。
- 规则自动化生成的可靠性需长期验证,避免“幻觉”干扰。
结语:
LLM4SD的诞生标志着AI正从“数据拟合”迈向“知识驱动”的科学发现新时代。对于计算生物学者,掌握LLM与领域知识的深度融合,或将成为未来核心竞争力。
参考
Zheng Y, Koh HY, Ju J, et al. Large language models for scientific discovery in molecular property prediction. Nat Mach Intell (2025).
本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。