Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM在生物信息学中表现如何?Bio-benchmark给出了30项任务的全面评估

LLM在生物信息学中表现如何?Bio-benchmark给出了30项任务的全面评估

作者头像
实验盒
发布于 2025-03-10 06:46:45
发布于 2025-03-10 06:46:45
1750
举报
文章被收录于专栏:实验盒实验盒

随着计算生物学的进步,传统方法在解决蛋白质折叠、功能注释及新生物分子设计等问题时逐渐显露局限性,例如计算复杂度高或泛化能力不足。而大语言模型(LLMs)凭借其强大的语言理解与生成能力,为这些问题提供了新的解决方案。它们不仅能处理电子健康记录(EHR)或中医药问答等文本数据,还能分析蛋白质和RNA等生物序列,表现出比传统方法更高的准确性和适应性。

然而,如何系统性地评估LLMs在生物信息学任务中的表现,一直是一个难题。现有评估体系存在显著不足,包括测试数据与训练数据重叠、缺乏统一的答案提取工具以及任务覆盖范围有限等问题。这些缺陷限制了对LLMs在生物信息学中真实能力的全面衡量。因此,亟需一个标准化、覆盖广泛任务的评估框架。

为此,来自香港中文大学、香港大学及上海人工智能实验室的研究团队提出了Bio-benchmark——一个针对生物信息学NLP任务的全面评估框架。

Bio-benchmark框架

Bio-benchmark是一个基于提示(prompting)的评估框架,旨在通过零样本(zero-shot)和少样本(few-shot)设置,测试LLMs在生物信息学任务中的内在能力,而无需模型微调。该框架涵盖7大领域共30项任务,包括蛋白质设计、RNA结构预测、药物相互作用分析、电子病历推理及中医药智能问答等。

数据集设计

Bio-benchmark的数据集来源于多个权威数据库,覆盖以下子领域:

  • 蛋白质:基于蛋白质数据库(PDB),包括二级结构预测、家族序列设计和逆折叠设计等任务。
  • RNA:数据来自bpRNA和RNA-Central,涵盖功能预测、二级结构预测及逆折叠设计。
  • 药物:涉及抗生素设计、药物-药物相互作用预测及药物-靶标相互作用预测。
  • 电子健康记录(EHR):基于MIMIC数据库,包含诊断预测和治疗计划制定。
  • 医学问答:数据来源于HeadQA、MedMCQA等医学考试题库。
  • 中医药问答:基于中医药经典文献和临床案例,测试模型对中医药知识的理解。

这一多样化的数据集设计确保了评估的全面性与代表性。

评估方法与BioFinder工具

为准确评估LLMs的表现,研究团队开发了BioFinder,一种专门用于从模型自由格式输出中提取答案的工具。传统方法(如正则表达式)在处理复杂输出时的准确率仅为72%,而BioFinder通过结合正则表达式与自然语言推理(NLI)技术,显著提升了性能。其主要优势包括:

  • 生物序列提取:准确率达93.5%,较传统方法提升约30%。
  • 医学NLI任务:准确率89.8%,超越GPT-4约30%。
  • 长文本评估:支持无参考答案的质量评估。

以下是BioFinder与传统方法的性能对比:

方法

多选题

文本匹配

数值提取

生物序列

正则表达式

77.5%

74.8%

68.1%

68.0%

GPT-4

65.8%

80.5%

67.0%

38.5%

BioFinder

95.5%

94.3%

95.5%

93.5%

评估分为两类:客观评估(如选择题,使用BioFinder提取答案并与标准答案比对)和主观评估(如长文本生成,通过相似性、专业知识及逻辑一致性判断质量)。

实验结果与分析

研究团队对六种主流LLMs(GPT-4o, Qwen 2.5-72b, Llama-3.1-70b, Mistral-large-2, Yi1.5-34b, InternLM-2.5-20b)进行了zero-shot和few-shot测试,结果如下:

蛋白质任务

  • 物种预测:Mistral-large-2在few-shot设置下以82%准确率领先;少样本提示显著提升表现,如Yi-1.5-34b准确率提升6倍,InternLM-2.5-20b提升近20倍。
  • 结构预测:Llama-3.1在few-shot下恢复率达34%,表现最佳。

RNA任务

  • 功能预测:Llama-3.1在few-shot下准确率达89%,少样本效果显著。
  • 二级结构预测:所有模型表现较差,准确率普遍较低,显示任务复杂性。
  • sgRNA效率预测:InternLM在zero-shot下表现意外优于few-shot。

药物任务

  • 抗生素设计:Mistral-large-2在few-shot下准确率达91%,表现突出。
  • 药物-靶标预测:InternLM在few-shot下达73%。
  • 药物-药物相互作用:最佳准确率仅47%,表明仍有改进空间。

电子健康记录(EHR)任务

  • 诊断预测:GPT-4o在AgentClinic任务中准确率达82.24%,表现优异。

医学问答任务

  • 多选题:在HeadQA、MedMCQA等数据集上,平均准确率超70%,但少样本提示提升有限,甚至偶有下降。

中医药问答任务

  • 表现提升:少样本提示显著改善结果,如TCMSD任务中准确率从31.7%升至65.3%。

提示工程的最佳实践

基于百万级测试数据,研究总结出三条提示工程经验:

  1. 分字符输入:将连续生物序列改为换行分隔,准确率提升3倍。
  2. 动态few-shot:示例数与任务复杂度正相关,3-10个为最佳范围。
  3. 领域知识注入:在提示中加入专业术语解释,错误率降低41%。

结论与展望

Bio-benchmark表明,LLMs在蛋白质设计、药物开发及中医药问答等任务中表现出色,尤其在少样本设置下潜力显著。然而,RNA二级结构预测及药物-药物相互作用等复杂任务仍具挑战性。BioFinder的引入为答案提取提供了高效工具,未来可进一步优化提示策略或探索微调方案。

局限性

尽管Bio-benchmark覆盖广泛,但其评估限于zero-shot和few-shot场景,未涉及微调潜力。此外,任务虽多样,仍可能无法全面代表生物信息学所有挑战。BioFinder的性能也受输入数据质量影响,在复杂输出中可能面临限制。

参考

参考文献: Jiang, J., Chen, P., Wang, J., et al. (2025). Benchmarking Large Language Models on Multiple Tasks in Bioinformatics NLP with Prompting. arXiv preprint arXiv:2503.04013.

本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
万字综述|一文掌握大语言模型在生物信息学中的应用
随着大语言模型(LLMs)技术的飞速发展,其在自然语言处理(NLP)领域的成功应用逐渐扩展到了生物信息学领域。生物信息学作为一个跨学科的领域,涉及基因组学、蛋白质组学、药物发现等多个方向,LLMs的引入为这些领域带来了新的研究工具和方法。
实验盒
2025/02/05
5610
万字综述|一文掌握大语言模型在生物信息学中的应用
北大高歌教授综述:ChatGPT在生物信息学的革命性应用
2024年6月,北京大学高歌教授课题组在《Quantitative Biology》期刊上发表了一篇题为《生物信息学中的基础模型》的综述。该文章系统探讨了大语言模型(ChatGPT、Claude等AI模型)在生物信息学中的应用,包括基于文本的大语言模型和基于生物数据的专门化模型,详细剖析了基础模型的影响、发展与局限性,以及未来的发展潜力。
用户11203141
2025/03/06
2090
北大高歌教授综述:ChatGPT在生物信息学的革命性应用
[机器学习|理论&实践] 机器学习在生物信息学中的探索
机器学习是我一直深入研究和应用的领域,其在生物信息学中的应用尤为引人注目。通过让计算机从数据中学习模式,机器学习为处理生物信息学中的复杂问题提供了新的思路。我理解监督学习、无监督学习和强化学习等方法的区别和适用场景,这些方法在生物信息学中有着广泛的应用。
数字扫地僧
2023/12/20
5330
顶级生物信息学 RSS 订阅源
早在 2018 年的时候我在"生信草堂"的公众号上写过一篇关于 RSS 的文章《使用 RSS 打造你的科研资讯头条》,介绍了关于 RSS 的一些内容和如何使用 inoreader 来订阅你感兴趣的一些科研资讯。 今天主要来给大家推荐一些常用的生物信息学的 RSS 订阅源,通过这些订阅源你可以及时掌握和了解到一些比较前沿的生物信息学研究资讯。
章鱼猫先生
2021/10/15
1.5K0
顶级生物信息学 RSS 订阅源
AlphaFold的极限:高中生揭示人工智能在生物信息学挑战中的缺陷
人工智能程序AlphaFold (AlphaFold2开源了,不是土豪也不会编程的你怎么蹭一波?),通过预测蛋白质结构解决了结构生物信息学的核心问题。部分AlphaFold迷们声称“该程序已经掌握了终极蛋白质物理学,其工作能力已超越了最初的设计”。事实真是如此吗?Skoltech Bio的研究团队让 AlphaFold 预测单个突变对蛋白质稳定性的影响,结果与实验结果相矛盾,这表明该人工智能并非结构生物信息学的万能良药。该研究发表在《PLOS One》杂志。
生信宝典
2023/08/30
3020
AlphaFold的极限:高中生揭示人工智能在生物信息学挑战中的缺陷
基础生物信息学
我们正在见证生物医学研究的一场革命:几十年来,虽然人们一直清楚探索生物系统的遗传学对于了解生物系统是非常重要的,但是以前获得遗传序列是非常昂贵和复杂的。而现在,获取基因序列简单又便宜,以前所未有的速度生成数据。生物信息学序列分析是了解这些序列的核心,这本书简单介绍了DNA, RNA和蛋白质序列的研究。
生信挖掘姬
2020/06/05
5670
临床生物信息学工作者需要哪些【硬技能】和【软技能】?
生信菜鸟团
2025/01/02
1700
临床生物信息学工作者需要哪些【硬技能】和【软技能】?
读《理解生物信息学》
思想就像基因一样,需要通过表达来传播和互相吸引,并且生成新的东西。基因的表达,这样的表述读起来平平常常,然而我们建立这样一套概念系统是大量优秀的科学家不断探索的结果。
生信菜鸟团
2022/04/08
6360
读《理解生物信息学》
Nat. Commun. | 成功率达90%!生物信息学聊天机器人DrBioRight 2.0上线,引领癌症蛋白质组学研究新范式
过去十年间,得益于癌症基因组图谱(TCGA)和癌细胞系百科全书(CCLE)等计划的推动,癌症组学取得显著发展,特别是在肿瘤DNA和RNA层面,并生成了大量数据;但目前人们对肿瘤中蛋白质翻译及翻译后修饰(PTM)相关知识仍有待完善。反相蛋白质微阵列(RPPA)技术可对癌症样本进行大规模功能蛋白质组学数据分析,提供了对癌症机制的重要见解,有助于发现新型生物标志物和治疗靶点。
DrugAI
2025/03/13
1220
Nat. Commun. | 成功率达90%!生物信息学聊天机器人DrBioRight 2.0上线,引领癌症蛋白质组学研究新范式
Drug Discov. Today | 生物信息学资源支持蛋白质-蛋白质相互作用的药物靶标发现
今天为大家介绍的是来自杨光富团队的一篇论文。蛋白质-蛋白质相互作用(PPIs)对于多种细胞性过程至关重要,为药物靶点发现提供了一个有前景的途径。PPIs的特征是多层次的复杂性:在蛋白质层面,可以利用相互作用网络来识别潜在的靶点;而在残基层面,可以利用单个PPIs的相互作用细节来检查一个靶点的可药性。在通过多层次PPI相关的计算方法进行靶点发现方面,已经取得了巨大的进展,但这些资源尚未得到充分讨论。在这里,作者系统地调查了用于识别和评估潜在药物靶点的生物信息学工具,检查它们的特性、限制和应用。这项工作将帮助将更广泛的蛋白质到网络的上下文与详细的结合机制分析相结合,以支持药物靶点的发现。
DrugAI
2024/06/04
5210
Drug Discov. Today | 生物信息学资源支持蛋白质-蛋白质相互作用的药物靶标发现
生信AI智能体遭遇滑铁卢?BixBench基准测试揭示主流LLM三大短板
大型语言模型(LLM)凭借其强大的语言理解和生成能力,被认为有潜力加速生物数据分析、实现自动化科学发现。然而,尽管这些模型在通用领域表现出色,其在生物信息学复杂任务中的实际应用能力仍需进一步验证。
实验盒
2025/03/11
1670
生信AI智能体遭遇滑铁卢?BixBench基准测试揭示主流LLM三大短板
我掌握的新兴技术:生物信息学:如何用AI分析和挖掘生物大数据
生物信息学是一门跨学科的科学领域,它将生物学、计算机科学和统计学等多个学科的知识相结合,利用计算方法和工具来解决生物学领域的问题。随着生物学数据的急剧增加,人工智能(AI)技术在生物信息学中的应用变得越来越重要。本文将介绍如何利用AI技术分析和挖掘生物大数据。
Echo_Wish
2024/02/08
9850
面向转录组测序数据分析和机器学习方法的植物生物信息学应用新趋势
分析植物适应环境变化和胁迫反应的分子机制对植物生物技术至关重要。其中关键方法包括生物信息学方法、高通量测序和后基因组技术。测序和系统生物学方法提供了从分子到细胞、器官和种群水平的植物生长的全面视图。基因组学和生物信息学促进了植物细胞中蛋白质-蛋白质和基因调控相互作用的建模,为更好的作物生产和可持续性提供了基础。植物-病原体相互作用研究补充了这一领域的网络建模。
生信菜鸟团
2024/07/10
2630
面向转录组测序数据分析和机器学习方法的植物生物信息学应用新趋势
生物信息学软件之网页工具和在线数据库
生物信息学领域有许多在线工具和资源,这些工具提供了各种分析和可视化功能,无需用户进行大量的本地安装和配置。而且绝大部分都是大机构开发和维护,知名度比较好的大机构包括:
生信技能树
2023/11/24
8690
生物信息学软件之网页工具和在线数据库
生物信息学在抗生素耐药研究中的应用
随着抗生素的广泛使用,抗生素耐药性问题日益严峻。根据世界卫生组织的数据,全球每年因抗生素耐药性导致的死亡人数已超过500万,且这一数字还在持续上升。抗生素耐药性不仅威胁到人类健康,还对农业、畜牧业以及公共卫生系统造成了巨大压力。因此,如何有效应对抗生素耐药性成为全球关注的焦点。近年来,生物信息学技术在抗生素耐药性研究中发挥了重要作用,其优势主要体现在以下几个方面。
简说基因
2025/01/22
1390
生物信息学在抗生素耐药研究中的应用
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
生物信息学是一门交叉学科,旨在通过应用计算机科学和数学方法来处理和分析生物数据。随着生物技术的飞速发展,产生了海量的生物数据,如基因序列、蛋白质结构数据等。机器学习,作为一种强大的数据处理和分析工具,在生物信息学领域发挥着越来越重要的作用,为生物学家揭示生物奥秘提供了新的途径。
Echo_Wish
2025/01/08
2650
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
现代生物学领域的生物信息学权重高吗
上面的代码获取全部的书籍的大标题和小标题,接下来就是针对它们的标题内容进行一个简单的汇总整理。简单的看了看生物信息学相关非常少:
生信技能树
2023/09/04
2540
现代生物学领域的生物信息学权重高吗
生物信息学 | 借助 AI 更高效地开启研究
生物信息学 (Bioinformatics) 是指利用应用数学、信息学、统计学和计算机科学的方法,研究生物学问题。
HyperAI超神经
2023/11/02
4020
生物信息学 | 借助 AI 更高效地开启研究
德睿论文Bioinformatics | 生物数据挖掘领域的AI大语言模型Benchmark研究
近日,「德睿智药」与广州生物岛科学家团队的合作论文“An Extensive Benchmark Study on Biomedical Text Generation and Mining with ChatGPT”,发表在国际顶级生物信息学期刊Bioinformatics上。AI大语言模型应用于生物医药领域需要深入的领域理解能力,同时科学的模型表现评估也是研发出应用于生物医药领域大语言模型的基础。为此,本论文研究团队开发出一项全面的基准测试流程,以评估各种AI大语言模型在生物医学数据挖掘上的性能。
DrugAI
2023/10/24
4690
德睿论文Bioinformatics | 生物数据挖掘领域的AI大语言模型Benchmark研究
刷了一下历年的中国生物信息学十大进展
从上面的3个分类评选的入选的工作中进一步评选,产生每个年度“中国生物信息学十大进展”。
生信技能树
2023/09/04
1.3K0
刷了一下历年的中国生物信息学十大进展
推荐阅读
相关推荐
万字综述|一文掌握大语言模型在生物信息学中的应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档