首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Med. | 基于MedHELM的大语言模型医学任务综合评估

Nat. Med. | 基于MedHELM的大语言模型医学任务综合评估

作者头像
DrugOne
发布2026-01-26 16:49:53
发布2026-01-26 16:49:53
1050
举报
文章被收录于专栏:DrugOneDrugOne

DRUGONE

尽管大语言模型在医学执照考试等标准化评测中取得接近满分的成绩,但这些评测难以反映真实临床实践中任务的复杂性与多样性。研究人员提出 MedHELM,一个面向真实医学任务的大语言模型综合评估框架。

MedHELM 的核心贡献包括:

  • 一个经临床医生验证的医学任务分类体系,将医学 AI 应用划分为五大类、22 个子类和 121 项具体任务;
  • 覆盖全部子类的 37 项基准评测;
  • 对 9 个前沿大语言模型进行系统比较,并结合自动化的 LLM-jury 评估方法与成本–性能分析。

评测结果显示,具备强化推理能力的模型在整体表现上占优,但部分非推理模型在成本效率方面具有竞争力。MedHELM 为医疗 AI 系统的循证选择提供了系统化工具。

近年来,大语言模型在医学知识问答等任务上取得显著进展,引发了其在临床决策支持、医疗文书生成和患者沟通等场景中的应用兴趣。然而,现有医学评测体系仍存在三大局限:

  • 任务设定与真实临床脱节:多数评测基于合成病例或考试题目,无法反映真实病历中的模糊性和复杂推理过程;
  • 真实世界数据使用不足:仅少量评测使用真实电子病历数据;
  • 任务覆盖面有限:评测高度集中于诊断和问答任务,忽视了大量占用临床时间的行政与流程性工作。

受通用语言模型评测框架 HELM 的启发,研究人员提出 MedHELM,旨在构建一个贴近真实医疗实践、任务多样、可扩展的评估体系。

方法

MedHELM 是一个以临床任务为中心的大语言模型评测框架,整体流程包括三步:

  • 任务分类体系构建

研究人员与 29 名来自多学科的临床医生合作,构建并验证一个包含 5 大类、22 个子类、121 项任务的医学任务分类体系,覆盖临床决策、文书生成、患者沟通、医学研究和行政流程。

  • 基准数据集映射与构建

将现有医学数据集重新映射至该分类体系,并补充构建新的基准,形成覆盖全部子类的 37 项评测,其中部分基于真实电子病历数据。

  • 评测与分析

对 9 个前沿大语言模型进行统一评测。对于开放式生成任务,采用 LLM-jury 方法,由多个模型依据临床定义的标准进行自动化评分,并结合计算成本进行综合分析。

结果

临床医生验证的任务分类体系

临床医生对任务子类的正确归类率达到 96.7%,表明该体系高度符合真实医疗工作方式。最终形成 5 大类、22 个子类、121 项任务的完整结构。

图 1|MedHELM 评测框架与任务分类体系概览。

覆盖真实医疗工作的基准评测体系

37 项基准评测覆盖所有子类任务,包含开放式文本生成和封闭式选择题任务,并结合公共与私有数据以降低评测偏倚。

图 2|MedHELM 基准数据集与任务覆盖情况。

不同模型在具体任务上的表现差异

模型在临床文书生成和患者沟通任务中表现最佳,而在医疗计算、风险预测和行政流程任务中普遍表现较弱,显示出当前模型能力的结构性差异。

图 3|不同模型在 37 项基准任务上的性能热图。

按任务类别的系统比较

整体来看,模型在“临床文书生成”和“患者沟通与教育”类别中得分最高,在“行政与流程管理”类别中得分最低,提示该领域仍是医疗 AI 的主要短板。

图 4|不同模型在五大医学任务类别中的表现。

性能与计算成本的权衡

推理型模型在总体性能上领先,但计算成本显著更高;部分非推理模型在性能略有下降的情况下,展现出更优的成本–性能平衡,适合资源受限场景。

图 5|模型性能与计算成本的关系。

讨论

MedHELM 提供了一个面向真实医疗任务的系统化评测范式,弥补了现有医学大模型评测中任务单一、数据脱离实际和缺乏成本考量的不足。研究结果表明,通用基准上的优异表现并不能可靠预测模型在医学任务中的能力。

通过引入 LLM-jury 方法,MedHELM 在不大量消耗临床专家时间的前提下,实现了对开放式医学任务的可扩展评估,其与临床医生判断的一致性达到可接受水平。

研究人员同时指出,当前模型在行政流程、定量医学计算和高风险决策任务中仍存在明显不足。未来,MedHELM 有望通过社区共建扩展更多任务类型,并引入不确定性评估与安全性指标,为医疗 AI 的安全部署提供更坚实的评估基础。

整理 | DrugOne团队

参考资料

Bedi, S., Cui, H., Fuentes, M. et al. Holistic evaluation of large language models for medical tasks with MedHELM. Nat Med (2026).

https://doi.org/10.1038/s41591-025-04151-2

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档