
DRUGONE
尽管大语言模型在医学执照考试等标准化评测中取得接近满分的成绩,但这些评测难以反映真实临床实践中任务的复杂性与多样性。研究人员提出 MedHELM,一个面向真实医学任务的大语言模型综合评估框架。
MedHELM 的核心贡献包括:
评测结果显示,具备强化推理能力的模型在整体表现上占优,但部分非推理模型在成本效率方面具有竞争力。MedHELM 为医疗 AI 系统的循证选择提供了系统化工具。

近年来,大语言模型在医学知识问答等任务上取得显著进展,引发了其在临床决策支持、医疗文书生成和患者沟通等场景中的应用兴趣。然而,现有医学评测体系仍存在三大局限:
受通用语言模型评测框架 HELM 的启发,研究人员提出 MedHELM,旨在构建一个贴近真实医疗实践、任务多样、可扩展的评估体系。
方法
MedHELM 是一个以临床任务为中心的大语言模型评测框架,整体流程包括三步:
研究人员与 29 名来自多学科的临床医生合作,构建并验证一个包含 5 大类、22 个子类、121 项任务的医学任务分类体系,覆盖临床决策、文书生成、患者沟通、医学研究和行政流程。
将现有医学数据集重新映射至该分类体系,并补充构建新的基准,形成覆盖全部子类的 37 项评测,其中部分基于真实电子病历数据。
对 9 个前沿大语言模型进行统一评测。对于开放式生成任务,采用 LLM-jury 方法,由多个模型依据临床定义的标准进行自动化评分,并结合计算成本进行综合分析。
结果
临床医生验证的任务分类体系
临床医生对任务子类的正确归类率达到 96.7%,表明该体系高度符合真实医疗工作方式。最终形成 5 大类、22 个子类、121 项任务的完整结构。

图 1|MedHELM 评测框架与任务分类体系概览。
覆盖真实医疗工作的基准评测体系
37 项基准评测覆盖所有子类任务,包含开放式文本生成和封闭式选择题任务,并结合公共与私有数据以降低评测偏倚。

图 2|MedHELM 基准数据集与任务覆盖情况。
不同模型在具体任务上的表现差异
模型在临床文书生成和患者沟通任务中表现最佳,而在医疗计算、风险预测和行政流程任务中普遍表现较弱,显示出当前模型能力的结构性差异。

图 3|不同模型在 37 项基准任务上的性能热图。
按任务类别的系统比较
整体来看,模型在“临床文书生成”和“患者沟通与教育”类别中得分最高,在“行政与流程管理”类别中得分最低,提示该领域仍是医疗 AI 的主要短板。

图 4|不同模型在五大医学任务类别中的表现。
性能与计算成本的权衡
推理型模型在总体性能上领先,但计算成本显著更高;部分非推理模型在性能略有下降的情况下,展现出更优的成本–性能平衡,适合资源受限场景。

图 5|模型性能与计算成本的关系。
讨论
MedHELM 提供了一个面向真实医疗任务的系统化评测范式,弥补了现有医学大模型评测中任务单一、数据脱离实际和缺乏成本考量的不足。研究结果表明,通用基准上的优异表现并不能可靠预测模型在医学任务中的能力。
通过引入 LLM-jury 方法,MedHELM 在不大量消耗临床专家时间的前提下,实现了对开放式医学任务的可扩展评估,其与临床医生判断的一致性达到可接受水平。
研究人员同时指出,当前模型在行政流程、定量医学计算和高风险决策任务中仍存在明显不足。未来,MedHELM 有望通过社区共建扩展更多任务类型,并引入不确定性评估与安全性指标,为医疗 AI 的安全部署提供更坚实的评估基础。
整理 | DrugOne团队
参考资料
Bedi, S., Cui, H., Fuentes, M. et al. Holistic evaluation of large language models for medical tasks with MedHELM. Nat Med (2026).
https://doi.org/10.1038/s41591-025-04151-2
内容为【DrugOne】公众号原创|转载请注明来源