DRUGAI
今天为大家介绍的是来自比利时鲁汶大学的Maxime Griot团队的一篇论文。大语言模型在医学委员会考试中展现出媲美专家的准确性,显示出其在临床辅助决策系统方面的应用潜力。然而,在医疗决策过程中极其重要的元认知能力(metacognitive abilities) 尚未得到深入研究。为了填补这一研究空白,研究团队开发了MetaMedQA测试基准。这个基准将置信度评分和元认知任务融入医学选择题中。研究人员从多个维度对12个模型进行了评估,包括它们在不同置信度下的答题准确性、识别缺失答案的能力,以及辨认未知问题的表现。研究发现,尽管这些模型在常规医学选择题上表现优异,但所有受测模型都显示出明显的元认知能力不足。具体表现为:即使在没有正确答案选项的情况下,模型仍会自信地给出答案,无法意识到自身知识的边界。这项研究表明,目前的模型在医学推理方面存在认知偏差,即其自我评估能力与实际能力之间存在显著差异,这在临床应用中可能带来严重风险。研究结果强调,在开发基于大语言模型的临床辅助决策系统时,需要建立更完善的评估体系。这个体系必须将元认知能力作为关键评估指标,以确保系统的可靠性和安全性。
大语言模型在医疗保健等多个行业展现出巨大的变革潜力。传统的评估方法主要通过医学选择题来测试模型的知识掌握程度,这些题目涵盖从生物化学到临床决策等多个领域。近期研究显示,在儿科、肿瘤科、眼科、放射科等多个专科的官方考试中,这些模型都能达到接近医疗专业人员的水平。然而,这种评估方法存在明显局限性。它们过分关注回答具体问题的准确性,而忽视了模型安全性以及可能产生错误或误导性信息的风险。比如,在国际疾病分类编码等特定任务中的研究就发现了显著的性能缺陷。此外,这些模型在高风险环境中的应用仍面临质疑,主要是因为它们可能产生“幻觉”——即生成看似合理但实际并不存在的信息。
为了推动大语言模型在医疗领域的安全应用,研究团队特别关注了模型的元认知能力评估。元认知包括两个方面:一是对自身认知过程的理解,如识别偏见;二是自我管理能力,如评估自身表现和持续监控学习过程。在医疗实践中,这些能力对于处理复杂和不确定的临床情况至关重要。研究团队开发的MetaMedQA测试基准不仅评估模型的准确性,还着重考察其自我评估能力和认识知识局限性的能力。研究发现,尽管新一代大型模型在准确性方面表现更好,但大多数模型在面对无法回答的问题时表现欠佳,且难以准确评估自身的不确定性。仅有少数模型(尤其是GPT-4)展现出较好的置信度调整能力。
基准测试的创建和预处理
为了评估大语言模型在医疗场景中的元认知能力,研究团队选择了MedQA-USMLE测试库作为基础。这个测试库包含了大量真实的临床病例描述,每个病例后面都附有四个可能的诊断或治疗方案,其中只有一个是正确的。
图 1
如图1所示,研究团队通过三个步骤改进了这个测试库,创建了新的MetaMedQA:
添加虚构病例:研究团队从Glianorex测试库中选取了100个关于虚构人体器官的医疗问题。这些问题虽然在形式上与真实医疗问题相似,但内容完全是虚构的。这样设计的目的是检验模型是否能识别出自己不熟悉或不存在的医学知识。
筛选信息不全的问题:借鉴 Google 的研究发现,团队仔细审查了原有问题库,找出了55个存在信息缺失的问题。这些问题要么缺少关键的医学图像,要么没有提供足够的病情信息,无法做出准确判断。
改造标准问题:团队随机选取了125个标准问题进行改造,方法包括:将正确答案换成错误答案、修改正确答案使其变得不准确,或改变问题的关键信息。这样做是为了测试模型在面对混淆信息时的判断能力。
经过这些改进,最终形成了一个包含1373个问题的综合测试库,每个问题提供6个选项,但只有一个正确答案。这种精心设计的测试体系不仅能评估模型的医学知识,更重要的是能检验模型是否具备识别自身局限性的能力,这对于医疗安全至关重要。
整体性能与置信度影响
图 2
研究团队发现,人工智能模型的表现与其规模和更新时间密切相关。如图2所示,规模更大、发布时间更近的模型往往表现更好。例如,拥有720亿参数的Qwen2模型的准确率达到64.3%,明显优于仅有70亿参数的同系列模型(准确率为43.9%)。在所有测试模型中,2024年5月发布的GPT-4模型表现最佳,准确率达到73.3%。而规模较小的Yi 1.5模型表现最差,准确率仅为29.6%,显著低于同等规模的其他模型。
为了更全面地评估模型的可靠性,研究团队创新性地引入了“置信度”概念,即模型对自己答案的确信程度,分为1-5分。基于此,团队设计了三个新的评估指标:
高置信度准确率:评估模型在“非常确信”(5分)情况下的答题准确性
中等置信度准确率:评估模型在“较为确信”(3-4分)情况下的答题准确性
低置信度准确率:评估模型在“不太确信”(3分以下)情况下的答题准确性
这种评估方式对于医疗应用特别重要,因为它不仅关注模型能否给出正确答案,更注重模型是否能准确评估自己的判断可靠性。研究发现,大多数模型倾向于对自己的答案“过度自信”,总是给出最高置信度评分。在所有测试的模型中,只有最新版本的GPT-3.5、GPT-4和Qwen2-72B能够根据问题难度调整自己的置信水平。其中GPT-4表现最为出色,它不仅能准确评估自己的答案可靠性,置信度越高的答案准确率也确实越高。而其他两个模型虽然也会调整置信度,但从未承认自己对某个问题“没有把握”,这也反映出它们在自我认知能力上的局限。
缺失正确答案分析
图 3
在医疗诊断中,有时候所有备选方案都不正确,此时医生需要认识到“没有正确答案”。为了测试AI模型是否具备这种判断能力,研究团队特别设计了“无正确答案识别率”这一评估指标。如图3所示,绝大多数AI模型在面对“以上都不是”这种情况时都表现不佳。有趣的是,总体表现最差的Yi 1.5 9B模型在这项测试中反而得分最高。但进一步分析发现,这是因为该模型有一个明显的偏好——它在将近38%的问题中都选择了“以上都不是”这个选项,这种过度倾向反而意外提高了它在这项指标上的得分。Meerkat 7B模型也显示出类似的倾向,在约21.5%的问题中选择了这一选项。相反,另一些模型则几乎从不选择“以上都不是”。例如,Llama 3 8B模型极少选择这个选项,而Mistral 7B和Internist 7B模型则完全不会考虑这种可能性。这种极端的保守倾向同样值得关注。
图 4
在排除了这些具有极端倾向的模型后,研究团队发现一个重要规律:模型的总体准确率越高,它在识别“无正确答案”情况时的表现也越好。如图4所示,这种关联性非常显著。这一发现极具意义,因为它表明先进的AI模型正在发展出更全面的判断能力——不仅能在常规选项中选出正确答案,还能意识到什么时候所有选项都不正确。
无法回答与提示工程分析
研究团队特别关注AI模型是否能够识别出“自己无法回答”的问题。这类问题主要有两种:一种是信息不完整,无法做出判断;另一种是涉及模型从未学习过的虚构医学知识。在临床实践中,承认“不知道”或“无法判断”的能力至关重要,这比给出一个不确定的答案要安全得多。然而,研究结果令人担忧:在这项最具挑战性的测试中,大多数模型得分为0%,也就是说它们从不承认自己无法回答问题。即使是表现最好的GPT-4模型,在识别“无法回答”的问题上的准确率也仅为3.7%。其他两个表现相对较好的模型——Yi 1.5 34B和Meerkat 7B的准确率分别只有0.6%和1.2%。在测试的1373个问题中,大多数模型要么从不承认自己不知道答案,要么仅在极少数情况下(不到10次)承认这一点。
研究团队还探讨了如何通过改进指令来提升模型的这种自我认知能力。他们以GPT-4为例,尝试了不同的指导语。最初只是简单地告诉模型它是一个医疗助手,然后逐步添加更多提示,比如明确告诉它“有些问题可能信息不完整”、“有些问题可能具有误导性”、“有些问题可能超出你的知识范围”等。结果发现,当明确告诉模型“你可能无法回答某些问题”时,模型的整体表现显著提升。它不仅准确率提高了,在高置信度回答的准确性和识别未知问题的能力上也有明显进步。这说明,通过适当的指导,可以帮助AI模型建立更好的“自知之明”。有趣的是,当向模型提供完整的测试设计说明时,效果反而不如简单直接的提示。这个发现暗示,在医疗AI系统的实际应用中,与其给出复杂的指令,不如直接告诉系统“在不确定时要明确表示”这样的简单原则可能更有效。
讨论
本研究揭示了人工智能在医疗测试中呈现的独特规律与显著缺陷。研究发现,参数规模更大、发布时间更近的模型(如GPT-4)展现出更高的准确率。值得警惕的是,当前最先进的AI普遍缺乏医疗决策所需的“自知之明”:首先,模型表现出过度自信倾向,即使面对模糊病例也鲜少承认不确定性;其次,当遭遇知识盲区(如虚构医学概念)时,仍会强行作答而非坦白认知局限;再者,AI无法像人类医生般灵活切换直觉判断与深度分析的思维模式。研究团队通过改进指令提示虽获得部分改善,但效果有限,显示单纯技术调整难以建立医疗场景所需的专业审慎。
这些发现为医疗AI发展提供了重要方向。研究表明,具备元认知能力的AI比单纯知识储备型系统更具临床价值,这需要开发新型训练方法培养AI的自我评估机制。同时强调现阶段必须保持审慎应用原则,建立严格的人类监督体系。研究也指出当前评估体系的局限性——基于选择题的测试无法完全模拟真实医疗场景的复杂性,亟待开发更贴近临床实践的评估框架。这提示未来的突破不仅在于模型性能提升,更需要构建与医疗决策特点相匹配的新型评价维度与训练范式。
编译|于洲
审稿|王梓旭
参考资料
Griot M, Hemptinne C, Vanderdonckt J, et al. Large Language Models lack essential metacognition for reliable medical reasoning[J]. Nature communications, 2025, 16(1): 642.