首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉

To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉

作者头像
新智元
发布于 2024-06-17 09:50:49
发布于 2024-06-17 09:50:49
2970
举报
文章被收录于专栏:新智元新智元
新智元报道

编辑:庸庸 乔杨

【新智元导读】DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」的新论文,探讨了LLM的不确定性量化问题,通过「迭代提示」成功将LLM的认知不确定性和偶然不确定性解耦。研究还将新推导出的幻觉检测算法应用于Gemini,结果表明,与基线方法相比,该方法能有效检测幻觉。

大语言模型产生幻觉、胡说八道的问题被诟病,已经不是一天两天了。

前有ChatGPT编造法律案件,后有谷歌搜索建议披萨放胶水

就连号称模型更安全、幻觉更少的Claude系列,在Reddit上也能看到不少吐槽。

LLM输出虚假信息的问题,似乎并不能在短时间内彻底解决。

这就给很多场景下的应用带来了巨大的障碍,尤其是法律、医疗、学术这样比较严谨的知识领域。如果答案有错,还不如不用。

那么能不能有一种方法,至少为LLM的输出划定一个置信区间呢?

6月5日,DeepMind发表了一篇名为「To Believe or Not to Believe Your LLM」,就开始着手解决这个问题。

如果无法强迫LLM坚持输出真实信息,知道它什么时候在胡说八道也很重要。

论文地址:https://arxiv.org/abs/2406.02543

这篇论文由DeepMind Foundations团队出品,带头人是加拿大阿尔伯塔大学教授Csaba Szepesvari,他也是这篇论文的作者之一。

论文探讨了大语言模型中的不确定性量化问题,也就是说,旨在确定LLM的响应何时会出现较高的不确定性。

不确定性分为两个范畴,一个是认知不确定性(epistemic uncertainty),另一个是偶然不确定性(aleatoric uncertainty)。

前者是指对基本事实的不了解,比如,不清楚事实或者语言不通所造成的不确定性,可能来源于训练数据量或者模型容量不足。

后者则是一种不可约的随机性,比如同一个问题存在多种可能的答案。

LLM的工作本质是对文本的概率分布进行建模,因此会很自然地通过统计不确定性的视角看待问题的真实性。

以前的许多工作通过启发式的方法计算LLM回答的对数似然性,但这一般只适用于偶然不确定性较低的情况,也就是有「标准答案」的问题。

对于有多个正确答案的问题,需要将认知不确定性和偶然不确定性解耦。

因此,团队推导出了一种信息论度量(information-theoretic metric)方法,能可靠地检测出认知不确定性占多数的情况,这时我们就可以说,模型的输出没有那么可靠,Not to Believe!

这种方法根据什么来计算?

其实,可以完全基于模型的输出来考察,只需根据之前的回答进行一些特殊的迭代prompting即可。

有了这个量化方法,无论是面对有单一答案的问题,还是有多个可能答案的问题,都可以检测出回答中的幻觉,也就是认知不确定性很高的情况。

这和此前的不确定性量化策略相比,形成了鲜明对比,因为之前的方法都不能检测出多答案情况下的幻觉。

DeepMind Foundations团队进行了一系列实验,证明了他们方法的优势。

此外,研究还揭示了如何通过迭代prompting放大LLM指定给定输出的概率,这可能会引起人们的兴趣。

方法概述

首先,我们需要形成这样一个共识:

如果从基本事实(语言)中获得对同一查询的多个回复,那么它们应该是相互独立的。

也就是说,在概率论解释中,对于一个固定的查询,这些多个回复的联合分布必须是一个乘积分布。

基于这一点,我们就可以将其用于衡量LLM的输出与基本事实之间的距离。

由语言模型实现的序列模型允许我们构建多个响应的联合分布,基于LLM先前的响应和概率链规则,对LLM进行迭代prompting。

具体来说,先给定查询要求模型提供一个响应,然后将查询和相应输入给LLM,要求提供另一个响应,然后给定查询和前两个响应提供第三个响应,依此类推。

关键思路是,在对LLM进行迭代prompting的过程中,激发模型重复潜在回答,可以观察到不同的行为模式,反映不同程度的认知不确定性。。

如果模型对某个查询的认知不确定性较低,那么在prompting中重复一个不正确的回答不会显著增加其概率。

但是,如果认知不确定性较高,重复一个不正确的回答就会大大增加其概率。

下面是这一过程的prompt模板:

不断诱导LLM

下面的例子可以更好地解释这一过程——

给定问题:「英国的首都是什么?」通过在提示中重复错误答案(如巴黎),正确答案伦敦仍然保持很高的概率。

这意味着该模型的答案是确定的,它的认知不确定性较低。

相反,如果答案的概率发生了变化,那么模型就具有高度的认识不确定性。

如上图最左边的示例所示,当我们将错误回答的重复次数增加到100次的时候,正确回答「伦敦 」的条件归一化概率从100%下降到大约 96%。

在这些示例中,最初对查询的回答的认识不确定性较低,即使在错误信息重复出现的情况下,正确回答的概率仍然很大。

可是当面对更有挑战性的问题时,模型就不那么容易「坚持己见 」了。

比如,问LLM「爱尔兰的民族乐器是什么?」,它回答「竖琴」和 「尤利安管 」的概率都很大(第一个答案是正确答案)。

这一次,通过多次在提示中加入错误的回答,正确答案的概率迅速下降到接近于零。

认知不确定性度量

在对LLM进行完上述观察,研究者推导出了一种信息论度量方法。

通过测量模型的输出分布对重复添加以前的(可能不正确的)提示回答的敏感程度,来量化认知不确定性。

更确切地说,如果LLM对之前的回复不敏感,模型就有了所需的独立性,并且LLM得出的联合分布可以任意接近基本事实。

如果正相反,上下文中的响应严重影响了模型的新响应,那么直观地说,LLM对其参数中存储的知识的置信度很低,因此LLM派生的联合分布不可能接近基本事实。

这一观察结果可用于区分高不确定性的两种情况:一种是偶然不确定性高,另一种是认知不确定性高。

最后,利用这一指标,论文介绍了一种基于互信息分数的幻觉检测算法M.I.。

通过应用链式规则,他们定义了多个响应的「伪联合分布 」,同时将之前的响应纳入提示。

这种伪联合分布的互信息可作为认知不确定性的下限。互信息的估计值可用作得分,表示LLM对给定查询产生幻觉的信念强度。

结果

论文在开放域问答基准上让Gemini 1.0 Pro进行闭卷回答,对这种基于互信息(MI)的方法进行了评估,包括TriviaQA、AmbigQA以及基于WordNet创建的一个多标签数据集。

实验中共使用了3种基线方法作为对比:T0表示贪婪方法选择的LLM回答,S.E.表示使用2023年提出的「语义熵」方法(semantic-entropy)选择的前10个回答,S.V.表示2022年提出的「自我验证」方法(self-verification)的一个版本。

对LLM的回答主要使用两个方面衡量,一是准确率,二是召回率。

准确率表示查询中正确决策的百分比,召回率则表示没有弃权的查询的百分比。

结果表明,与基线方法相比,该方法能有效检测幻觉(认识不确定性较高的输出),尤其是在处理包含单标签和多标签查询的数据集时。

在TriviaQA和AmbigQA数据集上,论文提出的M.I.方法与S.E.方法基本表现相当,但明显优于T0和S.V.。

而后两个数据集包含大量的高熵、多标签查询,此时M.I.方法明显优于S.E.方法。

将LLM输出回答的熵进行分区后,分别查看两种方法的召回率和错误率,可以更直观地看到M.I.方法在高熵查询中的优越性能,不仅很少犯错误,而且召回值更高。

这篇论文相对于考虑LLM整体不确定性的一阶方法,将认知不确定性和任意不确定性分开考量,从而确定了LLM认知不确定性的可证明的下界。

此外,在认知不确定性视角下提出的基于互信息的弃权方法,能让LLM在混合单标签/多标签查询任务上取得更好的表现。

参考资料:

https://huggingface.co/papers/2406.02543

https://www.linkedin.com/pulse/believe-your-llm-vlad-bogolin-fp4ne

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大型语言模型幻觉检测相关综述
大型语言模型(LLMs)中的幻觉检测 是指系统性地识别由LLMs生成的事实错误或无意义输出的任务,而无需依赖外部证据 [Li et al., 2024; Zhang et al., 2024]。这项任务对于确保LLM生成内容的可靠性和可信度至关重要,特别是在医疗、法律咨询和教育等高风险领域 [Li et al., 2024; Xue et al., 2024]。与依赖外部知识库或数据库的传统事实核查方法不同,幻觉检测侧重于对模型行为的内在分析——利用内部状态、不确定性估计和令牌生成的动态建模来实时识别不一致之处 [Li et al., 2024; He et al., 2024]。该任务涉及评估短文本和长文本响应,区分事实性幻觉(关于世界知识的错误主张)和非事实性幻觉(输入上下文的误述)[Hao et al., 2024; Yang et al., 2024]。
致Great
2025/07/12
1790
大型语言模型幻觉检测相关综述
LLM 的幻觉到底是什么,有什么办法解决?
LLM 时常会出现一些神奇的现象—— 幻觉 Hallucination ,在 AI 领域,幻觉是指模型生成的信息可能 不真实 或 不准确 ,这是一个常见的问题,而 Truthfulness 指的是模型输出的 真实性 或者叫 可靠性 ,显然如果模型输出的真实性越高,那么出现幻觉的概率就是越低的。
NewBeeNLP
2024/02/28
1.7K0
LLM 的幻觉到底是什么,有什么办法解决?
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。
机器之心
2024/04/12
1660
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
​解密Prompt系列22. LLM Agent之RAG的反思:放弃了压缩还是智能么?
已经唠了三章的RAG,是时候回头反思一下,当前的RAG是解决幻觉的终点么?我给不出直接的答案,不过感觉当前把RAG当作传统搜索框架在大模型时代下的改良,这个思路的天花板高度有限~
风雨中的小七
2023/12/28
2.4K0
​解密Prompt系列22. LLM Agent之RAG的反思:放弃了压缩还是智能么?
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
9830
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
关于深度学习你必须知道的几个信息理论概念
信息论是一个重要的领域,它对深度学习和人工智能作出了重大贡献,但很多人对它却并不了解。信息论可以看作是微积分、概率论和统计学这些深度学习基本组成部分的复杂融合。人工智能中的很多概念来自信息论或相关领域:
AI研习社
2019/07/04
4490
Science重磅:无需标注数据,DeepMind新研究让机器“脑补”立体世界!
大数据文摘编辑组出品 DeepMind又来搞事情了!而且这次的事情还搞上了Science杂志。 今天,Science杂志公开发表了一篇DeepMind的论文《神经场景表示和渲染(Neural scene representation and rendering)》。包括DeepMind老板Demis Hassabis在内,这篇论文共有22名作者。这也是DeepMind的新研究首次在Science杂志发布。 如此庞大的作者军团,po出的论文成果也非常有趣且重磅,具体来说就是,通过少量二维的局部图片,想象整个三
大数据文摘
2018/06/29
5560
大模型就是「造梦机」,Karpathy一语惊人!人类才是「幻觉问题」根本原因
然而,OpenAI科学家Andrej Karpathy今早关于大模型幻觉的解释,观点惊人,掀起非常激烈的讨论。
新智元
2023/12/12
1840
大模型就是「造梦机」,Karpathy一语惊人!人类才是「幻觉问题」根本原因
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。
新智元
2024/01/23
4290
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
比人类便宜20倍!谷歌DeepMind推出「超人」AI系统
一直以来,大语言模型胡说八道(幻觉)的问题最让人头疼,而近日,来自谷歌DeepMind的一项研究引发网友热议:
新智元
2024/04/12
1680
比人类便宜20倍!谷歌DeepMind推出「超人」AI系统
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
2024年7月7号,OpenAI安全团队负责人,Lilian Weng分享了一篇博客介绍了LLM中幻觉的由来、检测和对抗策略,分享给大家,以下为翻译全文。
AgenticAI
2025/03/18
2020
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
面向大语言模型幻觉的关键数据集:系统性综述与分类法
大语言模型(Large Language Models, LLMs)在自然语言处理的多个领域取得了革命性进展,但其固有的“幻觉”问题——即生成看似合理但与事实不符或与上下文无关的内容——严重制约了其在关键应用中的可靠性与安全性。为了系统性地评估、理解并缓解LLM的幻觉现象,学术界和工业界开发了大量多样化的数据集与基准。本文对大模型幻觉领域的关键数据集进行了首次全面的系统性综述。我们收集并分析了涵盖22篇核心研究的95个相关数据集,并基于其评估目标、任务类型和数据特征,提出了一套层次化的数据集分类法。该分类法将现有数据集划分为四大核心类别:事实核查数据集(Fact Verification Datasets)、问答数据集(Question Answering Datasets)、多模态幻觉检测数据集(Multimodal Hallucination Detection Datasets)以及专用幻觉基准(Specialized Hallucination Benchmarks)。在此分类框架下,我们深入探讨了每个类别的设计理念、技术趋势、代表性工作及其核心挑战。我们的分析揭示了当前研究的重点,例如从简单的真假判断发展到对复杂推理、特定领域知识、意图偏离和多模态一致性的精细化评估。同时,本文也指出了当前数据集存在的普遍挑战,包括标注成本高昂、难以覆盖多样的幻觉类型、以及在动态和交互式场景中评估的复杂性。最后,我们展望了未来的发展方向,强调了构建更具挑战性、交互性和动态性的基准,以及发展自动化、可扩展的数据集构建方法的重要性,旨在为构建更可信、更可靠的大语言模型提供数据层面的支撑。
致Great
2025/07/12
2800
LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术
前段时间,谷歌DeepMind提出了一种全新的「Step-Back Prompting」方法,直接让prompt技术变得脑洞大开。
新智元
2023/12/01
3740
LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法
这些类似阿西莫夫机器人三定律的句子来自谷歌 DeepMind 最近的一项大规模研究。准确地讲,它们是 LLM 根据《机器人总动员》、《终结者》、《2001:太空漫游》和《超级智能》等总结得出的。
机器之心
2025/03/24
1400
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法
大模型训练全解析:预训练、微调、强化学习,一步到位!
2025年初,随着DeepSeek的迅速走红,公众对LLM(大语言模型)的兴趣急剧上升。许多人被LLM展现出的近乎魔法的能力所吸引。然而,这些看似神奇的模型背后究竟隐藏着什么秘密?接下来,我们将深入探讨LLM的构建、训练和微调过程,揭示它们如何从基础模型演变为我们今天所使用的强大AI系统。
福大大架构师每日一题
2025/03/18
9180
大模型训练全解析:预训练、微调、强化学习,一步到位!
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
视觉语言模型(LVLMs)已经成为人工智能领域不可或缺的里程碑。这些由LVLMs模型自动生成的具有上下文相关性的文本描述可以广泛应用于各个领域,如图1所示,如医疗健康,自主系统机器人等。
AIGC 先锋科技
2024/09/25
2250
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1560
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
一个通用的自适应prompt方法,突破了零样本学习的瓶颈
今天要给大家介绍一篇Google的研究,解决了大语言模型(LLMs)在零样本学习方面的困境。相比于少样本学习,LLMs在零样本学习上常常表现得比较弱,这主要是因为缺乏指导。而且,目前的研究对零样本学习的改进也不多,因为在没有真实标签的任务中设计prompt方法还比较困难。
zenRRan
2023/08/22
8860
一个通用的自适应prompt方法,突破了零样本学习的瓶颈
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
最近,来自CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者又有了令人震惊的发现——
新智元
2023/10/08
3350
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
如果图灵是 AI 之父,那么香农应该是 AI 舅老爷?
标题有些危言耸听,前几天我们也写过图灵的八卦了,他被业界奉为「人工智能之父」毋庸置疑。
HyperAI超神经
2019/12/01
1.2K0
如果图灵是 AI 之父,那么香农应该是 AI 舅老爷?
推荐阅读
大型语言模型幻觉检测相关综述
1790
LLM 的幻觉到底是什么,有什么办法解决?
1.7K0
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
1660
​解密Prompt系列22. LLM Agent之RAG的反思:放弃了压缩还是智能么?
2.4K0
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
9830
关于深度学习你必须知道的几个信息理论概念
4490
Science重磅:无需标注数据,DeepMind新研究让机器“脑补”立体世界!
5560
大模型就是「造梦机」,Karpathy一语惊人!人类才是「幻觉问题」根本原因
1840
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
4290
比人类便宜20倍!谷歌DeepMind推出「超人」AI系统
1680
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
2020
面向大语言模型幻觉的关键数据集:系统性综述与分类法
2800
LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术
3740
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法
1400
大模型训练全解析:预训练、微调、强化学习,一步到位!
9180
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
2250
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
1560
一个通用的自适应prompt方法,突破了零样本学习的瓶颈
8860
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
3350
如果图灵是 AI 之父,那么香农应该是 AI 舅老爷?
1.2K0
相关推荐
大型语言模型幻觉检测相关综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档