首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >多模态大语言模型:推理链扩展催生幻觉,RH-AUC与 RH -Bench评估推理感知平衡 !

多模态大语言模型:推理链扩展催生幻觉,RH-AUC与 RH -Bench评估推理感知平衡 !

作者头像
未来先知
发布2025-07-09 14:42:05
发布2025-07-09 14:42:05
3100
举报
文章被收录于专栏:未来先知未来先知

未来先知

分享最新的科技知识

84篇原创内容

公众号

图片
图片

推理时计算使多模态大语言模型能够生成扩展的推理链,在多模态数学推理等任务上取得了优异的性能。然而,作者观察到这种提升的推理能力往往伴随着幻觉的增加:随着生成内容的变长,模型倾向于偏离基于图像的内容,更多地依赖语言先验。 注意力分析揭示,更长的推理链会减少对视觉输入的关注,从而助长幻觉。 为了系统地研究这一现象,作者引入了RH-AUC,一个量化模型感知准确度如何随推理长度变化的指标,能够评估模型在推理过程中是否保持视觉基础。作者还发布了RH-Bench,一个涵盖多样化多模态任务的诊断基准,旨在联合评估推理能力和幻觉的平衡性。 作者发现: (i) 更大的模型通常在推理和感知之间表现出更好的平衡; (ii) 推理和感知的平衡性更多地取决于训练数据的类型和领域,而非其数量。 作者的研究结果强调了需要评估框架来同时考虑推理质量和感知可靠性。

1 引言

大型推理模型通过扩展推理时的计算量来提升复杂推理能力。这些模型[6, 7, 26, 2]会生成更长的输出,并在生成最终答案前进行更深入的推理,从而为复杂的数学和科学问题提供更全面的解决方案。这一范式已被扩展到多模态大语言模型:非推理基础模型通过监督微调(SFT)或强化学习(RL)微调,获得强大的推理能力[29, 49, 8, 42, 47],在多模态推理任务中展现出卓越的能力,特别是在数学问题求解等领域。

目前关于多模态推理模型的大多数研究都集中在提升推理性能上,而对感知导向任务的关注有限。如图1a所示,尽管推理模型在视觉问答中生成了一个扩展的推理链,但其答案主要是由语言先验驱动而非视觉证据,导致产生幻觉。作者的实证研究揭示了一个一致且显著的发现:虽然推理模型能够生成更详细的推理链,但在感知导向任务中,它们比非推理模型引入了更多的幻觉,如图1b所示。

图片
图片

通过注意力分析,作者研究了多模态推理模型中视觉 Token 注意力下降的问题,这一问题加剧了视觉幻觉。与非推理模型相比,推理模型对视觉 Token 分配的注意力显著减少,而对指令 Token 的注意力则有所增加。这种偏差增加了对语言先验的依赖,并放大了幻觉风险。此外,推理链的扩展进一步削弱了视觉注意力分配,导致幻觉增加,因为模型越来越依赖基于语言的推理而非视觉证据。

基于这些发现,作者进一步研究了推理链长度对模型推理和幻觉的影响。结果表明,推理链长度对推理-幻觉的影响呈现非单调关系。此外,不同任务的最佳推理范围存在差异,而传统的评估指标,如准确性和幻觉率,不足以捕捉推理与视觉基础之间的动态平衡。

为解决这一问题,作者提出了RH-AUC,一种用于评估多模态推理模型中推理与幻觉平衡的新指标。该指标通过计算不同推理长度下推理性能与幻觉性能所形成的曲线下面积来计算,数值越高表示平衡性越好。与此同时,作者发布了RH-Bench,一个包含1000个样本的诊断基准,涵盖多种推理与感知任务,每个任务均包含选择题和开放式问题。通过RH-Bench的评估,作者观察到三个关键发现:

(i) 更大的模型通常表现出更好的推理与幻觉平衡性。

(ii) 仅RL训练的模型促进了更具适应性的推理,相较于,其推理与幻觉平衡性更优。

(iii) 推理-幻觉平衡性受训练数据类型和领域的影响大于其数量。总而言之,作者的贡献如下:

作者观察到,在感知任务中,多模态推理模型比非推理模型更容易产生幻觉,这可以归因于视觉注意力分配的下降。更长的推理链进一步削弱了视觉注意力。

作者发现,推理链长度与模型的推理和感知性能之间的关系是非单调的,最佳长度因任务而异。作者引入了新的RH-AUC指标和RH-Bench诊断数据集,以系统性地评估多模态推理模型在不同推理长度下推理与幻觉之间的平衡。

2 多模态推理可能放大视觉幻觉

在本节中,作者首先探究多模态推理模型是否在感知导向任务中引入更多幻觉。具体而言,作者比较了8个最近的多模态推理模型与其 Backbone 非推理型对应模型在多个幻觉基准上的表现,包括MMVP [35]、MMEval-Pro [11]、VMCBench [54]、Bingo [5]、MMHAL [32]。

2.1 与基础模型相比幻觉持续增加

为系统性地评估多模态推理对视觉基础的影响,作者评估了八种推理增强模型与其非推理Qwen2.5-VL主干模型在五个幻觉数据集上的表现。如图2所示,所有推理模型都比其 Baseline 模型追踪到明显更小的雷达区域,这表明在感知聚焦任务上,它们的幻觉率普遍更高。这种缺陷在3B和7B规模下都保持一致,证明更高的幻觉率源于推理范式本身,而非模型规模。

图片
图片

2.2 训练范式是否重要?RL与的比较

当前多模态推理模型通常采用两种训练机制之一:(1)纯强化学习(RL-only)或(2)监督微调后进行强化学习(SFT+RL)。图3展示了在四个感知基准测试中的一致性能层级:Qwen2.5-VL Baseline 模型取得了最高分,其次是RL-only微调,而SFT+RL流程表现最差。这一模式突显了 Baseline 模型在视觉定位方面的鲁棒性,表明后续的强化学习或混合微调会削弱这种鲁棒性,而先监督后强化的策略导致了最显著的性能退化。

图片
图片

2.3 推理模型中幻觉的案例研究

要点1:推理模型放大视觉幻觉

在多种训练范式和模型规模下,多模态推理模型在通用视觉基准测试中表现出准确率持续下降和幻觉率持续上升的现象。

3 为什么推理模型会放大幻觉?

推理模型通过多种机制放大幻觉现象,这些机制涉及模型的结构、训练过程以及推理过程本身。首先,推理模型通常依赖于大规模的预训练语料库,这些语料库中可能包含不准确或矛盾的信息。当模型在推理过程中遇到这些信息时,它可能会生成与事实不符的输出,从而产生幻觉。

其次,推理模型在生成输出时,往往会考虑多种可能的解释,并选择最符合给定输入的解释。然而,这种选择过程可能受到模型内部参数的影响,导致模型在某些情况下倾向于生成不准确的解释。例如,模型可能过度依赖某些特定的词或短语,而这些词或短语在预训练语料库中出现的频率较高,但并不一定准确。

此外,推理模型在推理过程中可能会遇到信息缺失或模糊的情况。在这种情况下,模型可能会尝试填充这些空白,但填充的内容可能与事实不符。这种现象在处理复杂或抽象问题时尤为明显,因为这些问题往往需要模型进行大量的推理和推理。

最后,推理模型的推理过程可能受到其内部参数的限制,导致模型在某些情况下无法生成准确的输出。例如,模型可能无法处理某些复杂的逻辑关系,或者无法理解某些抽象概念。这些问题可能导致模型生成与事实不符的输出,从而产生幻觉。

综上所述,推理模型通过依赖不准确或矛盾的信息、过度依赖某些特定的词或短语、尝试填充信息缺失或模糊的情况以及受到内部参数的限制等多种机制放大幻觉现象。这些机制使得推理模型在生成输出时可能产生不准确的解释,从而影响其应用效果。

许多先前研究已探究了注意力机制在幻觉中的作用,识别出注意力分配不足可能是导致幻觉的一个潜在关键因素[12, 13, 46]。在本节中,作者进行基于注意力的分析,以探究多模态推理模型中幻觉放大的潜在原因。3.1节表明,幻觉可能源于分配给视觉输入的注意力有限,而3.2节则显示,更长的推理链进一步削弱了模型的视觉关注。

3.1 由弱视觉注意力引起的幻觉结果

作者对推理模型和非推理模型在所有层面对视觉、指令和系统 Token 的注意力分布进行了比较分析。如图5a所示,推理模型始终对视觉 Token 分配较低的注意力,并且在更深层次上观察到进一步下降,这表明其整合视觉证据的能力有限。与此同时,更多的注意力被转移到指令 Token 上,反映了对其语言先验的高度依赖。相比之下,非推理模型在从浅层到中间层始终维持相对较高且稳定的视觉注意力水平。图5b中的视觉注意力热力图进一步支持了这一观察:非推理模型逐渐关注语义显著的区域,而推理模型则表现出Sparse和分散的注意力,未能持续关注关键视觉区域。这种现象表明视觉注意力的减弱削弱了推理模型实现有效视觉定位的能力,加剧了幻觉的发生。

图片
图片

3.2 视觉注意力随推理链的变长而下降

如图6所示,作者可视化了推理模型在两种推理模式下的注意力分布:正常思考和过度思考。随着推理链长度的增加,热力图清晰地揭示了模型注意力焦点的系统性变化:在过度思考模式下,对视觉 Token 的注意力显著降低,而对指令 Token 的注意力则增强。这种模式表明,更长的推理链导致模型越来越依赖语言线索而非基于视觉的证据。例如,当被问及是否存在灰色壁时,正常思考模式下的模型正确识别了灰色井并给出了正确回答。相比之下,在过度思考条件下,模型对视觉 Token 的注意力进一步降低,而将更多关注点投向用户指令的末尾。这表明,更长的推理链往往会进一步加剧模型视觉基础能力的退化,可能导致幻觉增加。

图片
图片

4 推理长度对推理-幻觉平衡的影响

在本节中,作者探讨了推理长度对幻觉与推理平衡的影响。4.1节概述了所提出的控制策略:潜在状态引导,以及文献中先前使用的技术[25]:预算强制和测试时尺度调整。在4.2节中,作者探索了不同基准的最佳生成长度,并分析了随着推理长度的变化,幻觉与推理性能之间的权衡。

4.1 推理长度控制策略概述

为了系统地控制推理模型中的推理长度,作者采用三种策略:

(1)  Token 预算强制:通过在解码时预设生成预算,对推理长度施加硬性约束,直接限制分配给推理的 Token 数量。

(2) 推理时尺度调整:推理过程中通过分阶段生成逐步扩展推理。模型首先在4096个token的限制下生成部分推理,并在中途停止。随后通过附加一个简单token("Wait")来 Prompt 模型继续,从而在保持上下文连贯性的同时实现推理的软扩展。

(3) 隐状态引导:受近期关于大语言模型行为控制中隐空间引导的研究启发[18, 17, 1, 23],作者提出一种引导模型生成不同长度推理轨迹的方法。具体而言,作者通过计算长推理轨迹与短推理轨迹之间的隐状态差异,从注意力后隐藏状态中提取引导方向。这些方向向量被应用于文本解码器的所有层,并通过缩放因子控制推理长度的引导幅度。具体操作如下:作者从测试基准中收集响应,并根据token长度将其分类为长推理轨迹和短推理轨迹。每个样本的 Query 和推理步骤被输入模型,并在每一层提取隐藏表示。表示 Query 的响应中位置在层处的隐藏表示。作者计算推理token上的平均隐藏表示,其中表示推理跨度内的token位置集合。然后对长推理轨迹和短推理轨迹计算平均表示,以获得逐层的嵌入:

层的推理长度方向定义为长嵌入与短嵌入之间的差值,记作,它捕捉了模型表示因推理链长度不同而产生的变化。为了根据此方向调整隐藏表示,作者引入参数,以动态控制推理长度及其幅度。随着的增加,推理链的长度延长,如下所示:

这些策略被应用于五个具有代表性的多模态推理模型,并在涵盖推理和感知任务的六个基准数据集上进行评估。在图7中,作者展示了这两个任务的基准。所有实现细节和结果在附录C中提供。

图片
图片

4.2 推理与幻觉之间的动态平衡

推理长度对推理与感知性能的非单调效应。在推理与感知任务中,推理长度与模型性能之间的关系通常呈现非单调模式。通过多种长度控制策略,可以观察到一种一致的趋势:适中的推理深度往往能获得最佳性能,而过于短暂或过长的推理链通常会导致准确率下降。如图7所示,作者采用潜在状态引导方法调整推理与感知任务的思考步骤。很明显,随着思考长度的增加,模型在各项任务上的性能通常遵循先升后降的轨迹。这表明增强推理并不会线性提升模型性能,而是遵循一种动态权衡模式。

任务特定最优推理区间变异性。虽然大多数任务表现出推理长度与性能之间的非单调关系,但作者进一步观察到最优推理长度在不同任务之间存在显著差异。图7显示,推理基准如MathVista [21]倾向于从较长的推理链中获益,而感知和幻觉导向的任务如MMHalu在较短或适中的长度下达到最佳性能。这表明推理深度与性能之间的平衡是任务特定的,统一的长度控制策略不太可能对所有任务类型都有效。

零思考条件的影响。零思考保留了推理结构但缺乏实质性内容。如图7所示,这种设置导致模型在推理和感知基准上的性能持续下降,显著低于正常推理长度下的结果。这些结果表明,推理内容的缺失降低了推理模型在感知和推理方面的性能。

传统度量指标的局限性。在固定生成长度下计算的推理准确率和幻觉率等传统度量指标,无法捕捉深度推理与感知之间的动态平衡。图7显示推理和感知往往在不同的推理长度上达到峰值,使用单点指标或推理与幻觉性能的简单平均值来评估模型具有误导性。例如,较短的推理轨迹可能产生较低的幻觉率,但推理深度较差;而较长的轨迹可能以增加幻觉为代价来提升推理能力,但两种情况下平均得分可能相同。

为捕捉这种不断变化的平衡,在下一节中,作者提出了一种AUC风格的指标,用于总结推理长度不同时推理与感知保真度之间的平衡曲线。这提供了一种更忠实且全面的性能衡量方法,揭示了模型的最佳平衡点及其在不同生成长度下的稳定性。

要点2:适度的推理长度实现了推理与幻觉的最佳平衡推理长度对模型性能具有非单调效应:推理不足和推理过度都会降低准确性,而最佳长度取决于任务。

5 推理-幻觉平衡评估

为全面量化多模态大推理模型在不同推理深度下推理与幻觉之间的平衡,作者引入了一种新的指标 。该指标捕捉了幻觉风险随推理深度变化的情况,同时也反映了推理和感知的累积效应。此外,作者提出了 RH-Bench,一个包含1000个样本的新诊断数据集,专为推理和感知任务的集成评估设计,为分析推理能力和感知幻觉提供了坚实的基础。

5.1 设置

基准概述。RH-Bench包含两种类型的任务:推理和感知,每种任务包含两种类型的问题:选择题和开放式问题。推理任务包含500个样本,来源于MathVision [37]、MathVista [21]、MMMU [48]和ScienceQA [22],而视觉推理任务包含500个样本,来源于MMhalu、MMVP、HallusionBench和VMCBench。两种任务类型均使用准确率作为评估指标。对于选择题,评估基于最终选项的匹配。对于开放式问题,两种任务均使用GPT-4o进行评估。推理任务判定生成响应是否与正确答案一致,而视觉任务则根据生成响应与正确答案的匹配程度进行评分,评分范围为0到6。评分低于3的响应被归类为幻觉。所有样本的ground-truth答案和评估答案均经过人工审核。

RH-AUC 作者将推理长度定义为 ,它控制了模型生成推理轨迹的范围。对于每个长度 ,作者计算 ,它表示长度  时的推理性能,以及 ,它表示相同长度下的幻觉性能。

通过在RH-bench基准测试上以多种长度评估模型,作者获得了一系列对,这些对构成了推理与感知幻觉之间的平衡曲线。为了计算该曲线下的面积,作者首先按照推理性能的升序对配对进行排序。将排序后的索引记为,使得。为确保模型间的可比性,和均通过最小-最大归一化到区间。然后使用梯形规则计算RH-AUC,公式如下:

其中  是评估推理长度的数量。更高的  指示一个在不同推理长度上更好地平衡推理和幻觉的模型。

5.2 结果诊断

作者基于RH-Bench诊断数据集的评估结果,对模型性能进行了深入分析,研究了模型规模、训练范式和训练数据集这三个关键因素对推理-幻觉平衡的影响。

模型扩展。如表1所示,7B模型在RH-Bench上通常优于3B模型,表现出更高的RH-AUC,这主要归因于其更大的参数规模和更强的表征能力。如图8a所示,较大模型保持了更高的稳定性,尤其是在较长的推理链中,而较小模型则表现出明显的性能下降。这表明较大模型通常具有更好的鲁棒性和适应性。

图片
图片
图片
图片

训练范式。对比两阶段SFT  RL训练模型与仅RL训练模型的研究表明,RL在推理与感知之间展现出更强的平衡性。例如,在图8c中,尽管OpenVLThinker模型维持了更长的推理链,但冗余推理的引入干扰了视觉感知,导致错误推理鞋子已被系紧。相比之下,仅RL训练的模型Ocean-R1使用较短的推理链,使其能更高效地捕捉关键视觉特征并避免不必要的复杂推理步骤。这一优势在不同推理长度下尤为明显,如图8b所示的平均RH-AUC,仅RL训练模型的值显著高于SFT  RL。这一现象表明,尽管SFT有助于模型学习推理格式,但它可能引入僵化的模仿推理路径,限制模型对动态任务的适应性,最终导致冗余推理。相比之下,RL鼓励模型生成更具适应性的推理行为,增强了推理与感知的整合。

训练数据集。训练数据的多样性和质量在模型的推理和幻觉平衡中起着至关重要的作用。通过对多模型推理模型训练数据的统计分析,并与表1中的结果进行比较,作者观察到一些有趣的现象:(1)更多的视觉感知数据并不一定能够提升推理与感知之间的平衡。增加视觉感知数据的训练样本量可以在一定程度上增强推理模型的平衡性。例如,ThinkLite-VL模型依托大规模视觉感知数据,展现出强大的幻觉与推理平衡。类似地,Ocean-R1模型采用两阶段训练策略,先提升推理能力,再强化视觉感知,在RH-bench上取得了最高的RH-AUC。然而,这种现象并不总是成立。例如,尽管R1-OneVision模型使用了大量的视觉感知数据,但其推理与感知之间的平衡性较弱,这可能是由于其训练范式设计的局限性所致。(2)通过在特定领域数据上进行训练可以实现感知与推理的平衡。在特定领域数据上进行训练有助于提升推理模型的平衡性。例如,MM-Eureka模型在更大的数学数据集上进行训练,显示出更高的RH-AUC,证明了其在平衡推理与感知方面的有效性。类似地,尽管MM-R1模型仅在6k数学数据上进行训练,其在RH-bench上的表现仍然良好。这突显了特定领域数据在激发推理模型平衡能力方面的潜力,即使数据集较小。(3)训练数据集的大小并不总是推理-感知平衡的保证。训练数据集的大小并不总是与模型的平衡能力直接相关。例如,在超过60k视觉感知样本上进行训练的LLM-R1,以及拥有15万样本数据集的R1-OneVision,都表现出不足的推理-幻觉平衡性,其RH-AUC仅为0.46。

6 相关工作

多模态推理任务。多模态推理需要跨模态整合信息以解决复杂问题,通常分为通用推理和领域特定推理。通用推理通常发生在自然图像场景中,模型必须结合视觉感知与知识和常识。代表性基准包括多项选择数据集,如MMMU [48]、MMVP [35]、MMBench [19]、MMStar [3]、MMEval-Pro [11]和VMCBench [54],以及开放式评估,如Bingo [5]、MMHALBench [11]、POPE [15]、CHAIR [28]和HallusionBench [10]。领域特定推理专注于特定领域的技术任务。对于数学推理,基准如MathVista [21]、MATH-Vision [37]、MM-Math [30]和WeMath [27]评估模型在视觉环境下解决数学问题的能力。对于物理推理,数据集PhysBench [4]和CRAVE [31]测试从视觉输入理解物理和常识推理的能力。

强化学习在多模态大模型中的应用。近期方法通过在监督微调或强化学习过程中引入思维链监督来增强多模态大模型的推理能力[55, 51, 41, 34, 43, 45]。RLHF-V[47]、LLaVAReasoner[53]和Insight-V[9]等方法利用大规模思维链风格数据集和偏好优化来提升模型推理能力。继DeepSeek-R1之后,GRPO(引导强化偏好优化)算法已成为训练多模态大推理模型的标准范式[20, 50, 40, 36, 14, 38]。部分模型如R1-OneVision[44]、Reason-RFT[33]和R1-VL[52]采用两阶段流程,而Ocean-R1[16]、ThinkLite-VL[39]和MM-Eureka[24]等模型则直接在大规模应用基于规则的强化学习。

7 结论

总之,本文研究了多模态推理模型中推理与幻觉之间的平衡,重点关注推理链长度和视觉注意力分配如何影响性能。虽然较长的推理链能提升复杂任务的性能,但它们通过削弱视觉注意力并增加对语言先验的依赖而加剧幻觉。

为应对这些挑战,本文提出了指标和RH-Bench基准,它们提供了一种系统的方法来评估推理能力与幻觉风险之间的平衡。研究结果表明,推理增强型模型更容易产生幻觉,这突显了开发评估推理质量与感知准确性的评价框架的重要性。

参考

[1]. More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 引言
  • 2 多模态推理可能放大视觉幻觉
    • 2.1 与基础模型相比幻觉持续增加
    • 2.2 训练范式是否重要?RL与的比较
    • 2.3 推理模型中幻觉的案例研究
  • 3 为什么推理模型会放大幻觉?
    • 3.1 由弱视觉注意力引起的幻觉结果
    • 3.2 视觉注意力随推理链的变长而下降
  • 4 推理长度对推理-幻觉平衡的影响
    • 4.1 推理长度控制策略概述
    • 4.2 推理与幻觉之间的动态平衡
  • 5 推理-幻觉平衡评估
    • 5.1 设置
    • 5.2 结果诊断
  • 6 相关工作
  • 7 结论
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档