前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!

无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!

作者头像
AIGC 先锋科技
发布2024-09-25 15:40:34
950
发布2024-09-25 15:40:34
举报
文章被收录于专栏:AIGC 先锋科技

最近,大型视觉语言模型(LVLMs)在多模态情境理解方面表现出令人印象深刻的能力。然而,它们仍存在与图像内容生成不一致输出(称为错觉)的问题。为了减轻错觉,以前的研究主要关注使用自定义数据集对LVLMs进行再训练。 尽管有效,但它们固有地伴随有额外的计算成本。在本文中,作者提出了一种无需进行训练的框架 MVP,该框架旨在通过充分利用LVLMs的内生能力来减轻错觉,是通过 Multi-Viev Multi-Path Reasoning 的。 具体来说,作者首先设计了一个多视角信息寻求策略,以充分理解图像的综合信息,这丰富了LVLMs原始视觉编码器捕获的一般全局信息。此外,在与答案解码的过程中,作者观察到错觉的发生与答案标记的确信度存在强关联。 因此,作者为每个信息视角提出了多路径推理,以量化并聚合每个潜在答案的确信分数,并最终决定输出答案。在解码过程中全面掌握图像中的信息,并谨慎考虑潜在答案的确信度,作者的 MVP 可以有效地减少 LVLMs 中的错觉。 广泛的实验验证了作者的 MVP 显著减轻了四种知名 LVLMs 中的错觉问题。 源代码可在 https://github.com/GasolSun36/MVP 中找到。

1 Introduction

视觉语言模型(LVLMs)已经成为人工智能领域不可或缺的里程碑。这些由LVLMs模型自动生成的具有上下文相关性的文本描述可以广泛应用于各个领域,如图1所示,如医疗健康,自主系统机器人等。

尽管在技术上取得了显著的进步,但LVLMs仍面临一个重大挑战,被称为“视觉错乱”,即模型产生语义上合理的但事实准确的文本描述,与相关图像的实际情况不符。如图1所示,LVLMs无法识别“书包”并错误地识别图像中的人的数量。在生成的内容精确度和可靠性至高的情况,这种视觉错乱可能引发错误决策的连锁反应。因此,解决视觉错乱问题对于增强LVLMs在实际应用中的可信度至关重要。

为了解决视觉错乱问题,大多数的最新研究通过监督微调(SFT)训练(Chen et al., 2023; Wang et al., 2024; Park et al., 2024; Liu et al., 2023a)和人类反馈强化学习(RLHF)构建视觉错乱相关数据集(Yu et al., 2023; Yan et al., 2024; Sun et al., 2023)来缓解视觉错乱。尽管这些缓解LVLMs视觉错乱的方法已经取得了有效性,但他们需要大量的优质训练数据,同时需要投入大量的时间和人力资源。最近也有研究探索不需要训练的范式来减轻视觉错乱。Yin et al.(2023)从生成的文本中选择和纠正视觉错乱。Zhao et al.(2024)使用无分类器的指导方法将额外的目标定位特征纳入LVLMs的生成,提高生成的准确性。然而,它们大部分都依赖于外部复杂工具,如Grounding DINO Liu et al.(2023c)或BLIP-2-FlanT5X Li et al.(2023a)。

在本研究中,为了减轻级联语言模型的幻觉,作者关注于在不引入额外的训练成本或外部工具的情况下最大限度地发挥级联语言模型的固有能力。为此,作者提出了一种新颖的无训练框架MVP,名为 Multi-View Multi-Path Reasoning。与先前的作品不同,作者的MVP是建立在对导致幻觉的关键因素进行分析的基础之上,这些因素包括LVLMs在理解图像内容和在原LVLMs中译码答案标记时的不确定性和低确定性。

首先,如果级联语言模型的视觉编码器不能完全捕捉到输入图像中的信息,那么语言模型可能会基于这个不完整的信息生成输出,从而导致幻觉式的描述。其次,在答案译码过程中,当答案标记的不确定性低时,幻觉发生得更频繁。在这种情况下,该模型对多个候选标记不确定,可能导致不准确的输出。

因此,作者提出的MVP建议在译码过程中完全捕捉图像中的信息,并仔细考虑潜在答案的不确定性。具体而言,作者首先设计了一种多视图信息搜索策略,该策略涉及从各个不同维度对图像进行完全感知:一个"自上而下"的视角捕获概述场景上下文,一个"常规"视图解决基本视觉信息,而一个"自下而上"的视角则会聚焦于微妙的细节。而非依赖工具,这些多维度的捕获信息是由LVLMs生成的,这样有效地强化了由原始LVLMs的视觉编码器捕获的全球图像上下文,从而减少了由于误读图像信息而产生的幻觉。此外,在答案译码阶段,作者进一步引入多路径推理对每个信息视图,通过明确量化潜在答案的不确定性分数,然后将多个路径的整体确定性进行汇总。接着,选择最高的确定性分数的答案作为最终答案,从而有效地减小由于不确定性低导致的幻觉。

为了证明MVP的有效性,作者对四种广泛使用的级联语言模型进行了实验。结果令人鼓舞地表明,作者的框架在大幅度超越最近的训练无方法。

总之,作者的贡献可以总结如下:

作者提出一个无需训练的框架,利用多视角多路径推理来缓解幻觉。作者的框架专注于在不引入额外训练成本或外部工具的情况下,充分利用无监督学习模型的内在能力。

为了全面把握图像,作者将信息来源拓展到多视角,包括“自下而上”视角、“常规”视角和“自上而下”视角。在解码过程中,作者引入多路径推理,对每个潜在答案的确定性进行量化和比较。

通过大量实验,作者展示了作者的 MVP 在缓解四种无监督学习模型的幻觉方面的优越性能。此外,作者的框架可以无缝地与其他解码方法集成,以进一步提高性能。

2 Method

Overall of the MVP Framework

如图2所示,鉴于错觉通常是由于对图像内容的不完全理解而产生,作者提出通过三个不同的视角寻找输入图像的互补信息。然后,获取的信息被用来增强视觉编码器输出的全局视觉信息,以便LLM进行推理。对于每个视角,考虑不同的解码路径具有不同的潜在答案的概率,作者引入了确信驱动的多路径推理,该推理对多个解码路径中的每个潜在答案的确定性得分进行量化和汇总。在此阶段,作者最大限度地发挥了模型的内在推理能力。最后,通过多视图信息和解信驱动多路径推理,作者实现了减轻错觉的优越性能。

LVLMs Input and Decoding

输入LVLMs的处理包含图像和文本。首先,图像被视觉编码器(例如CLIP(Radford等人,2021),BLIP(李等人,2022))处理,以获取视觉标记。然后,图像标记被映射到LVLMs的输入空间,用于解码。作者将视觉标记表示为,其中是视觉标记的长度。相应地,输入 Query 使用标记分词器进行分词,表示为,其长度为。图像和文本标记被拼接成最终输入序列,长度为。

将输入标记输入到LVLMs后,模型以自回归方式以先前的标记为基础输出答案。

其中作者省略了输入 Query 和从前的-1轮解码标记。标记是前-1轮解码标记,第一个标记在使用输入的情况下解码得到,在公式(1)中。在时间步时,从词汇表中选择概率最高的标记。在解码期间,由于对未与呈现的视觉图像相关联的标记分配概率不合适,出现了 hallucination。

Multi-view Image Information Seeking

先前的 LVLM 研究利用一个 CLIP 来提供全局图像表示,有可能忽视复杂的目标特定细节和背景成分,从而导致因对输入图像的局部把握不准确而引发的错觉(Zhang 等人,2024)。例如,当 Query 视频编码器未捕获的详细信息时,LVLMs 倾向于产生虚假信息。因此,在回应输入 Query 之前,掌握关于图像的综合信息至关重要。自然地,图像中存在丰富的视觉信息,可以通过各种方法获取,例如调用外部视觉检测工具(Liu 等人,2023;He 等人,2017)。

在本论文中,作者充分利用 LVLMs 的天生能力,并设计了三个视角来提取综合信息:“自下而上”、“正规”和“自上而下”。为此,作者使用给出的 LVLM 通过设计专门提示来生成标题,从而省去了外部工具或特定网络设计的需求。例如,从自上而下的角度来看,作者使用以下提示:“_根据图中所示的整体场景,并结合上下文、环境因素和任何相关的视觉线索,详细描述此图像._”(请参见第4.3节获取更多提示)。为了展示多视角信息寻求策略的有效性,作者对多视角标题的视觉丰富度进行了统计分析。如图3所示,仅使用正规视角标题,LaVA-1.5 模型平均可识别每个图像的16.43 个目标,而当采用三个视角时,平均可识别到36.66个目标。从特定视角生成的标题可以标记为,其中为长度,自下而上,自上而下,正规。随后,标题与输入一起整合到 LLM 解码中:

Multi-path Certainty-driven Reasoning

解码策略在指导LVLMs产生文本答案方面非常重要。之前的解码策略通常认为每个输出标记具有相同的置信度,因此忽略了答案标记的独特重要性。然而,作者观察到在不同的解码路径中,答案标记具有不同的置信度。如图2所示,对于问题"How many cars are in this image","Bottom-up"和"Regular"视角的第一解码路径产生不同答案"four"和"three",但它们的置信度显著不同(分别为0.65和0.03)。这种现象表明,当答案标记的置信度较低时,幻觉现象更频繁出现,这激发了以置信度驱动推理来缓解幻觉的理念。

2.4.1 Multi-Path Certainty-driven Reasoning

为了说明确定性推理(certainty-driven reasoning),作者首先考虑一个基本的情境,即只有一个贪心翻译路径存在。如图5所示,针对输入 Query ,作者发现LVLMs在低确定性分值时容易产生错觉,即贪心翻译错误地将瓶子当成了杯子,输出了错误答案:“这张图片里有一个杯子”,而答案标记“Yes”的确信度分数仅为0.02。进一步调查时,在第一个词翻译过程中,除了“Yes”,还有许多其他候选词(如“Based”、“The”),这些词以下划线显示在图5中,并且按概率从高到低排序。本可以将多条解码路径引入到复杂的构建方法中,但作者更倾向于从相对较小的概率标记开始观察更多的top-路径,即从第二个词“Based”,第三个词“The”,依次类推。

图4:确定性多路径推理的示例。正确答案为“No”。"Score"表示答案标记的确信度分数。 "Yes","Based","The"是首选的解码标记。使用这些候选标记进行的贪心解码路径。

因此,作者引入了一种多路径推理,这种推理明确考虑了答案标记的确信度。具体来说,构建多条路径时,作者考虑了第一个标记翻译过程中的top-候选词,然后根据每个候选词继续解码,生成具有不同答案的条路径。形式上,每个路径对应一个答案。在这里,答案可以通过问题类型或指定的提示格式进行识别。例如,作者可以在输出中寻找数字来回答图2中的问题,或者在图5中识别“是”或“否”。

3 Experiment

Evaluation Benchmarks

参考前人研究工作(Leng等人,2023; 黄等人,2023),作者使用以下两个评估标准:POPE和MME。

POPE :基于调查的物体检测评估(李等人,2023)。在这个评估标准中,LVLMs被 Query 以确定提供的图像中是否存在特定物体。它包含三个不同的设置:随机、热门和对抗,在这三种设置中,负样本的构建方式各异。POPE评估标准聚合了来自三个不同来源的数据:MSCOCO(林等人,2014年)、A-OKVQA(施文克等人,2022年)和GQA(哈德森和曼宁,2019年)。每个采样设置涵盖了每个数据集的500张图像。评估采用四个关键指标:准确性、精确度、召回率和F1。

MME(付等人,2024)作为评估LVLMs在多个维度上的工具。它由十个感知相关子任务和四个认知相关子任务组成。实验中,作者评估整个数据集。此外,作者考虑了目标 Level 的幻觉及子集存在和计数,以进行属性 Level 的幻觉评估。将准确度和准确度+的组合指标作为官方实现方法来量化性能。

Evaluation LVLM and Baselines

LVLMs. 为了全面评估作者的模型,并在以前的工作中进行公平的比较,作者在四种最先进的状态与性能的 LVLMs 上进行实验,包括 LLaVA1.5,Qwen-VL,InstructBLIP 和 mPLUG-Owl2。这四种 LVLMs 都是基于 7B LLM 骨架模型构建的。

Baseline. 为了验证作者框架的有效性,作者将 MVP 与原始的 LVLMs 以及两种最近的无培训方法进行比较,包括 VCD 和 OPERA。在作者的主要实验中,为了进行公平的比较,原始、VCD 和作者的 MVP 都采用直接采样的解码策略。此外,OPERA 在 beam-search 解码期间对模型拟合进行了惩罚,以减轻过拟合问题。

Experiment Results

POPE结果。表1总结了在POPE基准测试的MSCOCO部分中的实验结果,包括随机、流行和对抗设置下的实验。附录中给出了A-OKVQA和GQA的结果。具体而言,在不同的设置下,作者的方法在所有LVLMs上显著超过了基础模型的性能。例如,使用LaVA1.5,MVP在随机、流行和对抗设置上的平均改进分别为Accuracy的15.9和F1分数的21.84。对于LaVA1.5,Qwen-VL和InstructBLIP,F1分数的改进主要归因于召回率的增加,而在mPLUG-Owl2中,改进源于精度和召回率的同时提高。此外,与VCD和OPERA相比,作者的方法在大多数情况下仍实现了更好的结果。这些结果展示了作者方法的有效性和鲁棒性。

3.4.1 Effectiveness of Multi-view Caption

表3从不同的角度呈现了性能。第一行展示不使用任何额外标注信息时的性能,而第2-4行分别使用单一视角。随着视角的增加,性能提升更明显。这些结果证实了多视角信息可以提供更全面的图像理解,从而减轻LVLMs中的假象。

3.4.2 标注的转移性。

直观上,标注的质量直接影响模型性能。因此,在本研究中,作者探索了标注的转移性。具体而言,作者使用了一个更强大的开源模型LLaVA1.6(刘等人,2024b)为POPE MSCOCO随机部分的图像生成三个视角的标注,并使用这些标注来训练作者的模型。如表4所示,使用更好的标注,作者的方法在四个LVLMs上都取得了进一步和稳定的改进。这个结果也证实了多视角信息对于减轻LVLMs中的假象具有重要意义,同时也证实了作者的方法的可插拔灵活性。

3.4.3 Multi-path Reasoning

在本ablation研究中,作者只采用了POPE MSCOCO验证集的常规视角。作者在图6所示的随机和对抗部分进行实验。

首先,作者在方程5的Top-上进行实验。当K从1增加到5时,可以在K等于3时观察到性能的峰值。当K变得更大时,性能没有提高。这是由于从概率极小的第一个标记开始的解码路径无法提供任何有益信息。

其次,作者探索了一种新的聚合策略MVP-Max。在方程5中,而不是累积所有路径的确信度得分,作者选择了所有路径中具有最大确信度得分的潜在答案作为最终答案。可以看到,在采用MVP-Max后,模型最终的性能显著降低。这证明了作者的聚合策略的有效性。

最后,作者探索了移除方程5中的,作者发现仅仅依靠标记的确信度会损害作者模型的稳定性和有效性。

Decoding Strategy

在本节中,作者分析了不同的解码策略对作者方法的影响。具体来说,作者研究了五种解码方法。值得注意的是,在主实验中,作者使用了核采样方法,以与最近的方法进行公平比较。作者的 MVP 可以在培训免费的解码方法(如 VCD 和 OPEARA)上进一步提高性能,如下表5所示。作者可以观察到,使用束搜索作为解码策略在随机设置上具有最高的准确率,而 OPEARA 在对抗部分实现了最高的准确率。这些结果也暗示了作者的方法是一种创新的可插可拔方法,可以灵活地与其他技术集成。

4 Conclusion

在本文中,作者提出了一种新颖的训练无框架MVP,通过多视图多路径推理充分利用LVLMs的固有能力来减少错觉。

具体来说,作者设计了一种多视图信息搜索策略来感知图像信息的复杂细节,这有助于全面理解图像。

此外,作者还提出多路径推理来对每个潜在答案的确定性得分进行量化并汇总,最后决定输出答案。

借助多视图多路径推理,作者的方法有效减轻了LVLMs中的错觉。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Method
  • Overall of the MVP Framework
  • LVLMs Input and Decoding
  • Multi-view Image Information Seeking
  • Multi-path Certainty-driven Reasoning
  • 2.4.1 Multi-Path Certainty-driven Reasoning
  • Evaluation Benchmarks
  • Evaluation LVLM and Baselines
  • Experiment Results
  • 3.4.1 Effectiveness of Multi-view Caption
    • 3.4.2 标注的转移性。
    • 3.4.3 Multi-path Reasoning
    • Decoding Strategy
    • 4 Conclusion
    相关产品与服务
    检测工具
    域名服务检测工具(Detection Tools)提供了全面的智能化域名诊断,包括Whois、DNS生效等特性检测,同时提供SSL证书相关特性检测,保障您的域名和网站健康。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档