Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶

作者头像
机器之心
发布于 2025-06-16 03:17:43
发布于 2025-06-16 03:17:43
2780
举报
文章被收录于专栏:机器之心机器之心

本文第一作者为中国科学院大学的博士生陈若愚,主要研究可解释 AI 以及在训练推理中的落地应用。第二作者为新加坡国立大学的梁思源,主要研究可信 AI。主要合作者来自华为技术有限公司的刘势明和李茂森。通讯作者为中山大学的操晓春教授和中科院的张华研究员。

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。

目前已有的解释方法,如 Shapley Value、Integrated Gradients、Attention、Gradient(如 Grad-CAM)以及 Perturbation 等,虽然在小规模模型中取得了较好的解释效果,但在面对多模态任务或大规模模型时,均存在不同程度的局限性,难以直接扩展或适用。因此,发展一种在大模型与小模型中均具有良好适应性的高效可解释归因方法具有重要意义

近期,中国科学院、新加坡国立大学、华为技术有限公司与中山大学的联合研究在多模态物体级基础模型的可解释归因技术方面取得了重要突破,不仅能提高人类对模型的可理解性,也能高效解释什么输入因素导致了模型预测错误,以及如何对输入进行屏蔽从而修复模型决策。该成果获得了 CVPR 2025 三位审稿人的一致认可,并获得满分评分,最终被评为 Highlight Paper (387/13008, 2.98%)。

图片
图片
  • 论文标题:Interpreting Object-level Foundation Models via Visual Precision Search
  • arXiv 地址:https://arxiv.org/pdf/2411.16198
  • GitHub 主页:https://github.com/RuoyuChen10/VPS

背景挑战

理解图像中的物体信息,如目标检测,是计算机视觉领域中的一个关键且持续的挑战,具有广泛的应用意义,包括自动驾驶等多个领域。

目前,已有方法用于解释目标检测模型,例如来自 Adobe 公司的基于 Perturbation 机理的 D-RISE 方法,以及来自香港城市大学的基于 Gradient 的 ODAM 方法。它们都适用于传统的单阶段以及双阶段目标检测器决策的解释。

图片
图片

随着多模态预训练技术的发展,物体级基础模型(如 Grounding DINO 和 Florence-2)在视觉定位与目标检测等任务中得到广泛应用。然而,解释此类模型的决策机制变得日益复杂。一方面,模型参数规模不断扩大,另一方面模态数量的增加及其早期融合机制导致模态间交互更加复杂,从而使现有可解释归因方法面临显著挑战:(1)基于梯度的归因方法因视觉与文本的深度融合,难以提供精确的定位信息;(2)基于扰动的方法生成的显著性图中噪声较多,限制了其在细粒度解释任务中的表现。

为应对上述问题,团队提出了一种新的基于搜索的机理——视觉精度搜索(Visual Precision Search,VPS)方法,旨在通过更少的区域生成高精度的归因图。

图片
图片

问题建模

我们的目标是用尽可能少的区域实现更强的解释,因此我们将归因问题建模为基于子模子集选择的搜索问题。具体而言可以将输入稀疏化为有限的子区域集合,并选择其中一个子集,以达到最大化可解释的目的。为了评估子区域的可解释性,定义集合函数

图片
图片

来判断给定区域是否是模型决策的关键因素。因此,目标是:

图片
图片

其中

图片
图片

表示子区域的最大数量。因此,问题的关键在于设计集合函数  并优化公式 1。

方法概览

团队提出了一种用于解释物体级模型的视觉精度搜索方法。首先,需要对输入区域进行稀疏化处理。我们应用 SLICO 超像素分割算法将输入图像划分为 m 个子区域,即

图片
图片

。为了解决式 1 中的一个

图片
图片

- 难问题,团队采用子模优化。接下来设计一个集合函数来评估可解释性分数,并对物体级任务中可解释区域的重要性进行排序。

图片
图片

线索分数:可解释性的一个关键方面是使物体级基础模型能够在使用更少区域的情况下准确定位和识别物体。团队定义了线索分数为:

图片
图片

协作分数:部分区域可能具有显著的组合效应,即仅在与多个特定子区域联合时,才能对模型决策产生有效影响。为识别此类高度依赖交互的关键区域,团队引入了协同分数,用于衡量子区域在决策过程中的协同贡献:

图片
图片

子模方程:上述分数被结合起来构建一个子模函数 ,如下所示:

图片
图片

显著图生成:使用上述子模函数,应用贪心搜索算法对 V 中的所有子区域进行排序,得到一个有序子集 S。此外,对子区域进行评分是必要的,以便更好地解释每个子区域的重要性。团队通过边际效应评估两个子区域之间的显著差异,提出的视觉精度搜索算法的详细计算过程在算法 1 中进行了概述。团队也在论文中对方法的其适用性和理论边界进行了理论分析。

图片
图片

主要实验结果

忠实度分析

团队在多个物体级任务中验证了所提出的方法,使用 Grounding DINO 进行决策解释。表 1 展示了不同数据集上的可解释性结果,显示出本文方法的优越性能。在 MS COCO 的目标检测任务中,团队在 Insertion、Deletion 和平均最高分上分别超越 D-RISE 方法 23.7%、6.7% 和 10.6%。在 RefCOCO 的指代表达理解任务中,分别提升 20.1%、22.1% 和 4.4%。在 LVIS V1 的零样本目标检测任务中,团队在相应指标上分别提升 31.6%、4.2% 和 15.9%,达到了 SOTA 水平,进一步验证了提出方法极强的泛化能力与通用性。

如图 3 所示,ODAM 的显著性图呈现弥散状,D-RISE 的图则较为嘈杂,而本文的方法则清晰地突出显示了重要的子区域,捕捉到边缘和类别特征,增强了解释性。

图片
图片
图片
图片

解释模型错误

在已知正确答案的前提下,本文的方法在解释物体级基础模型产生错误预测的原因方面,展现出其他现有方法所不具备的能力。团队在论文中定量的展示了本文方法大幅度超越基线方法,以下为可视化效果展示。

解释 REC 失败案例:图 5 展示了模型错误的解释,其中青色高亮区域表示由于视觉输入干扰导致的决策错误,这使得基础模型偏离了正确的轨迹。

图片
图片

解释检测中分类错误:目标检测任务中常见错误是准确定位物体但分类错误,图 6 显示了物体周围的背景干扰了模型的决策,热力图中的青色区域突出显示了导致模型误分类的区域。通过改善模型并细化前景与背景之间的上下文关系,可能成为一个有前景的方向。

图片
图片

未检测错误解释:目标检测任务另一个常见的错误是对物体的置信度较低从而导致没有检测到物体。低置信度物体可能由模型的特征表示和干扰性输入因素共同导致。图 7 展示了本文方法对漏检样本的解释,揭示了错误可能源自难以区分相似物体(例如第一行的熊)和环境因素对检测的影响(例如第二行的软木板)。这些洞察揭示了当前模型的局限性,并为改进提供了方向。

图片
图片

小结与展望

团队提出了一种专门针对物体级基础模型的可解释归因方法,称为视觉精确搜索方法(Visual Precision Search),该方法引入了一种新的子模机制,结合了线索得分(clue score)和协作得分(collaboration score)。该方法通过搜索尽可能少的区域,增强了可解释性。通过在 RefCOCO、MS COCO 和 LVIS 上的实验,我们的方法在各种评估指标上提升了 Grounding DINO 和 Florence-2 的物体级任务可解释性,超过了现有的最先进方法。此外,我们的方法有效地解释了视觉定位和物体检测任务中的失败情况。

未来,团队将考虑将该可解释机理应用于实际任务,例如模型训练时提升模型决策的合理性;在模型推理时监控模型决策从而进行安全防护,提高模型的可靠性;或用可解释发现关键缺陷,以最小的代价修复模型

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇
Grounding-DINO 是一种创新的视觉-语言模型,旨在提升视觉推理和对象检测任务的表现。Grounding-DION的独特之处在于其能够“感知”并与语言中的实体或属性对应,从而精确定位图像中的目标,并根据文本描述进行分类和推理。该模型不仅提高了多模态任务的准确性,还在跨模态推理领域展示了卓越的应用潜力,适用于复杂的视觉理解和交互场景。
CoovallyAIHub
2025/01/09
8340
突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造
只需要一个提示,就可以指示模型完成诸如字幕、对象检测、分割等各种各样的CV和CV语言任务。
新智元
2024/06/27
1.5K0
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造
国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)
Visual grounding是一项定位自然语言表达所指示目标的任务。现有的方法将通用目标检测框架扩展到这个问题上。他们将Visual grounding建立在来自预先生成的proposals或anchors,并将这些特征与文本嵌入融合,以定位文本提到的目标。然而,从这些阶段预定义的位置建模视觉特征可能无法充分利用文本查询中的视觉交叉模态文本和属性信息,这限制了解码器的性能。
CV君
2022/09/01
1K0
国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)
决策过程是魔法还是科学?首个多模态大模型的可解释性综述全面深度剖析
本文由香港科技大学(广州)、上海人工智能实验室、中国人民大学及南洋理工大学联合完成。主要作者包括香港科技大学(广州)研究助理党运楷、黄楷宸、霍家灏(共同一作)、博士生严一博、访学博士生黄思睿、上海AI Lab青年研究员刘东瑞等,通讯作者胡旭明为香港科技大学/香港科技大学(广州)助理教授,研究方向为可信大模型、多模态大模型等。
机器之心
2025/02/14
3600
决策过程是魔法还是科学?首个多模态大模型的可解释性综述全面深度剖析
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
在日常生活中,我们常通过语言描述寻找特定物体:“穿蓝衬衫的人”“桌子左边的杯子”。如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑战。现有方法常被两大问题困扰: 决策过程不透明 (“黑箱” 预测)和 拒识能力不足 (对不存在物体输出错误结果)。
机器之心
2025/07/02
1210
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
微软提出:多模态视觉语言理解和视觉定位的大一统
a、 A Unified VL Formulation and Architecture GLIPv2的关键是classification-to-matching技巧,它将任何task-specific fixed-vocab分类问题重新表述为task-agnostic open-vocabulary视觉语言匹配问题,例如CLIP中将图像分类重新表述为图像-文本匹配,使模型可以直接从原始的大量的图像-文本对数据中学习,实现了强大的zero-shot效果。在GLIPv2中,将传统视觉模型中的语义分类线性层替换为视觉语言匹配点积层。 如图1,GLIPv2由一个双编码器
zenRRan
2023/03/03
1.3K0
微软提出:多模态视觉语言理解和视觉定位的大一统
17篇入选CVPR 2020,腾讯优图 9 篇精选论文详解
全球计算机视觉顶级会议CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于2020年6月14日-19日在美国西雅图召开。
AI科技评论
2020/03/10
1.2K0
17篇入选CVPR 2020,腾讯优图 9 篇精选论文详解
动态 | HCP Lab 12篇论文入选世界顶级计算机视觉会议CVPR 2019
全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition) 于 6月 16~20日 在美国洛杉矶如期举办。
AI科技评论
2019/07/05
6940
动态 | HCP Lab 12篇论文入选世界顶级计算机视觉会议CVPR 2019
YOLOv13都来了,目标检测还卷得动吗?别急,还有这些新方向!
2025年已过半,AI领域依旧风起云涌。就在大家还在研究多模态和大模型融合时,YOLOv13 的发布再次把目标检测领域推上热搜,但目标检测,这个曾经被视为CV领域“基础中的基础”,如今也在被频繁问到:“还值得做吗?”但真是这样吗?其实除了 YOLO,还有 DETR、RT-DETR、DINO、Grounding DINO 等一批极具潜力的新模型正悄悄发力。今天我们就来聊聊 2025 年还能不能做目标检测,顺便盘一盘那些你可能还没关注的新方向。
CoovallyAIHub
2025/07/03
9540
YOLOv13都来了,目标检测还卷得动吗?别急,还有这些新方向!
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。
deephub
2024/06/03
4700
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星
---- 新智元报道   编辑:桃子 好困 【新智元导读】Meta的SAM「分割一切」模型刚发布,国内团队就进行了二创,打造了一个最强的零样本视觉应用Grounded-SAM,不仅能分割一切,还能检测一切,生成一切。 Meta的「分割一切」模型横空出世后,已经让圈内人惊呼CV不存在了。 就在SAM发布后一天,国内团队在此基础上搞出了一个进化版本「Grounded-SAM」。 注:项目的logo是团队用Midjourney花了一个小时做的 Grounded-SAM把SAM和BLIP、Stable Di
新智元
2023/05/09
7980
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星
从2D到3D:无类别方法在单目3D目标检测中的应用与评估 !
识别单张图像中的物体一直是一个长期存在的计算机视觉任务,在机器人学和AR/VR等领域有广泛应用。在过去的几十年里,二维目标检测——在二维图像平面上识别和定位物体——在深度学习技术的进步和大型标注数据集的推动下取得了显著的进步。然而,仅识别固定的一组物体是有限的,因为实际环境中物体的多样性极大;仅在二维空间中检测物体对于大多数实际任务也是不足够的,因为世界及其物体存在于三维空间。
AIGC 先锋科技
2025/01/15
4900
从2D到3D:无类别方法在单目3D目标检测中的应用与评估 !
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
作者:金克丝 (在读博士) 方向:多模态学习 学校:南京理工大学 「收录情况」:CVPR-2022 「论文链接」:https://arxiv.org/abs/2112.03857 「代码链接」:https://github.com/microsoft/GLIP 问题 方案 主要贡献 Grounded Language Image Pre-training a、Unified Formulation b、Language-Aware Deep Fusion c、Pre-training with Scala
zenRRan
2022/10/10
3.4K0
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型
错误!!! - 待补充 [ul]- In each iteration i, we aggregate a batch from K mini-batches ({b}{1}^{i},\cdots ,,{b}{K}^{i}). For each mini-batch ({b}{k}^{i}), we randomly select dataset ({{\mathcal{D}}}{m}) for m = 1, ⋯, M with probability pm and sample the mini-batch without replacement. - Concatenate all mini-batches ({B}^{i}=[{b}{1}^{i},\cdots ,,{b}{K}^{i}]). - Perform training step with batch Bi.
生信菜鸟团
2025/02/06
2460
计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显著进展,但仍然面临着模态差异 (modality gap) 的问题,即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。
机器之心
2024/04/26
4620
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
27页综述,354篇参考文献!最详尽的视觉定位综述来了
27 页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近 5 年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于 VLP 的视觉定位,基于 MLLM 的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。
机器之心
2025/02/03
3170
27页综述,354篇参考文献!最详尽的视觉定位综述来了
多模态AI浪潮来袭,或造福数亿视障人群
外卖、打车、社交、视频……现代社会海量的应用服务着人们的工作和生活,让人非常方便地就能体验到丰富的物质和精神享受。但与此同时,“障碍人群”的需求也值得关注。 第二次全国残疾人抽样调查结果、国家统计局2021年第7次人口普查数据,以及中国互联网络信息中心官网等综合显示:我国有1691万视障人士、2780万听障人士、2977万肢体残障人士、2.6亿60岁及以上老年人、4.16亿非网民,以及大量的认知障碍人士。 其实,进一步说,“非障碍人群”可能也会遇到情境性障碍和临时性障碍,比如突如其来的伤病,在伤病期间,部分
AI科技大本营
2023/04/06
5680
多模态AI浪潮来袭,或造福数亿视障人群
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
写在前面 视觉语言预训练提高了许多下游视觉语言任务的性能,例如:图文检索、基于图片的问答或推理。有朋友要问了,除了在公开的学术任务上使用更大的模型/更多的数据/技巧把指标刷得很高,多模态预训练模型有什么实际应用呢? 为此,字节跳动 AI Lab Research 团队提出了X-VLM,首次提出学习多粒度的视觉和语言对齐。实验证明,这种预训练方法十分高效,模型规模无需很大,预训练数据无需很多, 仅216M参数量的X-VLM就能在广泛的多模态任务上获得了十分优秀的表现,例如:图像文本检索、基于图片的问答或推
量子位
2022/06/20
7920
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。本文将解析技术演进脉络、实战经验与未来图景,为读者提供前沿趋势的全局视角与产业升级的实践指引。
腾讯云开发者
2025/04/26
7980
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023
目前的开放世界目标检测模型大多遵循文本查询的模式,即利用类别文本描述在目标图像中查询潜在目标,但这种方式往往会面临「广而不精」的问题。
新智元
2023/10/25
1.9K0
精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023
推荐阅读
突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇
8340
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造
1.5K0
国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)
1K0
决策过程是魔法还是科学?首个多模态大模型的可解释性综述全面深度剖析
3600
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
1210
微软提出:多模态视觉语言理解和视觉定位的大一统
1.3K0
17篇入选CVPR 2020,腾讯优图 9 篇精选论文详解
1.2K0
动态 | HCP Lab 12篇论文入选世界顶级计算机视觉会议CVPR 2019
6940
YOLOv13都来了,目标检测还卷得动吗?别急,还有这些新方向!
9540
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
4700
Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星
7980
从2D到3D:无类别方法在单目3D目标检测中的应用与评估 !
4900
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
3.4K0
计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型
2460
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
4620
27页综述,354篇参考文献!最详尽的视觉定位综述来了
3170
多模态AI浪潮来袭,或造福数亿视障人群
5680
ICML 2022 | 字节跳动 AI Lab 提出多模态模型:X-VLM,学习视觉和语言的多粒度对齐
7920
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
7980
精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023
1.9K0
相关推荐
突破边界:探索Grounding-DINO,重新定义视觉与语言的交汇
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档