前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

NeurIPS 2024 | 无需训练,一个框架搞定开放式目标检测、实例分割

作者头像
机器之心
发布于 2025-02-14 08:27:48
发布于 2025-02-14 08:27:48
2220
举报
文章被收录于专栏:机器之心机器之心

本文作者均来自北京大学王选计算机研究所。主要作者包括:林志威,北京大学博士生;王勇涛,北京大学副研究员;汤帜,北京大学研究员。

本文介绍了来自北京大学王选计算机研究所的王勇涛团队的最新研究成果 VL-SAM。针对开放场景,该篇工作提出了一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM,在无需训练的情况下,取得了良好的开放式 (Open-ended) 目标检测和实例分割结果,论文已被 NeurIPS 2024 录用。

  • 论文标题:Training-Free Open-Ended Object Detection and Segmentation via Attention as Prompts
  • 论文链接:https://arxiv.org/abs/2410.05963

论文概述

本文提出了一个无需训练的开放式目标检测和分割框架,结合了现有的泛化物体识别模型(如视觉语言大模型 VLM)与泛化物体定位模型(如分割基础模型 SAM),并使用注意力图作为提示进行两者的连接。在长尾数据集 LVIS 上,该框架超过了之前需要训练的开放式方法,同时能够提供额外的实例分割结果。在自动驾驶 corner case 数据集 CODA 上,VL-SAM 也表现出了不错的结果,证明了其在真实应用场景下的能力。此外,VL-SAM 展现了强大的模型泛化能力,能够结合当前各种 VLM 和 SAM 模型。

研究背景

深度学习在感知任务方面取得了显著成功,其中,自动驾驶是一个典型的成功案例。现有的基于深度学习的感知模型依赖于广泛的标记训练数据来学习识别和定位对象。然而,训练数据不能完全覆盖真实世界场景中所有类型的物体。当面对分布外的物体时,现有的感知模型可能无法进行识别和定位,从而可能会发生严重的安全问题。

为了解决这个问题,研究者们提出了许多开放世界感知方法。这些方法大致可以分为两类:开集感知(open-set)和开放式感知(open-ended)。开集感知方法通常使用预训练的 CLIP 模型来计算图像区域和类别名称之间的相似性。因此,在推理过程中,这类方法需要预定义的对象类别名称作为 CLIP 文本编码器的输入。然而,在许多现实世界的应用场景中,并不会提供确切的对象类别名称。例如,在自动驾驶场景中,自动驾驶车辆可能会遇到各种意想不到的物体,包括起火或侧翻的事故车和各种各样的建筑车辆。相比之下,开放式感知方法更具通用性和实用性,因为这些可以同时预测对象类别和位置,而不需要给定确切的对象类别名称。

与此同时,在最近的研究中,大型视觉语言模型(VLM)显示出强大的物体识别泛化能力,例如,它可以在自动驾驶场景中的长尾数据上(corner case)识别非常见的物体,并给出准确的描述。然而,VLM 的定位能力相比于特定感知模型较弱,经常会漏检物体或给出错误的定位结果。另一方面,作为一个纯视觉基础模型,SAM 对来自许多不同领域的图像表现出良好的分割泛化能力。然而,SAM 无法为分割的对象提供类别。基于此,本文提出了一个无需训练的开放式目标检测和分割框架 VL-SAM,将现有的泛化物体识别模型 VLM 与泛化物体定位模型 SAM 相结合,利用注意力图作为中间提示进行连接,以解决开放式感知任务。

方法部分

作者提出了 VL-SAM,一个无需训练的开放式目标检测和分割框架。具体框架如下图所示:

图 1 VL-SAM 框架图

具体而言,作者设计了注意力图生成模块,采用头聚合和注意力流的方式对多层多头注意力图进行传播,从而生成高质量的注意力图。之后,作者使用迭代式正负样本点采样的方式,从生成的注意力图中进行采样,得到 SAM 的点提示作为输入,最终得到物体的分割结果。

1、注意力图生成模块(Attention Map Generation Module)

给定一张输入图片,使用 VLM 给出图片中所有的物体类别。在这个过程中存储 VLM 生成的所有 query 和 key,并使用 query 和 key 构建多层多头注意力图:

其中 N 表示 token 的数量,H 表示多头注意力的数量,L 表示 VLM 的层数。

之后,采用 Mean-max 的方式对多头注意力图进行聚合,如图 2 所示:

图 2 多头注意力聚合

首先计算每个头的注意力的权重:

之后采用基于权重的多头注意力加权进行信息聚合:

其中

表示矩阵点乘。

在聚合多头注意力图之后,采用注意力流的方式进一步聚合多层注意力图,如图 3 所示

图 3 注意力流

具体而言,采用 attention rollout 的方式,计算第

层到第

层的注意力图传播:

其中

表示单位矩阵。最后,作者仅使用传播后的最后一层注意力图作为最终的注意力图。

2、SAM 提示生成

生成的注意力图中可能会存在不稳定的假阳性峰值。为了过滤这部分假阳性,作者首先采用阈值过滤的方式进行初步过滤,并找到剩余激活部分的最大联通区域作为正样本区域,其余的部分作为负样本区域。之后,采用峰值检测的方式分别从正负样本区域进行采样,得到正负样本点,作为 SAM 的点提示输入。

3、迭代式分割优化

从 SAM 得到分割结果可能会存在粗糙的边界或者背景噪声,作者采用两种迭代式方式进一步对分割结果进行优化。在第一种迭代方式中,作者借鉴 PerSAM 使用 cascaded post-refinement 的方式,将初始的分割结果作为额外的提示输入到 SAM 中。对于第二种迭代方式,作者使用初始的分割结果对注意力图进行掩码,之后在掩码的区域进行正负样本点采样。

4、多尺度聚合和问题提示聚合

作者还采用两种聚合(Ensemble)的方式进一步改良结果。对于 VLM 的低分率问题,作者使用多尺度聚合,将图片切成 4 块进行输入。此外,由于 VLM 对问题输入较为敏感,作者采用问题提示聚合,使得 VLM 能够尽量多得输出物体类别。最后,采用 NMS 对这些聚合结果进行过滤。

实验结果

在包含 1203 类物体类别的长尾数据集 LVIS 验证集上,相比于之前的开放式方法,VL-SAM 取得了更高的包围框 AP 值。同时,VL-SAM 还能够获取物体分割结果。此外,相比于开集检测方法,VL-SAM 也取得了具有竞争力的性能。

表 1 LVIS 结果

在自动驾驶场景 corner case 数据集 CODA 上,VL-SAM 也取得了不错的结果,超过了开集检测和开放式检测的方法。

表 2 CODA 结果

结论

本文提出了 VL-SAM,一个基于注意力图提示的免训练开放式目标检测和分割框架 VL-SAM,在无需训练的情况下,取得了良好的开放式 (Open-ended) 目标检测和实例分割结果。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
2 条评论
热度
最新
认为前端社区在ssr,尤其是fmp上耗费了过多的时间。用户并没有如此焦虑的等待首屏内容,一个简单的loading就能安抚好用户。 而且无交互能力的首屏,反而让用户在点击操作的时候产生“怎么没有反应”的困惑。一个loading确很明确的告诉用户你稍等一会。
认为前端社区在ssr,尤其是fmp上耗费了过多的时间。用户并没有如此焦虑的等待首屏内容,一个简单的loading就能安抚好用户。 而且无交互能力的首屏,反而让用户在点击操作的时候产生“怎么没有反应”的困惑。一个loading确很明确的告诉用户你稍等一会。
111举报
干嘛搞 SSR 那么费劲,原生写 HTML 不香么
干嘛搞 SSR 那么费劲,原生写 HTML 不香么
回复回复点赞举报
推荐阅读
2023前端技术盘点与2024技术展望
● 首先在被誉为大模型元年的今年,大模型的应用能力持续完善,并逐渐开始在前端多个领域中落地。
腾讯技术工程官方号
2024/01/24
1.8K0
2023前端技术盘点与2024技术展望
2023 年前端大事记
哈喽各位《code 秘密花园》的订阅者们,一年一度的年更系列又来了。关注我的老粉都知道,每到年末我会对前端生态在这一年的重大变化做一次总结,之前的总结:
ConardLi
2023/12/28
4920
2023 年前端大事记
2021 大前端技术回顾及未来展望
2021 年大前端领域没有出现革命性的明星项目,但在各个细分的技术领域都有一定的拓展与深耕,有很多新技术或者新特性有望在 2022 年迎来爆发。在互联网 “寒冬” 的当下,前端技术人员唯有修炼好内功,不断壮大自身,才能更好地迎接春天的 “东风”。那前端技术人员应该修炼哪一块 “肌肉” 呢,或许我们可以在《2021 年 JavaScript 明星项目》找到一些答案: zx 工具包仅用了 7 个月就荣登全年 Star 增长最快的项目,这侧面表明了前端开发在全栈的持续渗透和影响力。 在前端框架上面,龙头 Reac
用户1097444
2022/06/29
2K0
2021 大前端技术回顾及未来展望
2024 年值得关注的 JavaScript 最前沿趋势,走起!
# 2023 JavaScript Rising Stars 最新统计趋势显示 JavaScript 最前沿趋势。
掘金安东尼
2024/02/24
6810
2024 年值得关注的 JavaScript 最前沿趋势,走起!
前端框架新格局:从过去一年的演进看未来趋势
Web 开发领域始终在不断演进,过去一年也不例外。我们知道,你忙于迭代和发布新功能,难以时刻关注行业的所有动态。
深度学习与Python
2025/03/10
2990
前端框架新格局:从过去一年的演进看未来趋势
2024 年让我想疯狂学习的几个框架。。
2024 年即将到来,可以为新的一年做计划了,思考我们可以在未来一年中做些什么或学习些什么。这篇文章想做的是寻找新的一年中可以学习的框架,了解它们的功能,并找出它们特别之处。
winty
2024/04/15
4190
2024 年让我想疯狂学习的几个框架。。
前端号外—2022年最受欢迎居然是它,Node.js危已
导读 | 2022年是艰难的一年,不仅有互联网的寒冬、还有新冠疫情的洗礼。但是似乎这一切都阻挡不了JavaScript的内卷,一年不长不短的时间中,JavaScript从创新、性能、功能等多维度深度进化,给前端带来了诸多惊喜。本文基于github上流行的JavaScript框架的Star情况进行整理,从9个方面阐述了过去2022年中最受欢迎的项目,再细化不同生态或方向上的最受欢迎的项目情况。想更深入了解JavaScript的发展动态?想了解全面的JS发展方向?想知道Vue或React生态最流行的框架?想知道前端有那些创意十足的项目?想寻找前端学习方向?读完本文,相信你一定会有收获。
非喵鱼
2023/01/13
1.1K0
前端号外—2022年最受欢迎居然是它,Node.js危已
打爆 React 泡沫,重新审视前端技术选择
总结了 React “泡沫” 的问题以及超越现状的一些思考,本篇作者给出了一些替代选择。
深度学习与Python
2023/09/18
4090
打爆 React 泡沫,重新审视前端技术选择
2023 年不可错过的 10 大 JavaScript 更新
每年,都会有很多新的语言特性在 ECMAScript 中得到标准化,然后在浏览器中实现。今年我最喜欢的新特性之一是对象的 groupBy。
ConardLi
2023/12/04
3690
2023 年不可错过的 10 大 JavaScript 更新
2023 年前端十大 Web 发展趋势
作者 | Robin Wiruch 译者 | 核子可乐 策划 | 丁晓昀 虽然就个人观点,我觉得 Web 开发的前景已经好几年没什么进展(2016 年至 2021 年),但在刚刚过去的 2022 年中确实又猛窜了一波。在本文中,我想跟大家聊聊自己看到的最新 Web 开发趋势。相信这波浪潮会继续激发 Web 开发者的关注,也让我对万象更新的 2023 年更具期待。闲言少叙,我们马上进入正题。 (元)框架 单页应用程序(SPA)及各类相关框架(包括 React.js、Vue.js、Svelte.
深度学习与Python
2023/03/29
3.2K0
2023 年前端十大 Web 发展趋势
2024 前端技术盘点:React、Vue、Qwik 谁能领跑 2025?
前端开发的世界就像一场永不停歇的技术竞速,而每一年的更新和迭代都让人既兴奋又感叹技术的飞速发展。2024 年也不例外,这一年,React、Vue 等老牌框架依旧占据“赛道主角”的位置,而一些新晋框架则以惊人的速度崭露头角,为开发者带来了更多选择和无限可能。
前端达人
2024/12/30
2.6K0
2024 前端技术盘点:React、Vue、Qwik 谁能领跑 2025?
2021 年 JS 明星项目排名第一竟是它?
今年最受欢迎的项目是谷歌的zx,可在JavaScript或TypeScript中编写简单的命令行脚本。
秋风的笔记
2022/01/18
1.7K0
2021 年 JS 明星项目排名第一竟是它?
2022前端趋势总结
以下是对前端各位大佬2021总结的一个汇总总结。希望可以看到一些前端行业的动向,排布。帮助团队和自身制定未来的规划。内容分为四个部分:
否子戈
2022/03/29
1.4K0
2022前端趋势总结
前端框架新势力大盘点
近年来,前端领域快速发展,新的框架不断涌现,为开发者提供了更多选择和解决方案。尽管 React、Vue、Angular、Next.js、Preact 等老牌框架依然稳坐市场主流,但新势力前端框架的崛起也为特定场景带来了更佳的适配和优化。接下来,我们将一探近三年年出现的前端框架新势力,深入了解它们的特点以及主要解决的问题,共同探索这些新势力框架如何为前端开发注入新的活力与可能性。
程序媛夏天
2024/05/25
4940
前端框架新势力大盘点
次世代前端视图框架都在卷啥?
上图是 State of JavaScript 2022 前端框架满意度排名。前三名分别是 Solid、Svelte、Qwik。我们可以称他们为次世代前端框架的三大代表,前辈是 React/Angular/Vue。 目前 React/Augular/Vue 还占据的主流的市场地位, 现在我们还不知道下一个五年、十年谁会成为主流,有可能前辈会被后浪拍死在沙滩上, 也有可能你大爷还是你大爷。
_sx_
2023/10/20
6350
次世代前端视图框架都在卷啥?
JavaScript框架--迈向2023年
窥视未来的奇妙之处在于,道路永远不会完全清晰。我们可以看看趋势,看看创新,并尝试制定一个路线。更好的是,我们可以成为这些创新的一部分,引导方向。但没有什么是确定的。
前端小智@大迁世界
2023/03/11
1.5K0
JavaScript框架--迈向2023年
2023年JavaScript生态系统发展趋势
最近,Rising Stars 发布了 JavaScript 生态系统趋势发展报告,根据 GitHub Stars 展示了 2023 年的一些杰出项目。总的来说,最受欢迎的项目是 shadcn/ui。这是一个可用于创建自定义组件的 UI 组件集。JavaScript 运行时 Bun 仍然保持着良好的发展势头,成为第二受欢迎的项目。Excalidraw 是一个手绘风格的开源虚拟白板项目,它也变得日益流行。
深度学习与Python
2024/02/17
2660
2023年JavaScript生态系统发展趋势
2022 年前端大事记
去年我总结了 2021 年 JavaScript 大事记 之后,最近好多小伙伴催更我的 2022 年总结,这就来了。
ConardLi
2023/01/09
1.4K0
2022 年前端大事记
Astro是2023年最好的web框架,原因如下
以下解释是全面理解为什么 Astro 在2023年成为最佳 web 框架所必需的。
前端小智@大迁世界
2024/02/12
5850
Astro是2023年最好的web框架,原因如下
新兴前端开发工具
我在最近的前端项目中用到了 vite 与 swc 作为构建工具和 JavaScript 编译器,二者都比较年轻,但提供更优秀的前端开发体验。当下前端生态的新选手层出不穷,本文就简单介绍一下最近几年前端生态涌现的诸多新兴的技术与工具。
杜逸先
2023/07/09
4230
相关推荐
2023前端技术盘点与2024技术展望
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档