前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR竞赛冠军方案:复杂场景下的视频对象分割

CVPR竞赛冠军方案:复杂场景下的视频对象分割

作者头像
CV君
发布于 2024-06-27 08:14:48
发布于 2024-06-27 08:14:48
2580
举报

由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。

  • 竞赛及数据集:https://henghuiding.github.io/MOSE/ChallengeCVPR2024
  • 技术报告:https://arxiv.org/abs/2406.04600

视频对象分割(VOS)是一项广泛应用于自动驾驶增强现实和交互式视频编辑等领域,其主要任务是从视频序列中跟踪和分割目标对象。然而,当前的VOS方法面临许多挑战,如目标外观的显著变化、遮挡以及由于类似对象和背景杂乱导致的身份混淆,尤其在处理长视频和复杂真实环境视频时,这些问题更加突出。

为了应对这些挑战,团队提出了一种新的VOS框架,通过学习语义先验和辨别性查询表示来提升性能, 如图1所示。

图1 整体框架

由于VOS任务涉及的是没有类别标签的通用对象,从VOS数据集中直接学习语义表示具有一定挑战性。然而,预训练的视觉Transformer中的CLS token能够捕捉整个图像的语义信息,提供图像内容的全面、全局表示。

通过将CLS Token与卷积神经网络(CNN)生成的多尺度特征结合,可以在不同尺度上获取详细的语义特征。报告中作者团队使用交叉注意力机制来进行VOS的语义先验和空间依赖关系学习。这一设计不仅能够捕捉目标的细节信息,还能有效处理目标外观随时间变化的问题。

作者团队注意到,直接使用基于在线预测掩码生成的整个对象区域更新目标查询记忆鲁棒性不足,因为预测掩码通常覆盖背景噪声,降低了目标的独特性,并导致错误随时间累积。

为了在帧之间有效传播目标查询,作者们使用目标对象最具辨别力的特征来更新目标查询。通过将目标查询与目标的相关特征图中的每个通道进行比较,并选择最相似的一个,从而选择目标的辨别性特征。基于从新目标样本生成的辨别性目标特征,可以通过动态计算显著查询和显著像素特征之间的关系,以叠加的方式更新目标查询。

所提出的辨别性查询生成方法能够自适应地选择最具代表性的特征来优化目标查询,这有助于应对长视频中目标外观剧烈变化的挑战。通过这一方法,有效地提高了模型在复杂场景和目标变化情况下的视频对象分割性能。该方法在MOSE数据集上进行了严格的验证。MOSE数据集包含复杂且具有挑战性的场景,包括遮挡和拥挤的对象,专注于现实环境中的问题。

实验结果表明,该方法在处理目标外观变化、遮挡和ID混淆等问题上表现出色,完成了在复杂场景下实现高精度目标跟踪和分割的任务,显著提升了VOS在真实世界应用中的效果。更详细的论文正在评阅中。

表1 MOSE Track最终结果和排名

图2 复杂环境中目标的跟踪与分割效果

图3 极小目标的跟踪与分割效果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源
在CVPR 2024 像素级视频理解(PVUW)挑战赛中,来自塔普智能(Tapall.ai)、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分割(MeViS)赛道上获得冠军。该团队提出的技术专为解析由自然语言表达引导的视频内容而设计,致力于提高视频分割的准确性和效率。
CV君
2024/06/27
1870
CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
机器之心专栏 机器之心编辑部 视频目标分割 (Video Object Segmentation, VOS) 的现有 SOTA 方法在已有数据集上已经取得 90+% J&F 的优异性能,似乎已经很好地解决了这一研究问题。那么现有方法在更复杂场景中的处理能力如何呢? 为了探究这个问题,来自南洋理工大学、浙江大学、牛津大学、和字节跳动的研究者们构建了一个专门针对复杂场景的大规模视频目标分割数据集 coMplex video Object SEgmentation (MOSE)。 论文地址:https://ar
机器之心
2023/02/23
6090
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
在本文中,来自香港大学和字节跳动的研究者们提出了一种基于Transformer的参考视频目标分割新框架ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。ReferFormer在四个参考视频目标分割数据集上都取得了当前最优的性能。
Amusi
2022/04/18
6820
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
CVPR 2024 Workshop | 两个超高难度视频分割挑战赛正式启动,数据集开放下载!
近年来,随着移动计算机的性能不断增强,视频已经成为最重要的数据模态之一,其承载着不计其数的现实应用,如自动驾驶、视频电话、视频直播等等。因此,如何让计算机对视频有更深入的理解也变得越发重要。其中,像素级视频理解任务,如视频目标分割(VOS)和语言指向性目标分割(RVOS),均为视频理解领域最重要的研究课题。目前,现有的机器学习方法已经能够处理很多场景下的分割问题,也能够将视频与简单的文本信息进行联合理解。然而,这些课题仍然面临很多挑战,如背景的复杂性、目标的遮挡和消失重现、对描述动作的文本的理解等。现有的许多算法在应对这些复杂情况时仍然存在不足[1,2],因此需要更为先进和稳定的解决方案。
CV君
2024/05/20
3810
CVPR 2024 Workshop | 两个超高难度视频分割挑战赛正式启动,数据集开放下载!
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
视频分割在许多场景下被广泛应用。电影视觉效果的增强、自动驾驶的理解场景,以及视频会议中创建虚拟背景等等都需要应用到视频分割。近期,基于深度学习的视频分割已经有着不错的表现了,但这依旧是计算机视觉中一个具有挑战性的话题。
机器之心
2023/08/07
3030
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
ICCV2023|新数据集 MeViS:基于动作描述的视频分割
随着各种视觉语言大模型的蓬勃发展,构建强大的多模态模型以解决实际问题已成为明显的趋势。多模态大模型,如 CLIP 和 SAM,在以自然语言(文本)作为提示的图像识别和分割任务上展现出了卓越的性能。然而,当面对复杂场景的视频以及包含动作行为等描述信息的自然语句时,比如 “找出违规掉头的那些车辆” ,模型是否能够准确地从视频中找到并分割出这些目标物体呢?
CV君
2023/10/23
5190
ICCV2023|新数据集 MeViS:基于动作描述的视频分割
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但目前的方法在零样本学习设置下,或是预测未见过的样本时,会出现性能不一致等问题。
新智元
2023/08/07
5180
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
图像分割技术是计算机视觉领域的重要研究方向,也是该领域其他应用的一个重要前期步骤。近些年来,随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,尤其在场景物体分割、人体背景分割、三维重建等技术在无人驾驶、增强现实等城市数字化领域得到了广泛应用。 而近日,特斯联科技集团首席科学家邵岭博士及团队提出具有语义对齐的多级表征学习框架解决指定视频目标分割(Referring Video Object Segmentation, RVOS)中存在的问题,且相关研究成果(标题为: Multi-Level Repr
AI科技评论
2022/05/25
5330
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
MASA:匹配一切、分割一切、跟踪一切
在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,特别是多目标跟踪(MOT)。当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA,一种新颖的方法用于稳健的实例关联学习,该方法能够在不同领域内的视频中匹配任何对象,而无需跟踪标签。MASA利用Segment Anything Model(SAM)丰富的对象分割结果,通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提案,并从庞大的图像集合中学习匹配这些区域。我们进一步设计了一个通用的MASA适配器,它可以与基础的分割或检测模型协同工作,并使它们能够跟踪任何检测到的对象。这些组合在复杂领域中表现出强大的零次学习跟踪能力。在多个具有挑战性的MOT和MOTS基准测试上的广泛测试表明,所提出的方法仅使用未标记的静态图像,在零次学习关联中,其性能甚至超过了使用完全标注的域内视频序列训练的最新方法。我们的代码已公开在github.com/siyuanliii/masa。
AI浩
2024/10/22
1920
MASA:匹配一切、分割一切、跟踪一切
单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳
机器之心报道 机器之心编辑部 视频分割效果优于所有现有方法,这篇入选CVPR 2022的论文是用Transformer解决CV任务的又一典范。 基于注意力的深度神经网络(DNN)在NLP和CV等不同领域的各种任务上都表现出了卓越的性能。这些进展使得此类网络(如 Transformer)成为解决多模态问题的有力候选。特别是近一两年,Transformer 模型已经开始在CV任务上大展手脚,从目标识别到检测,效果优于通用的CNN视觉骨干网络。 参考视频对象分割(referring video object se
机器之心
2022/03/09
6900
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
导语:本文将分组介绍计算机视觉顶级会议 CVPR 中腾讯 AI Lab 的重点研究方向和入选论文。
腾讯技术工程官方号
2019/06/24
1.4K0
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
今年CVPR入选论文已公布,全球共有5165篇投稿,1299篇收录,同比去年增长32%(2017年论文录取979篇)。
量子位
2019/04/23
9210
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
视频分割在移动端的算法进展综述
语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。
SIGAI学习与实践平台
2019/04/26
2.1K0
视频分割在移动端的算法进展综述
无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)
大数据预训练的驱动下,Segment Anything Model(SAM)已被证明是一个强大的可提示框架,彻底改变了分割领域。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制SAM的探索不足,例如,在大量图像中自动分割你的宠物狗。
计算机视觉研究院
2023/10/23
5020
无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
视觉分割技术在街景理解中具有重要地位,同时也面临诸多挑战。美团街景理解团队经过长期探索,构建了一套兼顾精度与效率的分割技术体系,在应用中取得了显著效果。同时,相关技术斩获了CVPR 2023竞赛2项冠军1项季军。本文将详细介绍街景理解中分割技术的探索与应用,希望能给从事相关研究工作的同学带来一些帮助或启发。
美团技术团队
2023/09/05
4880
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
华科团队发布 OVIS 遮挡视频实例分割基准数据集
内容提要:实例分割可广泛应用于各种应用场景中,作为计算机视觉领域的一个重要研究方向,也具有较大难度与挑战性。而很多场景中由于遮挡情况,使得实例分割成为难题中的难题。近日,来自华中大、阿里等机构的研究人员,为了解决这一问题,提出了一个大规模遮挡视频实例分割数据集 OVIS。
HyperAI超神经
2021/03/10
8080
华科团队发布 OVIS 遮挡视频实例分割基准数据集
无需训练即可大幅提升SAM 2!开源的SAM2Long来了,港中文、上海AI Lab出品
Segment Anything Model 2(SAM 2)在传统视频目标分割任务大放异彩,引起了众多关注。然而,港中文和上海 AI Lab 的研究团队发现 SAM 2 的贪婪选择策略容易陷入「错误累积」的问题,即一次错误的分割掩码选择将影响后续帧的分割结果,导致整个视频分割性能的下降。这个问题在长视频分割任务中显得更加严重。
机器之心
2025/02/14
1150
无需训练即可大幅提升SAM 2!开源的SAM2Long来了,港中文、上海AI Lab出品
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值,但面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,始终是个挑战。
机器之心
2025/04/18
1640
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割
译者 | 王柯凝 【 AI 科技大本营导读】目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学 ),生物学(神经科学)和心理学(认知科学)等等。许多科学家认为,计算机视觉为人工智能的发展开拓了道路。 那么什么是计算机视觉呢? 这里给出了几个比较严谨的定义: ✦ “对图像中的客观对象构建明确而有意义的描述”(Ballard&B
AI科技大本营
2018/04/26
12.4K0
详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割
英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建
Bowen 投稿自 凹非寺 量子位 | 公众号 QbitAI 普通手机“随手”拍的雕像,一下就变成了精细的三维重建图。 水杯来回动的动态场景下,细节清晰可见: 静态场景效果也同样nice,狗狗突出的肋骨都被还原了出来: 对比来看其他方法,效果是酱婶的…… 这就是英伟达最新提出的方法BundleSDF。 这是一种可对未知物体的6D姿态追踪和三维重建的方法。 用于从单目RGBD视频序列中跟踪未知物体的6自由度运动,同时进行物体的隐式神经三维重建,方法接近于实时(10Hz)。 这种方法适用于任意刚性物体
量子位
2023/04/06
5950
英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建
推荐阅读
CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源
1870
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
6090
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
6820
CVPR 2024 Workshop | 两个超高难度视频分割挑战赛正式启动,数据集开放下载!
3810
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
3030
ICCV2023|新数据集 MeViS:基于动作描述的视频分割
5190
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
5180
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
5330
MASA:匹配一切、分割一切、跟踪一切
1920
单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳
6900
CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
1.4K0
腾讯AI大迈步!58篇论文入选CVPR 2019,超去往年总和
9210
视频分割在移动端的算法进展综述
2.1K0
无需训练的个性化分割Everything模型,可与文本提示联动(附源代码)
5020
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
4880
华科团队发布 OVIS 遮挡视频实例分割基准数据集
8080
无需训练即可大幅提升SAM 2!开源的SAM2Long来了,港中文、上海AI Lab出品
1150
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
1640
详解计算机视觉五大技术:图像分类、对象检测、目标跟踪、语义分割和实例分割
12.4K0
英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建
5950
相关推荐
CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档