Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MiVOS:用户交互型视频实例分割解耦框架(CVPR 2021)

MiVOS:用户交互型视频实例分割解耦框架(CVPR 2021)

作者头像
CV君
发布于 2022-09-01 02:48:12
发布于 2022-09-01 02:48:12
8260
举报

关注公众号,发现CV技术之美

本文分享一篇 CVPR 2021 论文『Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion』,由伊利诺伊大学厄巴纳-香槟分校、香港科技大学联合快手提出模块化交互式 VOS 算法, MiVOS,所需的交互帧数更低,分割精度与运行效率更高。

  • 论文链接:https://arxiv.org/abs/2103.07941
  • 项目链接:https://github.com/hkchengrex/MiVOS

01

前言

本文提出了模块化交互式VOS(MiVOS)框架,该框架将交互到掩码和掩码传播分离,从而实现更高的泛化性和更好的性能。单独训练的交互模块将用户交互转换为对象掩码,然后由传播模块使用一种新的top-k过滤策略在读取时空存储器时进行临时传播。为了有效地考虑用户的意图,提出了一种新颖的差异感知模块,以学习如何在每次交互之前和之后正确融合掩码,这些掩码通过利用时空存储器与目标帧对齐。

与当前现存的交互式VOS方法相比,作者提出的MiVOS所需的交互帧数更低,分割精度与运行效率更高。

与传统的转描方法相比,iVOS的进步显着减少了分割视频中物体标注所需的人力。(从标注100%的帧的Rotoscoping到现在只需标注3%的帧的Decoupled iVOS)。

02

方法

作者提出了一种用户交互型视频物体分割框架,通过用户迭代对视频中某些帧进行交互(标注),来提升分割精度。在作者提出的MiVOS解耦框架中,一共分为三个模块,分别为:S2M(用户交互产生分割图)、Propagation(掩码传播)、difference aware fusion(差异感知模块)。

在第r轮交互轮中,用户选择视频中的某一个帧t′,并使用实时运行的Scribble-to-Mask(S2M)模块以交互方式校正掩码,直到满意为止。然后,校正后的掩码将使用传播模块通过视频序列进行双向传播。为了整合前几轮的信息,差异感知融合模块用于融合以前的和当前的掩码。交互前与交互后掩码的差异(这传达了用户的交互意图)通过注意力机制在融合模块中被利用。

2.1 Interaction to mask:用户交互产生分割图模块

将用户交互(点击或者涂鸦)转换为图像的mask,其中论文中称其为S2M模型。S2M网络的目标是在给定输入涂鸦的情况下实时生成单图像分割掩码。

2.2 Propagation:分割传播模块

以用户当前帧作为起点,对mask进行双向传播(此处常常用一些半监督的VOS方法完成,比如说STM、STCN),获得整个视频的mask(通过用户标注,获取某些帧的mask,再通过双向传播获得所有帧的mask)。

给定一个对象掩码,传播模块跟踪对象并在后续中生成相应的蒙版框架。

我们将过去带有对象掩码的帧视为内存帧,这些帧用于使用基于注意的内存读取操作来预测当前(查询)帧的对象掩码。值得注意的是,作者提出了一种新颖轻巧的top-k操作,该操作与STM集成,并表明它无需复杂的训练技巧即可提高性能和速度。

如下所示为双向传播操作,一旦遇到结尾帧或者交互过的帧就停止传播。

2.3 difference aware fusion:差异感知融合模块

由于用户有多轮交互(比如经过第一轮交互,生成了整个视频的mask,但是用户进行二次检测的时候发现某些帧标注仍有问题,则开启下一轮交互,对有问题的帧再次进行修正),非交互帧就会有多轮的mask传播结果。(例如:用户先对视频中的第2帧进行交互,传播,用户再对视频的第5帧进行交互,传播,则视频中的第3帧会先在第2帧交互依据下,通过传播生成一个第3帧的mask,在对第5帧交互的时候会对第3帧再生成一个mask,则会产生多轮mask。),作者提出了不同轮次mask的差异感知模块,基于差异感知对2个mask进行融合。

在MiVOS中,作者结合了差异感知融合方法与线性融合方法,将差异感知与线性结果作为共同输入,再通过一个简单的网络来预测最终的输出。

如下图,其中Fused是差异感知的结果,Linear是传统线性融合的结果,GT是真实掩码,可以看出差异感知的效果要明显优于线性融合。

03

实验

所有的实验都在两张11GB的GPU上进行,以Adam为优化器。传播模块先在静态图像合成的视频上进行预训练,再在 BL30K, YouTubeVOS,DAVIS经典视频数据集上训练 。

在视频序列中选择三个随机帧,帧之间的最大距离逐渐从5增加到25,并在训练结束时退火到5。融合模块使用预训练传播模块的输出进行训练,首先在BL30K上,然后再在YouTubeVOS、DAVIS 上训练。

下表列出了模型中不同组件的运行时间。请参阅开源代码,了解详细的超参数设置。使用两个 GPU 训练所有模块大约需要两周时间。

在 DAVIS 2020 竞赛中, 机器人对其中的八个帧进行了交互,为了证明提出的解耦方法的有效性,需要较少的时间密集相互作用,MiVOS仅与三个帧进行交互。MiVOS停留在同一帧的即时反馈循环中,并且仅在机器人完成对一帧的注释时才执行传播。

下表展现了在DAVIS交互验证集上的性能,即使在上述的条件限制下,MiVOS仍然取得了最优性能。

消融

通过在DAVIS 交互式验证集上的消融研究。证明MiVOS 解耦baseline已经大大优于SOTA。尽管baseline很高,但通过top-k过滤,BL30K数据集中的预训练以及差异感知融合模块可以进一步提高其性能。在最后一行中,我们将交互模块替换为真实掩码,来评估给定3帧完美交互的方法的上限性能。

用户研究

通过进行用户研究,以定量评估用户的偏好和使用iVOS算法标记视频所需的人力。我们线性插值 IoU 与用户时间的关系图,并计算曲线下面积 (AUC) 以进行评估。通过与ATNet 进行比较,ATNet是性能最好的方法,拥有可用的源代码。如下图所示,可以看出MiVOS的用户耗时更低,AUC更高。

具体效果图:

04

结论

通过将交互与传播分离,MiVOS 是通用的,不受交互类型的限制。另一方面,所提出的融合模块通过忠实地捕捉用户的意图来协调交互和传播,并减轻了解耦过程中丢失的信息,从而使MiVOS既准确又高效。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
14篇论文入选CVPR!快手视觉研究成果精华总结
机器之心发布 机器之心编辑部 在正在进行的 CVPR 2021 上,快手有多篇论文被接收,涵盖三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域。 计算机视觉和模式识别领域的顶级会议 CVPR 正在进行中,本次大会接收率为 23.7%,其中快手有 14 篇论文被接收,这也是快手在国际视觉技术相关领域顶级会议上中稿最多的一次,研究成果数量的阶段性爆发标志着快手产学研合作从探索期逐步进入成熟期。 此次快手的中稿论文,涵盖了三维视觉、目标检测、视频目标分割、人脸伪造技术检测等热门研究领域,部分研究成
机器之心
2023/03/29
6040
14篇论文入选CVPR!快手视觉研究成果精华总结
首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准
在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。随着数据规模和多样性的迅速提升,该任务日益重要。
新智元
2025/07/24
1640
首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准
CVPR竞赛冠军方案:复杂场景下的视频对象分割
由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。
CV君
2024/06/27
3650
CVPR竞赛冠军方案:复杂场景下的视频对象分割
阿里文娱资深算法专家:视频物体分割算法的三个方向与最新应用
视频物体分割(Video Object Segmentation,简称 VOS),顾名思义就是从视频所有图像中把感兴趣的物体区域完整的分割出来。为了方便大家的理解,先给出一个我们自己的视频物体分割的结果:
机器之心
2019/08/02
1.3K0
阿里文娱资深算法专家:视频物体分割算法的三个方向与最新应用
MASA:匹配一切、分割一切、跟踪一切
在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,特别是多目标跟踪(MOT)。当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似度嵌入的跨域泛化能力。我们提出了MASA,一种新颖的方法用于稳健的实例关联学习,该方法能够在不同领域内的视频中匹配任何对象,而无需跟踪标签。MASA利用Segment Anything Model(SAM)丰富的对象分割结果,通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提案,并从庞大的图像集合中学习匹配这些区域。我们进一步设计了一个通用的MASA适配器,它可以与基础的分割或检测模型协同工作,并使它们能够跟踪任何检测到的对象。这些组合在复杂领域中表现出强大的零次学习跟踪能力。在多个具有挑战性的MOT和MOTS基准测试上的广泛测试表明,所提出的方法仅使用未标记的静态图像,在零次学习关联中,其性能甚至超过了使用完全标注的域内视频序列训练的最新方法。我们的代码已公开在github.com/siyuanliii/masa。
AI浩
2024/10/22
3320
MASA:匹配一切、分割一切、跟踪一切
第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例
本文分享一篇 NeurIPS 2021 的论文『Associating Objects with Transformers for Video Object Segmentation』,由浙江大学、百度、北京交通大学等联合提出一种将实例与Transformer(AOT)相关联的方法来同时统一匹配和解码多个实例。AOT模型在第三届大型VOS挑战赛中排名第一。
CV君
2022/09/01
8520
第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但目前的方法在零样本学习设置下,或是预测未见过的样本时,会出现性能不一致等问题。
新智元
2023/08/07
6300
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
视频分割在许多场景下被广泛应用。电影视觉效果的增强、自动驾驶的理解场景,以及视频会议中创建虚拟背景等等都需要应用到视频分割。近期,基于深度学习的视频分割已经有着不错的表现了,但这依旧是计算机视觉中一个具有挑战性的话题。
机器之心
2023/08/07
3540
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
CVPR 2020 论文大盘点-全景分割与视频目标分割篇
今天的内容关注于全景分割(Panoptic Segmentation)和视频目标分割(Video Object Segmentation,VOS)。
CV君
2020/06/28
1K0
CVPR 2020 论文大盘点-全景分割与视频目标分割篇
视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达
---- 新智元报道   编辑:好困 【新智元导读】只需要一句话、一个点击、一支画笔,就能在任意场景分割追踪任意物体! 近期,浙江大学ReLER实验室将SAM与视频分割进行深度结合,发布Segment-and-Track Anything (SAM-Track)。 SAM-Track赋予了SAM对视频目标进行跟踪的能力,并支持多种方式(点、画笔、文字)进行交互。 在此基础上,SAM-Track统一了多个传统视频分割任务,达成了一键分割追踪任意视频中的任意目标,将传统视频分割外推至通用视频分割。 SAM
新智元
2023/05/22
8530
视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达
学界 | Siamese:CVPR 2019 接收论文作者为你解读视频跟踪领域
AI 科技评论按,本文作者 Qiang Wang,原载于知乎,AI 科技评论获得授权转载。
AI科技评论
2019/05/08
8170
学界 | Siamese:CVPR 2019 接收论文作者为你解读视频跟踪领域
14篇论文入选CVPR!快手视觉研究成果精华总结
计算机视觉和模式识别领域的顶级会议 CVPR 正在进行中,本次大会接收率为 23.7%,其中快手有 14 篇论文被接收,这也是快手在国际视觉技术相关领域顶级会议上中稿最多的一次,研究成果数量的阶段性爆发标志着快手产学研合作从探索期逐步进入成熟期。
公众号-arXiv每日学术速递
2021/07/02
8030
14篇论文入选CVPR!快手视觉研究成果精华总结
ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS
视频分割任务 (Video Segmentation) 由图像分割任务扩展而来,旨在同时分割、检测、追踪视频中的所有目标,是一项比图像分割更具挑战的基础任务。
机器之心
2023/09/08
4980
ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值,但面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,始终是个挑战。
机器之心
2025/04/18
6860
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
在本文中,来自香港大学和字节跳动的研究者们提出了一种基于Transformer的参考视频目标分割新框架ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。ReferFormer在四个参考视频目标分割数据集上都取得了当前最优的性能。
Amusi
2022/04/18
7240
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
【导读】 近日,针对视频物体分割中缺乏训练样本和准确率较低的问题,来自美国南加州大学、谷歌公司的学者发表论文提出基于实例嵌入迁移的无监督视频物体分割方法。其通过迁移封装在基于图像的实例嵌入网络(instance embedding network)中的知识来实现。 实例嵌入网络为每个像素生成一个嵌入向量,可以识别属于同一个物体的所有像素。本文将在静态图像上训练的实例网络迁移到视频对象分割上,将嵌入向量与物体和光流特征结合,而无需模型再训练或在线微调。 所提出的方法优于DAVIS数据集和FBMS数据集中最先进
WZEARW
2018/04/13
1.7K0
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
视频语义分割介绍
随着深度学习的发展,图像语义分割任务取得了很大的突破,然而视频语义分割仍然是一个十分具有挑战性的任务,本文将会介绍视频语义分割最近几年顶会上的一些工作。
SIGAI学习与实践平台
2018/12/10
3K0
视频语义分割介绍
CVPR2021 | 基于transformer的视频实例分割网络VisTR
原文:End-to-End Video Instance Segmentation with Transformers
3D视觉工坊
2021/04/09
1.1K0
CVPR2021 | 基于transformer的视频实例分割网络VisTR
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%。此次ICCV 2021接收的论文分为检测、分割、跟踪、视觉定位、底层图像处理、图像视频检索、三维视觉等多个方向。本次腾讯优图实验室共有17篇论文被收录,其中Oral论文2篇,涵盖跨模态检索、分割、行人识别、神经网络、人群计数、车辆识别、物体识别、视频偏好推理、多标签识别等前沿领域。
优图实验室
2021/08/02
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
视频分割在移动端的算法进展综述
语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。
SIGAI学习与实践平台
2019/04/26
2.1K0
视频分割在移动端的算法进展综述
推荐阅读
14篇论文入选CVPR!快手视觉研究成果精华总结
6040
首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准
1640
CVPR竞赛冠军方案:复杂场景下的视频对象分割
3650
阿里文娱资深算法专家:视频物体分割算法的三个方向与最新应用
1.3K0
MASA:匹配一切、分割一切、跟踪一切
3320
第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例
8520
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
6300
「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了
3540
CVPR 2020 论文大盘点-全景分割与视频目标分割篇
1K0
视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达
8530
学界 | Siamese:CVPR 2019 接收论文作者为你解读视频跟踪领域
8170
14篇论文入选CVPR!快手视觉研究成果精华总结
8030
ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS
4980
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
6860
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
7240
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
1.7K0
视频语义分割介绍
3K0
CVPR2021 | 基于transformer的视频实例分割网络VisTR
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
1.1K0
视频分割在移动端的算法进展综述
2.1K0
相关推荐
14篇论文入选CVPR!快手视觉研究成果精华总结
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档