Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >入门 | 一文概览视频目标分割

入门 | 一文概览视频目标分割

作者头像
机器之心
发布于 2018-05-10 02:25:51
发布于 2018-05-10 02:25:51
1.5K0
举报
文章被收录于专栏:机器之心机器之心

选自Medium

机器之心编译

参与:刘晓坤、路雪

近日 Visualead 研究主管 Eddie Smolyansky 在 Midum 网站撰文介绍视频目标分割的基础知识,从视频目标分割问题简介、数据集和 DAVIS 挑战赛入手,同时介绍了 Visualead 最新发布的视频数据集 GyGO 和 2016 年以来两种主要的视频目标分割方法:MaskTrack 和 OSVOS。

DAVIS-2016 视频物体分割数据集中经过正确标注的几个帧

本文介绍了视频目标分割问题和对应的经典解决方案,简要概括为:

1. 问题、数据集和挑战赛;

2. 我们今天要宣布的新数据集;

3. 自 2016 年以来使用的两种主要方法:MaskTrack 和 OSVOS。

文章假设读者已经熟悉计算机视觉深度学习领域的一些概念。我希望能对 DAVIS 挑战赛进行一个清晰易懂的介绍,让新手也能快速进入状态。

介绍

计算机视觉领域中和目标有关的经典任务有三种:分类、检测和分割。其中分类是为了告诉你「是什么」,后面两个任务的目标是为了告诉你「在哪里」,而分割任务将在像素级别上回答这个问题。

经典计算机视觉任务(图像来自 Stanford cs231n 课程幻灯片)

2016 年语义分割领域出现了很成熟的技术,甚至开始接近现有数据集的饱和性能。与此同时,2017 年也是各种视频处理任务爆发性增长的一年:动作分类、动作(时序)分割、语义分割等等。这里我们将着眼于视频目标分割。

问题、数据集、挑战赛

视频目标分割任务和语义分割有两个基本区别:

  • 视频目标分割任务分割的是一般的、非语义的目标;
  • 视频目标分割添加了一个时序模块:它的任务是在视频的每一连续帧中寻找感兴趣目标的对应像素。

分割的细分。图中每一叶都有一个示例数据集。

基于视频任务的特性,我们可以将问题分成两个子类:

  • 无监督(亦称作视频显著性检测):寻找并分割视频中的主要目标。这意味着算法需要自行决定哪个物体才是「主要的」。
  • 半监督:在输入中(只)给出视频第一帧的正确分割掩膜,然后在之后的每一连续帧中分割标注的目标。

半监督案例可以扩展为多物体分割问题,我们可以在 DAVIS-2017 挑战赛中看到。

DAVIS-2016 (左) 和 DAVIS-2017 (右) 标注的主要区别:多物体分割(multi-instance segmentation)

我们可以看到,DAVIS 是一个像素完美匹配标注的数据集。它的目标是重建真实的视频场景,如摄像机抖动、背景混杂、遮挡以及其它复杂状况。

DAVIS-2016 的复杂度属性

有两个度量分割准确率的主要标准:

  • 区域相似度(Region Similarity):区域相似度是掩膜 M 和真值 G 之间的 Intersection over Union 函数
  • 轮廓精确度(Contour Accuracy):将掩膜看成一系列闭合轮廓的集合,并计算基于轮廓的 F 度量,即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量。

直观上,区域相似度度量标注错误像素的数量,而轮廓精确度度量分割边界的准确率。

新的数据集!GyGO:电商视频目标分割数据集(by Visualead)

我们将在未来几个星期内陆续发布 GyGO 的各部分内容,GyGO 是一个专用于电商视频物体分割的数据集,由大约 150 个短视频组成。

  • 数据集地址:https://github.com/ilchemla/gygo-dataset

一方面,视频画面的序列非常简单,几乎没有遮挡、快速移动或者其它提高复杂度的属性。另一方面,这些视频中的物体相比 DAVIS-2016 数据集有更多的类别,其中很多序列包含了已知的语义类别(人类、汽车等)。GyGO 专门搜集智能手机拍摄的视频,因此帧比较稀疏(标注的视频速度只有约 5 fps)。

我们基于以下两个目的公布数据集:

  1. 目前关于视频目标分割的数据严重缺乏,只有数百个带标注的视频。我们相信每一次贡献都有望帮助提升算法表现。我们分析认为,在 GyGO 和 DAVIS 数据集上进行联合训练,视频目标分割任务能得到更好的结果。
  2. 为了推进更加开放共享的文化,鼓励其他研究人员加入我们。:) DAVIS 数据集和能促进其生长的研究生态系统给我们提供了很大的帮助,我们也希望社区能够从中受益。

DAVIS-2016 中的两个主要方法

随着用于单一目标分割的 DAVIS-2016 数据集的公布,两个最重要的方法出现了:MaskTrack 和 OSVOS。在 DAVIS-2017 挑战赛的参赛团队中,每一支队伍都想构建超越这两者的解决方案,它们俨然已经成为「经典」。让我们看看它们是怎么工作的:

单次视频目标分割(One Shot Video Object Segmentation,OSVOS)

OSVOS 背后的概念简单而强大:

OSVOS 训练流程

1. 选择一个网络(比如 VGG-16)在 ImageNet 上进行分类预训练。

2. 将其转换为全连接卷积网络(FCN),从而保存空间信息:

  • 训练结束时删去 FC 层。
  • 嵌入一个新的损失函数:像素级 sigmoid 平衡交叉熵(pixel-wise sigmoid balanced cross entropy,曾用于 HED)。现在,每一个像素都可以被分类成前景或背景。

3. 在 DAVIS-2016 训练集上训练新的全连接卷积网络。

4. 单次训练:在推断的时候,给定一个新的视频输入进行分割并在第一帧给出真实标注(记住,这是一个半监督问题),创建一个新模型,使用 [3] 中训练的权重进行初始化,并在第一帧进行调整。

这个流程的结果,是适用于每一个新视频的唯一且一次性使用的模型,由于第一帧的标注,对于该新视频而言,模型其实是过拟合的。由于大多数视频中的目标和背景并不会发生巨大改变,因此这个模型的结果还是不错的。自然,如果该模型用于处理随机视频序列时,则它的表现得就没那么好了。

注意:OSVOS 方法是独立地分割视频的每一帧的,因此视频中的时序信息是没有用的。

MaskTrack(从静态图像学习视频目标分割)

OSVOS 独立地分割视频的每一帧,而 MaskTrack 还需要考虑视频中的时序信息:

MaskTrack 的 Mask 传播模块

  1. 每一个帧将前一帧的预测掩膜作为额外输入馈送给网络:现在输入有四个通道 (RGB+前一帧的掩膜)。使用第一帧的真实标注初始化该流程。
  2. 该网络原本建立在 DeepLab VGG-16(模块化)基础上,现在在语义分割和图像显著性数据集上从头开始进行训练。通过将每一张静态图像的真实标注稍微转换,人工合成前一帧的掩膜通道输入。
  3. 基于光流场输入增加一个相同的第二流网络。模型的权重和 RGB 流的权重相同。通过将两个结果取平均融合两个流的输出。
  4. 在线训练:用第一帧的真实标注合成额外的、针对特定视频的训练数据。

注意:这两个方法都依赖于静态图像训练(与静态图像数据集相反,视频数据集较少且规模较小)。

综上所述,在这篇介绍性文章中我们了解了视频目标分割问题和 2016 年的最优解决方案。

P.S. 这里我想感谢 DAVIS 数据集和挑战赛背后的团队做出的杰出贡献。

参考文献

文中提到和分析过的主要文献:

1. Benchmark Dataset and Evaluation Methodology for Video Object Segmentation F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, and A. Sorkine-Hornung, Computer Vision and Pattern Recognition (CVPR) 2016

2. The 2017 DAVIS Challenge on Video Object SegmentationJ. Pont-Tuset, F. Perazzi, S. Caelles, P. Arbeláez, A. Sorkine-Hornung, and L. Van Gool, arXiv:1704.00675, 2017

3. Learning Video Object Segmentation from Static Images F. Perazzi, A. Khoreva, R. Benenson, B. Schiele, A. Sorkine-Hornung CVPR 2017, Honolulu, USA

4. One-Shot Video Object Segmentation, S. Caelles, K.K. Maninis, J. Pont-Tuset, L. Leal-Taixé, D. Cremers, and L. Van Gool, Computer Vision and Pattern Recognition (CVPR), 2017

原文链接:https://medium.com/@eddiesmo/video-object-segmentation-the-basics-758e77321914

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-10-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频分割在移动端的算法进展综述
语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。
SIGAI学习与实践平台
2019/04/26
2.1K0
视频分割在移动端的算法进展综述
阿里文娱资深算法专家:视频物体分割算法的三个方向与最新应用
视频物体分割(Video Object Segmentation,简称 VOS),顾名思义就是从视频所有图像中把感兴趣的物体区域完整的分割出来。为了方便大家的理解,先给出一个我们自己的视频物体分割的结果:
机器之心
2019/08/02
1.3K0
阿里文娱资深算法专家:视频物体分割算法的三个方向与最新应用
干货 | 视频显著性目标检测(文末附有完整源码)
显著性检测近年来引起了广泛的研究兴趣。这种日益流行的原因在于在各种视觉任务(如图像分割、目标检测、视频摘要和压缩等)中有效地使用了这些模型。显著性模型大致可分为两类:人眼注视预测和显著目标检测。根据输入类型,可进一步分为静态显著性模型和动态显著性模型。
计算机视觉研究院
2019/05/13
4.4K0
干货 | 视频显著性目标检测(文末附有完整源码)
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
视觉分割技术在街景理解中具有重要地位,同时也面临诸多挑战。美团街景理解团队经过长期探索,构建了一套兼顾精度与效率的分割技术体系,在应用中取得了显著效果。同时,相关技术斩获了CVPR 2023竞赛2项冠军1项季军。本文将详细介绍街景理解中分割技术的探索与应用,希望能给从事相关研究工作的同学带来一些帮助或启发。
美团技术团队
2023/09/05
5000
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
视频语义分割介绍
随着深度学习的发展,图像语义分割任务取得了很大的突破,然而视频语义分割仍然是一个十分具有挑战性的任务,本文将会介绍视频语义分割最近几年顶会上的一些工作。
SIGAI学习与实践平台
2018/12/10
2.9K0
视频语义分割介绍
【目标分割】开源 | 百度--模型学习前景特征与背景特征,对前景的分割更为精准,性能SOTA!
论文地址: https://arxiv.org/pdf/2003.08333.pdf
CNNer
2020/09/28
8050
【目标分割】开源 | 百度--模型学习前景特征与背景特征,对前景的分割更为精准,性能SOTA!
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
【导读】 近日,针对视频物体分割中缺乏训练样本和准确率较低的问题,来自美国南加州大学、谷歌公司的学者发表论文提出基于实例嵌入迁移的无监督视频物体分割方法。其通过迁移封装在基于图像的实例嵌入网络(instance embedding network)中的知识来实现。 实例嵌入网络为每个像素生成一个嵌入向量,可以识别属于同一个物体的所有像素。本文将在静态图像上训练的实例网络迁移到视频对象分割上,将嵌入向量与物体和光流特征结合,而无需模型再训练或在线微调。 所提出的方法优于DAVIS数据集和FBMS数据集中最先进
WZEARW
2018/04/13
1.7K0
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
基于双流编码-解码深度网络的视频对象分割算法简介
背景介绍 视频对象分割(Video Object Segmentation),目的是将视频段中的物体连续地“抠”出来以得到视频每一帧的前景、背景分割结果。分割得到的结果可被用于更高级的识别、理解等计算机视觉任务,是目前基于内容的视频检索、视频编辑、视频自动标注的基础和关键环节。传统的视频对象分割算法有很多,根据在测试视频上执行是否需要人工标注可将其分为半监督算法和无监督算法两类。这里半监督算法在执行时需要人工对某些帧进行精确或非精确标注并根据标注结果得到其他帧的分割结果;而无监督算法在执行时完全自动地对所有
用户1324186
2018/03/05
1.9K0
基于双流编码-解码深度网络的视频对象分割算法简介
CVPR 2019 | 惊艳的SiamMask:开源快速同时进行目标跟踪与分割算法
上面这张Gif图演示了 SiamMask 的效果,只需要鼠标滑动选择目标的包围框,即可同时实现目标跟踪与分割。
AI科技大本营
2019/03/19
1K0
CVPR 2019 | 惊艳的SiamMask:开源快速同时进行目标跟踪与分割算法
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
机器之心专栏 机器之心编辑部 视频目标分割 (Video Object Segmentation, VOS) 的现有 SOTA 方法在已有数据集上已经取得 90+% J&F 的优异性能,似乎已经很好地解决了这一研究问题。那么现有方法在更复杂场景中的处理能力如何呢? 为了探究这个问题,来自南洋理工大学、浙江大学、牛津大学、和字节跳动的研究者们构建了一个专门针对复杂场景的大规模视频目标分割数据集 coMplex video Object SEgmentation (MOSE)。 论文地址:https://ar
机器之心
2023/02/23
6200
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
2020年,语义分割方向该怎么走?
我们可以看到,在已经公布的CVPR2020的文章来看,单纯的语义分割领域的文章已经不太多,往提升精度上来进行的工作也已经接近饱和。
AI算法修炼营
2020/05/08
2.6K0
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
在本文中,来自香港大学和字节跳动的研究者们提出了一种基于Transformer的参考视频目标分割新框架ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。ReferFormer在四个参考视频目标分割数据集上都取得了当前最优的性能。
Amusi
2022/04/18
6860
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow
AI科技大本营
2020/02/19
8930
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
视频人物抠像技术在电影、游戏、短视频制作和实时视频通讯中具有广泛的应用价值,但面对复杂背景和多目标干扰时,如何实现一套兼顾发丝级细节精度及分割级语义稳定的视频抠图系统,始终是个挑战。
机器之心
2025/04/18
2540
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
华科团队发布 OVIS 遮挡视频实例分割基准数据集
内容提要:实例分割可广泛应用于各种应用场景中,作为计算机视觉领域的一个重要研究方向,也具有较大难度与挑战性。而很多场景中由于遮挡情况,使得实例分割成为难题中的难题。近日,来自华中大、阿里等机构的研究人员,为了解决这一问题,提出了一个大规模遮挡视频实例分割数据集 OVIS。
HyperAI超神经
2021/03/10
8240
华科团队发布 OVIS 遮挡视频实例分割基准数据集
干货 | 全方位解读全景分割技术, 从任务定义到网络构建与预测
AI 科技评论按,本文作者刘环宇,系浙江大学控制科学与工程自动化系硕士,旷视科技研究院算法研究员,全景分割算法 OANet 第一作者,研究方向包括全景分割、语义分割等。同时,他也是 2018 COCO + Mapillary 全景分割比赛旷视 Detection 组冠军团队成员。
AI科技评论
2019/10/31
1.7K0
每周论文清单:知识图谱,文本匹配,图像翻译,视频对象分割
这是 PaperDaily 的第31篇文章 [ 自然语言处理 ] Knowledge Graph Embedding: A Survey of Approaches and Applications @jerryshi 推荐 #Knowledge Graph 本文对当下流行的 Knowledge Graph Eembedding 进行汇总,主要介绍了两大类,Translational Distance Models 和 Semantic Matching Models,简要叙述了每中方式下的算法。最后又给出
企鹅号小编
2018/01/24
8860
汇总 | 深度学习中图像语义分割基准数据集详解
图像语义分割是计算机视觉最经典的任务之一,早期的图像分割主要有以下几种实现方法。
OpenCV学堂
2019/08/28
2.9K0
汇总 | 深度学习中图像语义分割基准数据集详解
动手实践系列:CV语义分割!
图像分割是计算机视觉中除了分类和检测外的另一项基本任务,它意味着要将图片根据内容分割成不同的块。相比图像分类和检测,分割是一项更精细的工作,因为需要对每个像素点分类。
Datawhale
2021/12/08
9790
动手实践系列:CV语义分割!
干货 | 快速端到端嵌入学习用于视频中的目标分割
我们开始进入今天的主题,接下来主要和大家分享目标在视频中的实时分割技术,来,一起学习吧!
计算机视觉研究院
2019/05/13
9900
推荐阅读
视频分割在移动端的算法进展综述
2.1K0
阿里文娱资深算法专家:视频物体分割算法的三个方向与最新应用
1.3K0
干货 | 视频显著性目标检测(文末附有完整源码)
4.4K0
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
5000
视频语义分割介绍
2.9K0
【目标分割】开源 | 百度--模型学习前景特征与背景特征,对前景的分割更为精准,性能SOTA!
8050
【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移
1.7K0
基于双流编码-解码深度网络的视频对象分割算法简介
1.9K0
CVPR 2019 | 惊艳的SiamMask:开源快速同时进行目标跟踪与分割算法
1K0
为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE
6200
2020年,语义分割方向该怎么走?
2.6K0
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
6860
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
8930
CVPR 2025|视频抠图MatAnyone来了,一次指定全程追踪,发丝级还原
2540
华科团队发布 OVIS 遮挡视频实例分割基准数据集
8240
干货 | 全方位解读全景分割技术, 从任务定义到网络构建与预测
1.7K0
每周论文清单:知识图谱,文本匹配,图像翻译,视频对象分割
8860
汇总 | 深度学习中图像语义分割基准数据集详解
2.9K0
动手实践系列:CV语义分割!
9790
干货 | 快速端到端嵌入学习用于视频中的目标分割
9900
相关推荐
视频分割在移动端的算法进展综述
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档