前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS

ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS

作者头像
机器之心
发布于 2023-09-08 02:51:46
发布于 2023-09-08 02:51:46
4650
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

作者:张韬、田兴业

视频分割任务 (Video Segmentation) 由图像分割任务扩展而来,旨在同时分割、检测、追踪视频中的所有目标,是一项比图像分割更具挑战的基础任务。

相比于逐帧处理视频帧的图像分割算法,视频分割算法可以提供时序稳定、准确的分割结果,并追踪每一个单独的目标,实现视频中实例级别的理解与编辑功能。视频分割在视频编辑、短视频基础工具、自动驾驶、监控安防等下游任务有着重要作用。

视频编辑(目标擦除)[a]

视频编辑(视频换背景)[b]

http://mpvideo.qpic.cn/0b2eliabcaaa5iaovoplhjsfawwdcfnaaeia.f10002.mp4?

自动驾驶(车辆与行人分割与追踪)

近年来,Transformer [1] 在 CV 中各个领域被广泛应用。DETR [2] 作为基于 Transformer 的经典工作之一,在图像目标检测、图像实例分割领域展现出了强大的潜力。相比于基于 ROI 的实例表征方式,DETR 所采用的基于 Query 的实例表征方式展现出了更强劲的表征能力以及灵活性。受到图像目标检测领域进展的启发,VisTR [9] 首次将 Transformer 应用于 VIS 领域,展现出了巨大的性能提升。随后基于 Transformer 的方法在 VIS 领域成为了主流。

目前视频分割领域的方法可以分为在线 (online) 与离线 (offline) 方法。在线方法在预测当前帧结果时以当前帧及历史帧作为输入,主要应用于需要实时处理的需求场景,如自动驾驶中的实时感知。离线方法在预测当前帧结果时可以利用视频中任意帧作为输入,主要应用于离线处理的需求场景,如视频编辑等。

现有的 SOTA 的 online 方法 (MinVIS [3]、IDOL [4] 等) 遵循着先执行图像分割后逐帧关联实例的技术路线。这种技术路线并未根据其他帧的信息来优化当前帧的分割结果,因此缺乏对于视频信息的有效利用。

现有的 SOTA 的 offline 方法 (SeqFormer [5]、Mask2Former-VIS [6]、VITA [7]、IFC [8] 等) 采用一个紧耦合网络来端到端地处理视频分割任务。虽然这种技术路线理论上可以更加有效地利用视频信息,但是在长视频以及复杂场景中,性能却不尽人意。如以下视频抽帧所示,当视频中出现很多个同类目标发生相互遮挡换位等情况时,Mask2Former-VIS 的目标跟踪结果出现错乱,分割精度也受到影响。

Mask2Former-VIS 在换位场景极易追踪出错(ID 请放大观看)

offline 方法相比于 online 方法可以利用更多的信息,因此理论上应该有着更好的表现。然而事实并非如此,在复杂场景下现有的 offline 方法的性能显著低于 online 方法。我们认为这是由于现有的 offline 方法对实例表征的设定所导致的。现有的 offline 方法采用单一的可学习的 query 来表征视频中的一个实例,这种可学习的 query 可以被看作位置以及大小先验。然而在实际场景中,某个实例的表观和空间位置都可能发生大幅变化,因此仅靠位置与大小先验很难从所有帧中都探测到该实例的正确特征。 正如上面视频 demo 所示,3 号 query(红色掩码覆盖)学习到的先验位置信息处在视频的右侧,然而视频前段所标记的大象在视频结束时已运动至视频左侧。

那么如何充分利用视频信息以使得 offline 方法发挥出理论上应有的潜力?来自武汉大学与快手 Y-tech 的研究者共同研发了一种新的视频实例分割算法——DVIS,回答了该问题。研究论文已被 ICCV2023 接收。

  • 论文地址:https://arxiv.org/pdf/2306.03413.pdf
  • 项目地址:https://github.com/zhang-tao-whu/DVIS

DVIS 在 OVIS、YouTube-VIS、VIPSeg 等数据集上均取得了 SOTA 表现,在 OVIS 数据集上从 2023 年 2 月霸榜至今,并在 CVPR 2023 的 PVUW 挑战赛、ICCV2023 的 LSVOS 挑战赛等多项赛事中取得冠军。

具体来说,DVIS 具有以下特性:

  • DVIS 可以实现视频通用分割,可以处理视频实例分割 (VIS)、视频语义分割 (VSS) 以及视频全景分割 (VPS) 三大任务。
  • DVIS 可以在 online 以及 offline 模式下运行。
  • 解耦的设计使得 DVIS 训练所需要的计算资源较少,相比于 segmenter 仅带来了不足 5% 的额外计算代价,DVIS-R50 可以在 2080Ti 上一天内完成训练。
  • DVIS 在多个 VIS 以及 VPS 的数据集上均取得 SOTA 性能。

效果展示

在本文之前,VIS 领域的 SOTA 方法 MinVIS 在复杂视频上的表现较差,主要体现在目标跟踪 ID 容易发生错乱、分割掩码破碎等现象。本文提出的 DVIS 则可以在复杂长视频中追踪并稳定分割目标。MinVIS 和 DVIS 的对比如下视频所示。

http://mpvideo.qpic.cn/0b2e4qabcaaabeaouahlhjsfbzgdchsaaeia.f10002.mp4?

除此之外,DVIS 在目标占画面比例较小时依然表现良好:

http://mpvideo.qpic.cn/0bc3keaakaaaymapto7l4nsfauodaviqabia.f10002.mp4?

方法简介

既然直接建模实例在整个视频上的表征是困难的,那么是否可以首先在单帧中建模实例,然后逐帧关联实例来获取同一实例在所有帧的表征,最后再对实例的时序信息加以利用。毫无疑问,逐帧关联的难度要比直接关联所有视频帧上的同一实例小得多。在给出时间上良好对齐的实例特征的情况下,有效地对这些特征加以利用也是轻而易举的。

我们将 VIS 任务分解为图像分割、物体关联、时序精化三个子步骤,相应的我们分别设计 segmenter、tracker 和 refiner 三个网络模块来处理这三个子步骤。其中图像分割即为在单帧中分割出目标并获取目标的表征。物体关联即为关联相邻帧的目标表征,为 refiner 提供一个良好对齐的初值。时序精化即为基于对齐好的物体时序信息来优化物体的分割结果以及追踪结果。

当 DVIS 的架构确定好后,我们需要针对图像分割、物体关联、时序精化三个子步骤分别设计合理的 segmenter、tracker 以及 refiner 网络。图像分割子步骤中,我们采用了 SOTA 的图像通用分割网络 Mask2Former 作为 segmenter 来提取物体的表征;物体关联子步骤中,我们将追踪建模为参考去噪 / 重建任务,并设计了 Referring Tracker 来进行稳健的目标关联;在时序精化子步骤中,我们基于 1D 卷积以及 Self Attention 实现了 Temporal Refiner 来有效地利用物体的时序信息。

1. Referring Tracker

DVIS 将相邻帧物体的关联任务建模为根据上一帧物体 query 来重建当前帧对应的物体 query,即给定上一帧物体的 query 作为 reference query,然后从 segmenter 输出的当前帧的 object query 中聚合信息,最后输出 reference query 相应的实例在当前帧的掩码和类别。Referring Tracker 通过 Referring Cross Attention 来学习以上过程。Referring Cross Attention 充分利用 refrence query 来指导信息的聚合并阻隔了 reference query 与当前信息的混杂,其由标准 Cross Attention 稍作改动而得到:

2. Temporal Refiner

在 Referring Tracker 输出在时间维度上基本对齐的目标 query 后,就可以很容易的通过标准操作(如 1D 卷积以及 Self Attention)来对时序特征进行有效利用。我们设计的 Temporal Refiner 也非常简单,由 1D 卷积以及 Self Attention 来聚合时序特征。Temporal Refiner 基于物体的时序特征来优化分割结果以及追踪结果。

值得一提的是 DVIS 的设计很灵活,Referring Tracker 可以叠加于任何 query-based 的图像分割器来实现在线的视频分割,Temporal Refiner 同样可以叠加于任何在线的视频分割器来获取更强大的分割性能。

实验结果

我们在 OVIS 数据集上对于 Referring Tracker 和 Temporal Refiner 的作用进行了消融实验。Tracker 的主要作用是实现更鲁棒的目标关联,尤其是对于中度遮挡和重度遮挡的物体有较大改善(如下表所示,为中度遮挡以及重度遮挡的目标分别带来了 5.2 AP 和 4.3 AP 的性能提升)。Refiner 的主要作用是充分利用时序信息,结果显示由于时序信息的有效利用,Temporal Refiner 对于被轻度、中度、重度遮挡物体的性能都有显著提升(如下表所示,为轻度、中度以及重度遮挡的目标分别带来了 2.4 AP 和 1.8 AP 和 5.1 AP 的性能提升)。

并且,由于 Referring Tracker 和 Temporal Refiner 仅处理 object query,因此计算代价很小,计算量总和少于 Segmenter 的 5%(见下表):

DVIS 在 OVIS、YouTube-VIS (2019,2021) 以及 VIPSeg 等数据集上均取得 SOTA:

结论

在本文中,我们提出了 DVIS,一种将 VIS 任务解耦的框架,将 VIS 任务分为三个子任务:分割,跟踪和细化。我们的贡献有三个方面:1)我们将解耦策略引入了 VIS 任务并提出了 DVIS 框架,2)我们提出了 Referring Tracker,通过将帧间关联建模为引用去噪来增强跟踪的鲁棒性,3)我们提出了 Temporal Refiner,利用整个视频的信息来精化分割结果,弥补了之前工作在这方面的缺失。结果表明,DVIS 在所有 VIS 数据集上实现了 SOTA 性能。

虽然 DVIS 的设计来源于对 VIS 领域内既有方法不足的反思,但是 DVIS 的设计并不局限于视频实例分割领域,其可以无任何改动的在 VIS,VPS 和 VSS 上都取得 SOTA 性能,这证明了 DVIS 的通用性与强大潜力。我们希望,DVIS 将成为一个强大且基础的基准,并且我们的解耦洞见将激发在线和离线 VIS 领域的未来研究。

从未来技术发展的角度上,我们将会继续探索面向图像、视频以及更多模态的基础视觉感知技术,从模型通用性、开放类别等角度进一步拓展基础视觉感知技术的边界。

参考文献

[1] Attention Is All You Need. NeurIPS2017

[2] End-to-End Object Detection with Transformers. ECCV2020

[3] MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training. NeurIPS2022

[4] In Defense of Online Models for Video Instance Segmentation.ECCV 2022

[5] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation. ECCV 2022

[6] Mask2Former for Video Instance Segmentation.

[7] Video Instance Segmentation via Object Token Association. NeurIPS2022

[8] Video Instance Segmentation using Inter-Frame Communication Transformers. NeurIPS2021

[9] End-to-End Video Instance Segmentation with Transformers

[a] https://github.com/zllrunning/video-object-removal

[b] https://github.com/PeterL1n/RobustVideoMatting

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
实例分割是计算机视觉中的基础问题之一。虽然静态图像中的实例分割已经有很多的研究,对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少。而真实世界中的摄像头所接收的,无论自动驾驶背景下车辆实时感知的周围场景,还是网络媒体中的长短视频,大多为视频流的信息而非纯图像信息,因而研究对视频建模的模型有着十分重要的意义。
美团无人配送
2021/07/01
1.5K0
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
华科团队发布 OVIS 遮挡视频实例分割基准数据集
内容提要:实例分割可广泛应用于各种应用场景中,作为计算机视觉领域的一个重要研究方向,也具有较大难度与挑战性。而很多场景中由于遮挡情况,使得实例分割成为难题中的难题。近日,来自华中大、阿里等机构的研究人员,为了解决这一问题,提出了一个大规模遮挡视频实例分割数据集 OVIS。
HyperAI超神经
2021/03/10
8280
华科团队发布 OVIS 遮挡视频实例分割基准数据集
ICCV2023|新数据集 MeViS:基于动作描述的视频分割
随着各种视觉语言大模型的蓬勃发展,构建强大的多模态模型以解决实际问题已成为明显的趋势。多模态大模型,如 CLIP 和 SAM,在以自然语言(文本)作为提示的图像识别和分割任务上展现出了卓越的性能。然而,当面对复杂场景的视频以及包含动作行为等描述信息的自然语句时,比如 “找出违规掉头的那些车辆” ,模型是否能够准确地从视频中找到并分割出这些目标物体呢?
CV君
2023/10/23
5580
ICCV2023|新数据集 MeViS:基于动作描述的视频分割
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
在本文中,来自香港大学和字节跳动的研究者们提出了一种基于Transformer的参考视频目标分割新框架ReferFormer。其将语言描述视为查询条件,直接在视频中查找目标对象,除此之外,通过实例序列的整体输出自然地完成目标物体的跟踪,无需进行任何后处理。ReferFormer在四个参考视频目标分割数据集上都取得了当前最优的性能。
Amusi
2022/04/18
6870
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
图像分割技术是计算机视觉领域的重要研究方向,也是该领域其他应用的一个重要前期步骤。近些年来,随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,尤其在场景物体分割、人体背景分割、三维重建等技术在无人驾驶、增强现实等城市数字化领域得到了广泛应用。 而近日,特斯联科技集团首席科学家邵岭博士及团队提出具有语义对齐的多级表征学习框架解决指定视频目标分割(Referring Video Object Segmentation, RVOS)中存在的问题,且相关研究成果(标题为: Multi-Level Repr
AI科技评论
2022/05/25
5460
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割
本文是对苏黎世联邦理工、中国香港科技大学和快手科技的论文《Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation- PCAN》的解读,该论文被 NeurIPS 2021 接收为 spotlight。
机器之心
2021/12/28
5350
驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
视觉分割技术在街景理解中具有重要地位,同时也面临诸多挑战。美团街景理解团队经过长期探索,构建了一套兼顾精度与效率的分割技术体系,在应用中取得了显著效果。同时,相关技术斩获了CVPR 2023竞赛2项冠军1项季军。本文将详细介绍街景理解中分割技术的探索与应用,希望能给从事相关研究工作的同学带来一些帮助或启发。
美团技术团队
2023/09/05
5050
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
视频语义分割介绍
随着深度学习的发展,图像语义分割任务取得了很大的突破,然而视频语义分割仍然是一个十分具有挑战性的任务,本文将会介绍视频语义分割最近几年顶会上的一些工作。
SIGAI学习与实践平台
2018/12/10
2.9K0
视频语义分割介绍
7 Papers & Radios | 因果研究大佬B Schölkopf论因果表示学习;OpenAI DALL·E官方论文
论文 1:Towards Causal Representation Learning
机器之心
2021/03/15
5800
7 Papers & Radios | 因果研究大佬B Schölkopf论因果表示学习;OpenAI DALL·E官方论文
单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳
机器之心报道 机器之心编辑部 视频分割效果优于所有现有方法,这篇入选CVPR 2022的论文是用Transformer解决CV任务的又一典范。 基于注意力的深度神经网络(DNN)在NLP和CV等不同领域的各种任务上都表现出了卓越的性能。这些进展使得此类网络(如 Transformer)成为解决多模态问题的有力候选。特别是近一两年,Transformer 模型已经开始在CV任务上大展手脚,从目标识别到检测,效果优于通用的CNN视觉骨干网络。 参考视频对象分割(referring video object se
机器之心
2022/03/09
7010
CVPR 2020 论文大盘点-全景分割与视频目标分割篇
今天的内容关注于全景分割(Panoptic Segmentation)和视频目标分割(Video Object Segmentation,VOS)。
CV君
2020/06/28
9810
CVPR 2020 论文大盘点-全景分割与视频目标分割篇
视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达
---- 新智元报道   编辑:好困 【新智元导读】只需要一句话、一个点击、一支画笔,就能在任意场景分割追踪任意物体! 近期,浙江大学ReLER实验室将SAM与视频分割进行深度结合,发布Segment-and-Track Anything (SAM-Track)。 SAM-Track赋予了SAM对视频目标进行跟踪的能力,并支持多种方式(点、画笔、文字)进行交互。 在此基础上,SAM-Track统一了多个传统视频分割任务,达成了一键分割追踪任意视频中的任意目标,将传统视频分割外推至通用视频分割。 SAM
新智元
2023/05/22
7560
视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达
视频分割在移动端的算法进展综述
语义分割任务要求给图像上的每一个像素赋予一个带有语义的标签,视频语义分割任务是要求给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。
SIGAI学习与实践平台
2019/04/26
2.1K0
视频分割在移动端的算法进展综述
CVPR2021 | 基于transformer的视频实例分割网络VisTR
原文:End-to-End Video Instance Segmentation with Transformers
3D视觉工坊
2021/04/09
1.1K0
CVPR2021 | 基于transformer的视频实例分割网络VisTR
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
计算机视觉世界三大顶会之一的ICCV 2021论文接收结果出炉!本次大会收到来自全球共6236篇有效投稿,最终有1617篇突出重围被录取,录用率约为25.9%。此次ICCV 2021接收的论文分为检测、分割、跟踪、视觉定位、底层图像处理、图像视频检索、三维视觉等多个方向。本次腾讯优图实验室共有17篇论文被收录,其中Oral论文2篇,涵盖跨模态检索、分割、行人识别、神经网络、人群计数、车辆识别、物体识别、视频偏好推理、多标签识别等前沿领域。
优图实验室
2021/08/02
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
视频物体分割--One-Shot Video Object Segmentation
本文提出了一种名为“One-Shot Video Object Segmentation”的算法,该算法能够在没有 temporal information的视频中,对视频中的物体进行分割。具体来说,该算法包括两个主要的步骤:1)利用已有的图像语义分割模型,对视频帧进行语义分割;2)利用物体的位置先验信息,对分割后的图像进行实例分割。实验结果表明,该算法在 DAVIS 和 Youtube-Objects 两个数据集上的表现优于已有的算法,同时,该算法可以扩展到更多的应用场景中。"
用户1148525
2018/01/03
1.4K0
视频物体分割--One-Shot Video Object Segmentation
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。
机器之心
2024/03/26
4620
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
一文详述Attention最新进展
动机:只给定物体类别的话,网络往往只关注最具有判别性的信息,无法挖掘到整个物体信息。能否设计一种drop操作,每次迭代时drop最具判别性的信息,强迫网络关注其他的区域?
深度学习技术前沿公众号博主
2020/06/04
7460
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但目前的方法在零样本学习设置下,或是预测未见过的样本时,会出现性能不一致等问题。
新智元
2023/08/07
5430
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路
机器之心专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景。来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到端实例分割任务中与实例存在一一对应的特性,提出基于Query的实例分割新方法,在速度和精度上均超过现有算法。 在今年的计算机视觉顶级会议 ICCV 2021 上,腾讯 PCG 应用研究中心(ARC)与华中科技大学电信学院人工智能研究所联合提出业内领先的端到端实例分割算法 QueryInst。实
机器之心
2023/03/29
5400
腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路
推荐阅读
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
1.5K0
华科团队发布 OVIS 遮挡视频实例分割基准数据集
8280
ICCV2023|新数据集 MeViS:基于动作描述的视频分割
5580
CVPR 2022 | 刷新4个SOTA!港大&字节开源ReferFormer: 语言作为查询的参考视频目标分割框架
6870
CVPR`22丨特斯联AI提出:基于语义对齐多级表征学习的指定视频目标分割
5460
驾驭白夜场景、刷新多个SOTA,苏黎世联邦理工用高效时序建模提升多目标追踪与分割
5350
斩获CVPR 2023竞赛2项冠军|美团街景理解中视觉分割技术的探索与应用
5050
视频语义分割介绍
2.9K0
7 Papers & Radios | 因果研究大佬B Schölkopf论因果表示学习;OpenAI DALL·E官方论文
5800
单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳
7010
CVPR 2020 论文大盘点-全景分割与视频目标分割篇
9810
视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达
7560
视频分割在移动端的算法进展综述
2.1K0
CVPR2021 | 基于transformer的视频实例分割网络VisTR
1.1K0
ICCV 2021 | 腾讯优图17篇论文入选,含跨模态检索与分割、车辆识别、视频理解等领域
1.1K0
视频物体分割--One-Shot Video Object Segmentation
1.4K0
CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
4620
一文详述Attention最新进展
7460
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA
5430
腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路
5400
相关推荐
CVPR 2021 Oral: 基于Transformers的端到端视频实例分割方法VisTR
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档