Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2022 | 上交&腾讯&港中文开源FAME:助力视频表征学习运动感知的数据增强

CVPR 2022 | 上交&腾讯&港中文开源FAME:助力视频表征学习运动感知的数据增强

作者头像
Amusi
发布于 2022-06-13 11:10:56
发布于 2022-06-13 11:10:56
9350
举报
文章被收录于专栏:CVerCVer

CVPR 2022 | 上海交大&腾讯AI Lab&港中文开源FAME:助力视频表征学习运动感知的数据增强

【引言】

鉴于对比学习在图像领域的成功,如何在视频表征学习中更好的运用对比学习引起了极大的关注。我们发现,当简单地拉近视频的两个增强视图时,模型倾向于将常见的静态背景作为捷径来学习,但忽略去捕捉运动信息。这种偏差使模型的泛化能力变弱,导致在动作识别等下游任务上的迁移能力变差。为了解决这类偏差,我们提出了前景-背景融合的数据增强Foreground-background Merging (FAME)。我们特意将所选视频中移动的前景区域组合到其他视频的静态背景上。通过拉近原始视图和融合视图之间的表征,我们使得模型更加关注运动模式,并消除了背景偏差。大量实验表明,在几乎不增加计算开支的前提下,FAME 能够在下游任务(例如动作识别)上取得优异的性能。

1. 论文和代码地址

Motion-aware Contrastive Video Representation Learning via Foreground-background Merging

论文地址:https://arxiv.org/abs/2109.15130

代码地址:https://github.com/Mark12Ding/FAME

2. 研究动机--背景偏见

最近,图像中的无监督学习取得了有竞争力的表现,尤其是对比式的自监督学习。对比学习在特征空间拉近正样本对,并推远锚点与负样本。由于缺少标签,正样本对通常由锚点样本的数据增强得到,而负样本来自其他样本。然而,我们发现直接在视频领域使用对比学习范式会导致模型关注静态区域。

图1: 传统对比学习方法和所提出的FAME类无关激活图。

如图1所示,对比学习通常会忽略移动的人或物体,而是非常关注背景区域。除去激活图的可视化,我们还仔细分析了对比学习学到的骨干网络权重。我们使用了R(2+1)D骨干网络。其中我们可视化了每一个阶段1D的时序卷积的权重。

图2: 有监督学习,传统对比学习和FAME的时序卷积核权重的小提琴图。

如图2所示,相比于监督学习,无监督的对比学习学到的权重在所有层都更紧凑和更集中。这表明了有监督方法允许更灵活的时序建模,而基于对比学习的模型只理解单一的运动模式,并且更喜欢静态线索。这个现象被称之为背景偏差。深入分析,这个现象可能有两个可能的原因:1)背景通常比整个视频中的移动对象覆盖的区域要多得多,因此模型更容易专注于背景。2)当同一个视频的两个不同片段作为正样本对时,静态背景几乎相同,但运动模式往往存在细微差别。因此模型自然地会去聚焦于更相似的背景信息而放弃那些有细微不同的运动信息。

图3: 对比学习产生背景偏差的示意图。绿框内为背景区域,红框内为前景区域。

我们在图3中展示了一个形象的例子。我们从一个跳水视频中采样了两个片段。绿色区域为背景,占屏幕的四分之三以上。红色框仅占一个小区域,包含重要的前景运动信息(跳水运动员)。除此之外,两个片段的背景几乎相同,而两个视频中的动作却有细微不同,一个是站在跳台上,另一个已经起跳。也就是说,当我们遵循传统的数据增强从而形成正样本对作为自我监督时,模型会直观地将静态特征拉近且较少关注运动。因此,为了让对比学习方法更具运动感知能力,我们考虑用运动比背景更相似的正样本对来学习视频表征。

3. 方法

为了减轻自监督视频表征学习中的背景偏差,我们打算保留原始视频中的前景区域并替换视频中的背景区域。因此,我们提出了前景-背景合并方法(FAME),以最小的计算开销来将动态区域从视频中分离出来,然后在其他背景上合成前景。具体地说,我们首先算出帧差(frame difference),然后沿通道和时间维度求绝对值的和以生成种子区域 S。

帧差提供了自然的运动信息。通常来说,移动的前景往往具有很大的值,而静态背景在这个度量中是很小的。在实践中,我们发现种子区域 S 的较大值通常对应于运动物体的边缘区域。为了补全前景物体,我们利用了简单的颜色分布统计来估计运动前景物体(具体方法可参考原文)。得到前景掩码

后,我们采用随机背景填充其余部分。将 X、Y 表示为前景和背景片段,合成剪辑为

值得一提的是我们混合到前景视频中的背景区域可能实际上不是真正的背景,并且可能包含不相关的动作。我们认为这些无关运动对于稳健地学习运动模式是必要的。如果所有背景都用静态画面填充,模型将有可能塌缩到仅仅了解该区域是否包含动态像素。这种捷径对于运动感知是没有好处的。

图4: 具有FAME的对比学习框架图。

综上所述,我们在图 4 中展示了基于 FAME 的对比学习框架。详细地说,我们从不同的时间戳中随机采出两段视频。除了基础的数据增强之外,我们使用 FAME 将一个视频的前景与同一mini-batch中其他视频的背景融合。然后,我们将这两个视频作为正样本对输入骨干3D 编码器。最后,我们最小化 InfoNCE 损失函数来预训练 我们的3D 编码器。通过构建具有相同前景但不同背景的正样本对,我们引导了模型关注时序线索并抑制了背景的贡献。

4. 实验

4.1 消融实验

前景比例 β。我们探究了不同的前景比例对表征质量的影响。如表1所示,我们发现当前景比例低的时候(0.3和0.5)在 UCF101 和 HMDB51 上都显著提升基线约 6%。尽管由于背景替换不足而略逊于较小的 β 值,β = 0.7 时增益也相当可观。这个结果验证了我们的想法,即替换静态区域可以引导模型学习运动感知表征,从而增强下游性能。

更强的背景去偏。为了探索 FAME 是否足够强以完全消除背景偏差,我们设计了一个更强的对比方法。我们在 MoCo 的两个分支上都应用了 FAME,即两个正样本对视频都不将包含初始背景信息。我们在表 1 中报告了结果。两种设置之间可忽略的性能差异证明我们的初始设置足够强大,可以学到背景去偏表征。

前景蒙版的变体。如图5,我们设计了不同的前景蒙版来验证强调运动前景可提高对比学习中的运动理解。(i) Gauss:我们直接采用二维高斯核矩阵作为前景蒙版。这是基于视频以运动前景为中心拍摄的假设。(ii) Seed:我们只取种子区域 S 来表示前景而不做颜色补全。(iii) Grid:我们在空间上将视频分割成 4 × 4 的网格。我们统计每个网格中 S 的总值,取最大的 8 个网格作为前景区域。我们在表 4 中将 FAME 与这三个变体进行了比较。首先,我们注意到所有变体都大大超越了基线。这证明了引入不同背景的有效。此外,从 Gauss、Seed、Grid 到 FAME 越细化前景蒙版,动作识别结果越好。有趣的是,我们注意到 Grid 在 UCF101 上的表现略胜 于FAME。我们推测,由于在这个实验中预训练数据集和下游数据集都是 UCF101,因此可能模型会利用相似背景作为捷径而不影响性能。为了深入研究这种现象,我们在另一个预训练数据集 Kinetics-400 上进行了额外的实验。在 UCF101 和 HMDB51 上,Grid 变体的 Top-1 准确率比 FAME 低 2% 以上。这表明在将具有运动感知的表征转移到不同的下游数据集时,细致的前景掩码而不是粗糙的网格框能更有效地促进泛化能力。

图5:FAME 和三个变体的示例。

4.2 与现有方法的比较

我们将我们的方法与现有技术进行了比较。在表 5 中,我们报告了 UCF101 和 HMDB51 的 Top-1 准确度。具体实现细节可以参考原文。在linear probe设定中,我们的方法在 UCF101 上获得了最佳结果,在 HMDB51 上获得了可比较的结果。在finetune 设定下,具有R(2+1)D 主干的FAME 在UCF101 和HMDB51 上取得了最好的结果。它表明 FAME 在 Kinetics-400 数据集上学习到了场景去偏和运动感知表征,这将模型更好地迁移到下游数据集。值得注意的是,我们与 BE 有着相似的动机,它直接在每一帧添加一个静态帧,并将这个修改过的视频视为原始视频的正样本对。实验结果证实,这种细微的干扰不能充分减轻静态背景偏差。当使用相同的主干 I3D 时,我们的 FAME 在 UCF101 和 HMDB51 上分别优于 BE 1.8% 和 5.7%。这证明了我们的方法可以更好地学习运动模式。

我们还在更具挑战性的细粒度数据集 Diving48 上微调和测试了FAME,结果见表 2。在 Diving48 中,由于静态背景与细粒度类别没有强相关性,我们的运动感知表征可以大大有利于动作识别。在 Kinetics-400 上进行预训练时,FAME 可以提升随机初始化的模型15.5%。相比之下,无论预训练数据集是 UCF101 还是 Kinetics-400,BE 都远不如 FAME 有效。Diving48 上的结果表明 FAME 确实可以使模型感知运动模式并消除场景偏差。

为了更好地展示 FAME 的有效性,我们在图 1 中可视化了FAME方法下的热点激活图。相比之下,通过FAME 学习的模型强化关注了移动前景区域并抑制了背景区域。此外,如图 2所示,与传统对比方法相比,FAME 学到的时序卷积核权重分布更分散,方差更大。综上,在 FAME 此类强运动诱导数据增强的指导下,对比学习可以使3D编码器消除背景偏置并关注运动模式。

5. 总结

我们提出了一种新的前景-背景合并方法来减轻自监督视频表征学习中的背景偏差。通过该方法,我们通过将原始前景与其他视频的背景融合来形成融合视频。当迫使骨干模型学习原始视频和融合视频之间的语义一致时,模型可以学习到具有运动感知的表征。一系列下游任务的实验结果证明了通过简单的数据增强可以有效的消除背景偏差和提高性能。当然,我们的工作仍然存在一些局限性。一是前景提取质量不稳定,尤其是前景和背景在颜色分布上没有明显差异或相机剧烈移动时。此外,前景区域比率现在由超参数 β 固定。设置一个自适应前景区域比率会更合理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet:可端到端学习视频的运动表征
选自arXiv 作者:Lijie Fan、Wenbing Huang、Chuang Gan、Stefano Ermon、Boqing Gong、Junzhou Huang 机器之心编译 参与:Panda 尽管端到端的特征学习已经取得了重要的进展,但是人工设计的光流特征仍然被广泛用于各类视频分析任务中。为了弥补这个不足,由来自腾讯 AI Lab、MIT、清华、斯坦福大学的研究者完成并入选 CVPR 2018 Spotlight 论文的一项研究提出了一种能从数据中学习出类光流特征并且能进行端到端训练的神经网络
机器之心
2018/05/08
1.2K0
CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet:可端到端学习视频的运动表征
国科大CVPR 2020论文:自监督学习新方法,让数据更复杂的视频表征学习性能大提升
近年来,自监督表征学习由于无需人工标注,特征较好的泛化性等优势受到了越来越多的关注,并不断有研究在图像、语言等领域取得了较大进展。本论文则立足于数据形式更为复杂的视频表征学习,介绍了一种简单且有效的自监督学习方法,并在视频动作分类和检索这两个常见的目标任务中提升了性能,该论文入选了CVPR2020.
新智元
2020/07/14
1.2K0
国科大CVPR 2020论文:自监督学习新方法,让数据更复杂的视频表征学习性能大提升
学界 | MIT与Facebook提出SLAC:用于动作分类和定位的稀疏标记数据集
选自arXiv 作者:赵行等 机器之心编译 参与:刘晓坤、蒋思源 近日,MIT 与 Facebook 共同提出了用于动作分类和定位的大规模视频数据集的标注方法,新的框架平均只需 8.8 秒就能标注一个剪辑,相比于传统的标注过程节省了超过 95% 的标注时间,继而证明了该数据集可以有效预训练动作识别模型,经过微调后能显著提高在较小规模数据集上的最终评估度量。 数据集链接:http://slac.csail.mit.edu/ 图像分类和目标检测领域近年来取得了重大的平行进展。可以认为,这些进展归功于数据集的质量
机器之心
2018/05/11
9650
【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP
来源:专知本文为论文介绍,建议阅读5分钟本文提出一种多模态提示学习方案,在单一统一训练下平衡有监督和零样本的性能。 将CLIP等对比图像-文本预训练模型用于视频分类,因其成本效益和具有竞争力的性能而受到关注。然而,最近在这一领域的工作面临一个权衡。对预训练模型进行微调以实现强监督性能,会导致低零样本泛化。类似地,冻结主干以保留零样本能力会导致监督精度的显著下降。因此,最近的文献工作通常为监督和零样本行为识别训练单独的模型。本文提出一种多模态提示学习方案,在单一统一训练下平衡有监督和零样本的性能。视觉方面的
数据派THU
2023/04/18
8400
【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
机器之心专栏 机器之心编辑部 复旦大学、微软 Cloud+AI 的研究者将视频表征学习解耦为空间信息表征学习和时间动态信息表征学习,提出了首个视频 Transformer 的 BERT 预训练方法 BEVT。该研究已被 CVPR 2022 接收。 在自然语言处理领域,采用掩码预测方式的 BERT 预训练助力 Transformer 在各项任务上取得了巨大成功。近期,因为 Transformer 在图像识别、物体检测、语义分割等多个计算机视觉任务上取得的显著进展,研究人员尝试将掩码预测预训练引入到图像领域,通
机器之心
2022/04/24
8440
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
代码和预训练权重已经在Github开源:https://github.com/MCG-NJU/VideoMAE
新智元
2023/01/08
8840
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
Transformer在自然语言处理方面取得了极大成功,而ViT将Transformer改进到了一系列计算机视觉任务上,包括图像分类、对象检测、语义分割等,同样取得了令人印象深刻的结果。而训练一个高效的ViT通常需要大规模的有监督数据集,预训练的ViT通过使用数亿张标记图像来获得良好的性能。对于视频任务中的Transformer,它们通常基于图像任务中的Transformer,并且在很大程度上依赖于来自大规模图像数据的预训练模型(例如在ImageNet上进行预训练)。
用户1324186
2024/05/31
3310
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
针对压缩视频理解的编码框架
视频编码算法有很多,如广泛应用的H.264、H.265,但是它们都是为了更好地保证重建视频有着更高的质量,并且编码的质量指标(PSNR、SSIM)都是为了保证人的视觉体验设计的,没有专门为下游AI相关任务设计编码算法。
用户1324186
2023/10/28
4840
针对压缩视频理解的编码框架
VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!
本文分享论文『VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training』,由南大王利民团队提出第一个VideoMAE 框架,使用超高 masking ratio(90%-95%),性能SOTA,代码已开源!
CV君
2022/09/01
7710
VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!
视频的行为识别「建议收藏」
使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂不区分行为识别(Activity Recognition)与动作识别(Action Recognition)。
全栈程序员站长
2022/06/27
1.6K0
视频的行为识别「建议收藏」
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
机器之心发布 作者:香港大学、腾讯ARC Lab 本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。通过训练辅助的BridgeFormer根据视频内容回答文本构成的选择题,来学习细粒度的视频和文本特征,并实现下游高效的检索。该研究已被 CVPR 2022 收录为 Oral。 用于文本视频检索的多模态预训练工作主要采用两类方法:“双流”法训练两个单独的编码器来约束视频级别和语句级别的特征,忽略了各自模态的局部特征和模态间的交互;“单流”法把视频和文本联结作为联合编码器的输入来进行模态间
机器之心
2022/05/30
8240
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
论文Express | 美图云+中科院AAAI2018:视频语义理解的类脑智能
大数据文摘作品 近日,美图云视觉技术部门与中科院自动化所共同合作研发,提出一种基于类脑智能的无监督的视频特征学习和行为识别的方法NOASSOM (Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map),该方法不依赖于标签信息,可以自适应地、无监督地学到视频的特征表示,相关成果已发表在AAAI2018。 大数据文摘就NOASSOM算法对美图云相关负责人进行了采访,针对NOASSOM效率问题,美图云告诉大数据文摘,NOASSOM由于引入核函数,在模
大数据文摘
2018/05/23
4350
大会 | AAAI 2018论文:视频语义理解的类脑智能
AI 科技评论按:近日,美图云视觉技术部门与中科院自动化所共同合作研发,提出一种基于类脑智能的无监督的视频特征学习和行为识别的方法 NOASSOM (Hierarchical Nonlinear Orthogonal Adaptive-Subspace Self-Organizing Map based Feature Extraction for Human Action Recognition),该方法不依赖于标签信息,可以自适应地、无监督地学到视频的特征表示,相关成果已发表在 AAAI 2018 上,
AI科技评论
2018/03/29
1.4K0
大会 | AAAI 2018论文:视频语义理解的类脑智能
CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度
我们提出了一种few-shot动作识别框架STRM,它在学习高阶时间表示的同时,增强了特定类特征的区分能力。我们的方法的重点是一个新的时空增强模块,它将空间和时间上下文与专用的局部帧级别和全局帧级别特征丰富子模块聚合在一起。局部帧级别的扩展捕获基于外观的动作特征。另一方面,全局帧级扩展明确编码了广泛的时间上下文,从而捕获了随时间推移的相关对象特征。然后,利用得到的时空丰富表示来学习查询和支持动作子序列之间的关系匹配。我们进一步在帧级丰富的特征上引入query类相似性分类器,通过在所提出的框架中的不同阶段加强特征学习来增强特定类特征的可区分性。在四个不同的少样本动作识别数据基准上进行了实验:Kinetics、SSv2、HMDB51和UCF101,我们所提的方法达到最佳水平。
墨明棋妙27
2022/12/29
9160
CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度
18篇「AAAI2021」最新论文抢先看!看人工智能2021在研究什么?
---- 新智元报道   来源:专知 编辑:SF 【新智元导读】本文整理来自Twitter、arXiv、知乎放出来的最新AAAI2021论文,包括自监督学习、知识蒸馏、对抗攻击、领域自适应等。方便大家抢先阅览!  最近人工智能顶级会议AAAI2021接收结果已经公布,一共有1692篇论文被接收,接收率为21%,相比去年的20.6%高0.4%,竞争越来越激烈。在这里我们整理来自Twitter、arXiv、知乎放出来的最新AAAI2021论文,方便大家抢先阅览! 1. 解耦场景和运动的无监督视频表征学
新智元
2023/05/22
2650
18篇「AAAI2021」最新论文抢先看!看人工智能2021在研究什么?
【技术综述】视频分类/行为识别研究综述,从数据集到方法
视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,技术进展从传统特征法到深度学习中的3DCNN,LSTM,Two-Stream等。
用户1508658
2019/08/26
2.1K0
【技术综述】视频分类/行为识别研究综述,从数据集到方法
视频行为识别(一)——综述
本次分享的文章是2023年收录在计算机视觉领域的顶刊“CVPR”(级别:视觉类TOP)期刊上。该期刊详细信息可关注公众号 AI八倍镜 点击菜单项查询。 论文地址:https://arxiv.org/abs/2305.15692
卡伊德
2023/07/21
1.5K0
视频行为识别(一)——综述
南大 & 上海 Ai Lab AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !
近期在视觉语言模型(VLMs)方面取得了进展,这些模型经过大规模的网络图像文本对预训练,已经在各种分类任务中表现出显著的成功。VLMs被训练以将图像与相关的文本描述相联系。在标准协议(图1(a))中,原始图像和类别名称被投射到一个联合视觉语言嵌入空间中,选择距离图像表示最近的类别作为预测结果。
AIGC 先锋科技
2024/07/20
2330
南大 & 上海 Ai Lab   AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !
CVPR2022《BridgeFormer》港大&腾讯&伯克利提出带有多项选择任务的视频文本检索模型,性能SOTA!
本文分享 CVPR 2022 论文『Bridging Video-text Retrieval with Multiple Choice Questions』,港大&腾讯&UCBerkeley提出带有多项选择任务的视频文本检索模型,《BridgeFormer》,性能SOTA!
CV君
2022/09/01
7550
CVPR2022《BridgeFormer》港大&腾讯&伯克利提出带有多项选择任务的视频文本检索模型,性能SOTA!
论文阅读:A Closer Look at Spatiotemporal Convolutions for Action Recognition
这篇论文是CVPR2018年的录取论文,主要讨论了时空卷积的几种网络结构,在Action Recognition 的几个标准数据集上也取得了媲美最好方法的效果。作者是FAIR的工作人员,其中包括Du Tran(C3D)作者,Heng Wang(iDT)作者和Yann LecCun等,可谓是大牛云集。论文可以在这里下载。这里大概介绍下论文中的内容,可以看作是原论文的一个翻译。
王云峰
2019/12/25
1.6K0
论文阅读:A Closer Look at Spatiotemporal Convolutions for Action Recognition
推荐阅读
CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet:可端到端学习视频的运动表征
1.2K0
国科大CVPR 2020论文:自监督学习新方法,让数据更复杂的视频表征学习性能大提升
1.2K0
学界 | MIT与Facebook提出SLAC:用于动作分类和定位的稀疏标记数据集
9650
【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP
8400
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
8440
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
8840
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
3310
针对压缩视频理解的编码框架
4840
VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!
7710
视频的行为识别「建议收藏」
1.6K0
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
8240
论文Express | 美图云+中科院AAAI2018:视频语义理解的类脑智能
4350
大会 | AAAI 2018论文:视频语义理解的类脑智能
1.4K0
CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度
9160
18篇「AAAI2021」最新论文抢先看!看人工智能2021在研究什么?
2650
【技术综述】视频分类/行为识别研究综述,从数据集到方法
2.1K0
视频行为识别(一)——综述
1.5K0
南大 & 上海 Ai Lab AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !
2330
CVPR2022《BridgeFormer》港大&腾讯&伯克利提出带有多项选择任务的视频文本检索模型,性能SOTA!
7550
论文阅读:A Closer Look at Spatiotemporal Convolutions for Action Recognition
1.6K0
相关推荐
CVPR 2018 | 腾讯AI Lab、MIT等机构提出TVNet:可端到端学习视频的运动表征
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档