Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何把视觉语言模型应用到视频里?

如何把视觉语言模型应用到视频里?

作者头像
BBuf
发布于 2022-12-29 06:25:15
发布于 2022-12-29 06:25:15
1.1K0
举报
文章被收录于专栏:GiantPandaCVGiantPandaCV

Fine-tuned CLIP Models are Efficient Video Learners

1. 论文信息

标题:Fine-tuned CLIP Models are Efficient Video Learners

作者:Hanoona Rasheed, Muhammad Uzair Khattak, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan

原文链接:https://arxiv-export1.library.cornell.edu/abs/2212.03640

代码链接:https://github.com/muzairkhattak/ViFi-CLIP

近期的基于视频的方法采用了 CLIP 表示,使用额外的可学习组件进行时空建模。这些组件包括用于帧间通信的自注意层,文本或视觉prompts或专用视频解码器模块,在保持 CLIP 骨干冻结或适应 CLIP 编码器的同时学习。然而,这些设计需要在开发的架构模块中建模特定于模态的inductive bias,并需要仔细设计才能适应 CLIP 的video任务。此外,在为下游视频任务适应 CLIP 时,这些方法通常不会在所有设置中保持优势。例如,zero-shot的adaptation方法在监督设置中的表现较差,并且监督模型在zero-shot的 generalization任务上的表现也不那么令人满意。

为了解决上述挑战,我们提出了以下两个问题:

  • 使用额外的可学习的参数来fine-tune CLIP 是否会破坏其泛化能力?
  • 简单的视频特定微调是否足以弥合图像和视频之间的模态差距?

在论文的实证分析中,我们观察到,与新引入的时间建模组件一起微调预训练的 CLIP 编码器可能会妨碍 CLIP 的泛化能力。有趣的是,当在视频数据集上对简单的 CLIP 模型进行微调时,可以在常规 CLIP 模型中采用适合视频的特定adaptation模型,并且与具有内置视频特定组件的更复杂方法相竞争。

尽管现有工作探索了 CLIP encoder的fine-tune作为baseline,但对于全面fine-tune CLIP 的潜力还是有所低估。然而,论文注意到,为了在视频上获得更好的视觉语言特征,全面fine-tune可以提高time和language prompt之间的协同作用。为了了解常规 CLIP 模型如何实现这种能力,通过实验验证表明,在损失计算之前进行帧级后期表示聚合允许在视频微调的 CLIP 中交换时间的prompt。根据简单fine-tune可以有效对 CLIP 的adaptation到视频模态,论文提出了一种two-stage的“bridge and prompt”方法,用于在小数据模式下微调 CLIP。该方法首先在视频上微调原始 CLIP,以弥合image和video两种模态之间的差距,然后采用视觉语言提示学习方法,让tuned CLIP保持frozen。此工作的贡献如下:

  • 提出了一种简单的方法来适应 CLIP 的视频,即完全微调 CLIP,并证明它可以与具有内置视频特定组件的复杂方法竞争。
  • 提出了一种两阶段方法,用于在低数据量模式下适应 CLIP,它首先在视频上fine-tune原始 CLIP,然后采用vision-language prompt的学习方法,来对 CLIP 进一步地fine-tune。
  • 对常规 CLIP 模型进行定量和定性分析,以深入了解它为何能够适应视频并获得良好的性能。

在这项工作中,论文研究了如何有效地将预训练的视觉语言(Vision-Language)模型适应视频任务。作者发现,完全fine-tune预训练的 CLIP 模型可以提供竞争力,且不需要为视频开发特定组件。在低数据量模式下,作者提出了一种两阶段方法,用于在视频上微调原始 CLIP,并采用视觉语言提示学习方法,以保持微调 CLIP 的冻结。通过定量和定性分析,作者提供了一个深入了解了 CLIP 模型是如何适应视频并获得良好性能的角度。

3. 方法

在文献中探索的一种可靠替代方案是将大规模预训练的基于图像的视觉语言模型(如CLIP)适应视频下游任务。考虑到图像和视频之间domain gap,先前的方法已经探索了各种专门的基于注意力的组件的使用,这些组件通过帧之间和模块之间的通信来灌输信息,以整合来自多个帧的信息。相反,我们探索了一种简单的基线(称为 ViFi-CLIP)的能力来适应 CLIP 到视频领域。如上图,描绘了所提出的新方法ViFi-CLIP 的概览。

由于视频中具有额外的时间信息,重要的问题是如何将这些信息利用到基于图像的 CLIP 模型中。我们探索了完全微调 CLIP 的能力,以弥合视频领域中的模态差距。ViFi-CLIP 微调图像和文本编码器。

4. 实验

来看实验,首先可以发现,基于CLIP的模型来直接做adapting在zero-shot的情景下已经远超其他方法了。本文设计的ViFo-CLIP这种方法能在较为简单的数据集HMDB-51上,在baseline(Vanilla CLIP)的基础上提高6.7个点,相较于其他的fine-tune方法还是具有明显的优势的,高了2.3个点,而在更难的任务UCF-101上则更是高出了3.9个点。可见本文提出方法的有效性。

从可视化的角度来看,ViFi-CLIP的确有效的学习到了动作相关的attention。由此也可以见识到CLIP的潜力有多么巨大,仅仅进行有限的fine-tune就可以取得很可观的效果,而且具有一定的可解释性。

对于消融实验,可以发现在embedding level进行fusion效果是最好的。按照笔者的个人理解,这是因为在embedding层面,feature是具有更多语义上的特征的,所以融合可以捕捉到比较high-level的特征,这也是一种latent fusion的体现。

5. 结论

这项工作表明,微调基于图像的 CLIP 模型在视频域的简单基线是常见但往往被忽略的重要方法。论文说明,在视频数据上微调视觉和文本编码器对监督任务和泛化任务都有好处。结果表明,相对于为视频开发的复杂方法,简单解决方案的可扩展性和优势在大多数设置中都是显著的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GiantPandaCV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』,假设视频动作识别不是分类问题,而是检索问题?并基于 CLIP,浙大提出 ActionCLIP,用检索的思想做视频动作识别!性能 SOTA!代码已开源!
CV君
2021/12/02
2.7K0
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
OpenAI发布CLIP模型快一年了,盘点那些CLIP相关让人印象深刻的工作
2021过去了,在过去的一年了出现了许多优秀的论文。其中,令我印象最为深刻的莫过于年初OpenAI发布的CLIP模型,通过简单的对比学习预训练,就能在多个下游任务中获得非常好的实验结果。因此,短短一年间,它就获得500+的引用量。在本文中,我们就来盘点一些基于CLIP模型的拓展网络。
CV君
2022/03/29
2.8K0
OpenAI发布CLIP模型快一年了,盘点那些CLIP相关让人印象深刻的工作
【源头活水】NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2023/11/11
6720
【源头活水】NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见
一文速览!多模态预训练中的 Prompt 范式
上一篇博文整理了预训练新范式,见 预训练新范式!为什么Prompt会更有效? 主要是围绕NLP上的成果,具体的概念本文也不做过多赘述。本篇文章将主要整理几篇有代表性的Prompt方法在多模态领域中的应用。
NewBeeNLP
2022/02/25
2.2K0
一文速览!多模态预训练中的 Prompt 范式
用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!
本文分享论文『Prompting Visual-Language Models for Efficient Video Understanding』,用 CLIP 做多个视频任务!上交&牛津提出基于 Prompt 将CLIP 拓展到多个视频任务,在 open-set 场景中效果极佳!
CV君
2021/12/15
2.3K0
用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!
一个模型处理多种模态和任务,商汤等提出Uni-Perceiver,迈向通用预训练感知模型
人脑可以整合不同模态的信息,并同时处理各项任务来感知世界。相比之下,当前机器学习研究者多是为不同的任务开发不同的模型和算法,并在特定于任务的数据上进行训练。然而,这种特定于任务的方法会大大增加为新任务开发模型的边际成本,无法满足快速增长的应用场景的需求。
机器之心
2021/12/13
1.2K0
一个模型处理多种模态和任务,商汤等提出Uni-Perceiver,迈向通用预训练感知模型
每日学术速递3.24
1.MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research
AiCharm
2025/03/24
790
每日学术速递3.24
LLM 视觉语言模型在动作识别中是否有效?
近年来,得益于大规模预训练,许多视觉语言基础模型在许多下游视觉任务上取得了显著成果,展现出了强大的泛化能力。其中,具有视觉语言预训练的模型,如 CLIP 及其在视频任务上的成功继承者,彻底改变了众多下游任务,展示了前所未有的灵活性和性能。
AIGC 先锋科技
2024/11/11
2750
LLM 视觉语言模型在动作识别中是否有效?
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
作者:金克丝 (在读博士) 方向:多模态学习 学校:南京理工大学 「收录情况」:CVPR-2022 「论文链接」:https://arxiv.org/abs/2112.03857 「代码链接」:https://github.com/microsoft/GLIP 问题 方案 主要贡献 Grounded Language Image Pre-training a、Unified Formulation b、Language-Aware Deep Fusion c、Pre-training with Scala
zenRRan
2022/10/10
3.3K0
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
全能型AI!用通用预训练感知模型处理多模态多任务!商汤&西交&港中文提出:Uni-Perceiver
动物的生物智能系统通过整合不同方式的信息并同时处理各种任务来感知世界。相比之下,当前的机器学习研究遵循特定于任务的范式,导致任务之间的协作效率低下,并且为新任务开发感知模型的边际成本较高。在本文中,作者提出了一种名为Uni-Perceiver的通用感知结构,该结构使用统一的建模和共享参数来处理各种模态和任务。
CV君
2021/12/27
9340
全能型AI!用通用预训练感知模型处理多模态多任务!商汤&西交&港中文提出:Uni-Perceiver
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
机器之心专栏 机器之心编辑部 对于这项工作,研究者们希望可以启发人们探索视频和文本的结合,并为视频大模型的设计和研究铺平道路。 如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题。它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研究铺平道路。 在视频内容理解领域,为节省计算 / 数据开销,视频模型通常 「微调」图像预训练模型。而在图像领域, 最近流行的语言 - 图像预训练模型展现了卓越的泛化性,尤其是零样本迁移能力。那么人
机器之心
2022/08/26
8271
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
机器之心发布 作者:香港大学、腾讯ARC Lab 本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。通过训练辅助的BridgeFormer根据视频内容回答文本构成的选择题,来学习细粒度的视频和文本特征,并实现下游高效的检索。该研究已被 CVPR 2022 收录为 Oral。 用于文本视频检索的多模态预训练工作主要采用两类方法:“双流”法训练两个单独的编码器来约束视频级别和语句级别的特征,忽略了各自模态的局部特征和模态间的交互;“单流”法把视频和文本联结作为联合编码器的输入来进行模态间
机器之心
2022/05/30
8150
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?
视觉语言模型,经过在包含广泛真实世界概念的图像文本对上进行训练 ,在各种下游任务上表现出显著的适应性 。这些模型通过填充预定义的 Prompt 模板(例如,“一张[CLASS]的照片”)来完成特定的类名填充文本编码器。尽管它们在新任务上的有效泛化,但 Prompt 模板的词序变化可能会影响性能 [8]。手动创建手工制作的 Prompt 已经过时,自然语言处理 [9; 10] 和计算机视觉最近的发展提出了学习一组软 Prompt 的方法,所需的 Token 数据最小。尽管在 Prompt 学习方面取得了进步,但目前的最佳状态仍受限于其缺乏可解释性和基础类上的过拟合问题,这在多样化和动态应用环境中可能具有阻碍作用。这些限制强调了在视觉语言模型中优化 Prompt 的必要性。
未来先知
2025/01/02
990
从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。
机器之心
2024/06/17
6790
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
Align and Prompt:Salesforce&ANU提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
本文分享论文『Align and Prompt: Video-and-Language Pre-training with Entity Prompts』,由 Salesforce&ANU 提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
CV君
2022/01/20
9840
Align and Prompt:Salesforce&ANU提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
综述 | 最新视觉-语言预训练综述
每天给你送来NLP技术干货! ---- 来自:人工智能前沿讲习 论文标题:VLP: A Survey on Vision-Language Pre-training论文链接:https://arxiv.org/abs/2202.09061 01 摘要在过去几年中,预训练模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单模态领域带入了一个新时代。大量工作表明它们有利于下游单模态任务,并可以避免从头开始训练新模型。那么这样的预训练模型能否应用于多模态任务呢?研究人员已经探索了这个问题并取得了重大进展
zenRRan
2022/03/04
1.3K0
图本检索的Zero-Shot超过CLIP模型!FILIP用细粒度的后期交互获得更好的预训练效率。
无监督的大规模视觉语言预训练在各种下游任务上显示出不错的进步。现有方法通常通过每个模态的全局特征的相似性来模拟跨模态交互,或者通过视觉和文本token的交叉/自注意力来模拟细粒度交互。然而,交叉/自注意力在训练和推理方面的效率较低。
CV君
2022/01/20
1.6K0
图本检索的Zero-Shot超过CLIP模型!FILIP用细粒度的后期交互获得更好的预训练效率。
差点被ECCV错过的论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 对于类似CPU的设备,研究者提出了一种新颖的CP 转自《机器之心专栏》 如何将现有的图像 - 文本多模态大模型(例如 OpenAI CLIP)用于视频内容理解,是一个非常实用且具有前景的研究课题。它不仅可以充分挖掘图像大模型的潜力,还可以为视频大模型的设计和研究铺平道路。 在视频内容理解领域,为节省计算 / 数据开销,视频模型通常 「
计算机视觉研究院
2022/10/08
1.6K0
差点被ECCV错过的论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
AAAI 2023 Oral | 如何识别未知标签?多模态知识迁移框架实现新SOTA
机器之心专栏 作者:腾讯优图实验室 在多标签分类系统中,经常遇到大量在训练集中未曾出现的标签,如何准确地识别这些标签是非常重要也极富挑战性的问题。为此,腾讯优图实验室联合清华大学和深圳大学,提出了一种基于多模态知识迁移的框架 MKT,利用图文预训练模型强大的图文匹配能力,保留图像分类中关键的视觉一致性信息,实现多标签场景的 Open Vocabulary 分类。本工作已入选 AAAI 2023 Oral。 论文链接:https://arxiv.org/abs/2207.01887 代码链接:https:/
机器之心
2023/03/29
5920
AAAI 2023 Oral | 如何识别未知标签?多模态知识迁移框架实现新SOTA
ViLReF:一种汉语视觉语言视网膜基础模型 !
随着眼科医学训练数据的可用性,视网膜基础模型近年来受到很大关注,并在临床应用中广泛使用。视网膜图像及其相应的诊断报告是两种常见的、巨大的数据模式,已用于训练视网膜基础模型。与自然图像相比,视网膜图像之间的差异通常更微妙。在正常和疾病视网膜图像中,主要结构非常相似,只有少量的细小区域展示出病理差异,这给基于自监督对比学习的视网膜基础模型带来很大挑战。
AIGC 先锋科技
2024/08/30
1600
ViLReF:一种汉语视觉语言视网膜基础模型 !
推荐阅读
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
2.7K0
OpenAI发布CLIP模型快一年了,盘点那些CLIP相关让人印象深刻的工作
2.8K0
【源头活水】NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见
6720
一文速览!多模态预训练中的 Prompt 范式
2.2K0
用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!
2.3K0
一个模型处理多种模态和任务,商汤等提出Uni-Perceiver,迈向通用预训练感知模型
1.2K0
每日学术速递3.24
790
LLM 视觉语言模型在动作识别中是否有效?
2750
全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务
3.3K0
全能型AI!用通用预训练感知模型处理多模态多任务!商汤&西交&港中文提出:Uni-Perceiver
9340
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
8271
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
8150
从梯度下降到动态提示:IPO 如何利用 LLMs 改善视觉语言模型的训练?
990
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
6790
Align and Prompt:Salesforce&ANU提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
9840
综述 | 最新视觉-语言预训练综述
1.3K0
图本检索的Zero-Shot超过CLIP模型!FILIP用细粒度的后期交互获得更好的预训练效率。
1.6K0
差点被ECCV错过的论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
1.6K0
AAAI 2023 Oral | 如何识别未知标签?多模态知识迁移框架实现新SOTA
5920
ViLReF:一种汉语视觉语言视网膜基础模型 !
1600
相关推荐
基于CLIP,浙大提出:ActionCLIP,用检索的思想做视频动作识别!性能SOTA!代码已开源!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档