Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集

高低分辨率全都要!8位华人联合发布史上规模最大、最高清视频数据集

作者头像
新智元
发布于 2021-12-27 09:54:02
发布于 2021-12-27 09:54:02
1.1K0
举报
文章被收录于专栏:新智元新智元

编辑:LRS

【新智元导读】视频语言数据集的规模又刷新记录了!来自MSRA的8位华人联合发布史上最大的视频语言数据集HD-VILA-100M,也是首个高分辨率大规模数据集!文中还提出一个训练模型,基于这个数据训练的模型性能直接提升53.6%!

回想几年前网上信息大部分还是静态的,例如图片、小说。

但随着各大视频网站和短视频的兴起,用户在互联网上浏览视频的数量近年来显著增加,并且视频创作的质量、分辨率和内容多样性也越来越高!

把旅游、体育、音乐等日常生活拍成视频分享已经成为了新常态,并且通常还会配上一段文字。

所以AI研究也是紧随其后,进入文本+视频的多模态时代,例如视频搜索,视频推荐,视频编辑都需要这种多模态建模的能力!

然而,现有的视频语言理解模型(video-language understanding models)的发展实际很大程度上是受到了数据集的规模和覆盖范围的限制。

早期的数据集如MSR-VTT、DiDeMo、EPIC-KITCHENS都是由人类手工标注的视频和文本描述组成,由于引入了人工标注,所以数据集的构造成本也是急剧上升,导致这些数据集的规模也无法做的很大。

此外这些数据集中只包含了一些描述性的语句,那么数据集的复杂性和多样性也受到了很大限制,间接影响了后续开发模型的泛化性能。

也有一些研究人员直接使用经过语音识别(ASR)后的视频一起进行训练,由于省去了人工标注视频文本的过程,数据集的规模得到了大大提升。一个最有代表性的例子就是HowTo100M数据集,包含了百万级的视频文本语料。

虽然数据集的规模是上去了,但质量却下来了。

自动标注的视频数据不管是在质量上,还是语义多样性上都和真实场景中的视频存在着很大差距。

为了更好地理解视频和解决上面提到的数据问题,来自微软亚洲研究院MSRA 的8位华人最近共同发表了一篇论文,主要研究了联合视频和语言(joint video and language)的预训练并提出了一个新的数据集HD-VILA-100M(High-resolution and Diversified VIdeo and LAnguage)。

数据集中的视频类别(video category)覆盖范围十分广泛,对后续的应用如文本到视频的检索(text-to-video retrieval)和视频问答(video QA)场景十分有用。

这个数据集具有三个主要的特点:

1. 规模特别大

数据集中包含了来自300万个视频中的1亿个视频文本对,视频时长合计达到了37万个小时,比前面提到的HowTo100M的视频时间还要长2.8倍,平均句子长度也比HowTo100M长8倍。

前面提到ASR生成的视频字幕普遍质量不高,并且没有标点符号。为了克服这个问题,研究人员使用GitHub的一个工具puntuator2将字幕切分成多个完整的句子,然后通过动态时间规整(Dynamic Time Warping)使用Youtube自带的字幕时间戳对视频片段和句子进行对齐。

处理后,HD-VILA-100M数据集中视频片段的平均时长为13.4秒,每个句子平均包含32.5个词。

2. 分辨率特别高

数据集中的所有视频分辨率都是720p,而目前主流的视频文本数据集的分辨率只有240p和360p。

3. 多样性特别高

数据集涵盖了YouTube上的15个最流行的视频类别,例如体育、音乐、汽车等。并且研究人员还对各个类别下的视频数量进行了平衡。

高、低分辨率全都要的模型

有了数据以后就要开始进行训练了!

但由于内存、计算能力等多种现实因素上的限制,以前的工作要么采用简单的基于视频帧的端到端的编码器来进行视觉编码和多模态融合,要么使用一些训练好的时空(spatio-temporal)编码器来一步步实现对视觉编码和多模态信息的融合。

几乎没有研究工作在端到端视频语言预训练模型中对时空视频进行联合编码(joint spatio-temporal video representation)。

这创新点不是送上门来了吗?

研究人员提出了一个新的模型,模型的输入是混合图像序列(hybrid image sequence),序列中包含少量高分辨率(HR)视频帧和大量的低分辨率(LR)的视频帧来进行多视频学习的任务(multiple video learning task)。

这样的模型设计能够实现高分辨率时空视频表征的端到端训练,并且在模型设计中解决了两个主要的问题:

1. 哪些HR和LR的视频帧应该被提取出来?

研究人员首先随机从一个视频片段(video clip)中随机采样一些HR视频帧来确保最终学习到的视频特征具有足够的鲁棒性。

LR视频帧从HR视频帧的附近帧中平均采样抽取得到,也保证了中间的HR视频帧包含了和LR相似的空间信息,这个操作对于时序特征的学习也是非常关键。

2. 如何从混合图像序列中学到时空特征?

研究人员对HR和LR视频帧分别编码,并且使用一个hybrid Transformer将把编码后的HR特征和LR特征映射到同一个embedding空间。这种设计方式也能确保视频中的时空信息能够以一种可学习的方式同时覆盖HR和LR视频帧。

研究人员对video-text retrieval任务进行了实验,可以看到文中提出的HD-VILA模型在MSR-VTT数据集上以极大的优势超越了以往在HowTo100M数据集上训练的模型。

在zero-shot的设置下,HD-VILA甚至比VideoCLIP的R@1的性能好38.5%(10.4->14.4),也表明了模型学习到的视频表征具有足够的泛化能力,并且微调后的模型已然超越了所有的基线模型。

在电影数据集LSMDC中,模型相对其他基线模型甚至取得了更大的性能收益(53.6%)。由于电影与HowTo100M里的视频风格可以看出明显不同,所以在HowTo100M上预训练的模型很难适应电影领域。并且由于LSMDC中的视频数据分辨率普遍较高,而HD-VILA相对其他模型处理高分辨率视频的效果也更好,所以性能提升也更大。

在DiDeMo和ActicityNet数据集上的实验中,HD-VILA也取得了更好的性能。这两个数据集的主要特点就是规模更大、视频类别更丰富,每个视频的时间也更长,在这种情况下,模型需要更好的时序理解能力才能召回正确的结果,也符合HD-VILA的训练目标。

在text-to-visual生成实验中,研究人员对比的模型为StyleCLIP和TediGAN,这两个模型都是利用跨模态的预训练来完成语言引导的图像生成任务,并且图像生成质量在业界也是广受好评。视觉生成结果的质量一定程度上也可以反映跨模态embedding的质量。

在text-guided manipulation任务的第一个例子中,虽然三个模型都成功将头发变得更加大波浪,但HD-VILA是唯一一个遵循文本的要求给人物涂上口红的模型。

在图像超分辨率(super-resolution)任务中, HD-VILA和SR3, pSp模型同时从16×16的超低分辨率中生成1024×1024的图像,由于输入图像的分辨率特别低,所以任务也是相当有挑战性。

实验结果中可以看到,SR3和pSp仅利用视觉信息并不能重建高质量的人脸,而HD-VILA能够在预训练模型的支持下,借助文本描述能够准确地重建口红、直发等人脸特征。

文章的作者郭百宁博士现为微软亚洲研究院常务副院长,负责图形图像领域的研究工作。于1999年加盟微软中国研究院(即微软亚洲研究院前身)。此前他是美国英特尔公司硅谷总部研究院的资深研究员,拥有美国康奈尔大学硕士和博士学位,北京大学学士学位。

郭百宁博士的研究兴趣包括计算机图形学、计算机可视化、自然用户界面以及统计学习。他在纹理映射建模、实时渲染以及几何模型等领域取得的研究成果尤为突出。

参考资料:

https://arxiv.org/abs/2111.10337

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
超分辨率能够克服或补偿由于图像采集系统、采集环境本身限制而导致的成像模糊、图像质量低下等问题,提升图像分辨率,为特征提取、信息识别等图像的后续处理提供重要支持。
HyperAI超神经
2024/05/13
4K0
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
在图像生成模型技术的推动下,视频生成模型在研究和应用领域取得了显著进展。这些模型通常通过从头开始训练或对预训练图像模型插入额外的时间层进行微调来实现。训练通常在混合的图像和视频数据集上进行。尽管视频建模的改进研究主要关注空间和时间层的排列方式,但先前的工作没有探究数据选择的影响。然而,训练数据分布对生成模型的影响是不可忽视的。此外,对于生成式图像建模,已经知道在大型和多样化的数据集上进行预训练,然后在小型但质量更高的数据集上进行微调,可以显著提高性能。然而,之前的视频建模方法往往借鉴了来自图像领域的技术,而对于数据和训练策略的影响,即在低分辨率视频上进行预训练再在高质量数据集上微调,还需要进一步研究。
用户1324186
2023/12/11
1.3K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
解读 | 通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率F
机器之心原创 作者:Shawn 参与:Ellen Han、黄小天、王灏 不久之前,Wenzhe Shi 等人在 arXiv 上发表了一篇名为《通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network)》的论文,机器之心海外分析师团队从多个方面对其做了解读。 论文地址:https://arxi
机器之心
2018/05/07
2.1K0
解读 | 通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率F
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
扩散模型已经在生成建模领域确立了新的基准,能够生成高质量的样本。这些模型已成为各个领域发展的基石,例如可控图像编辑[34]、图像个性化[8]、合成数据增强[24],甚至从脑信号重建图像[14, 25]。
AIGC 先锋科技
2025/01/17
1750
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
deephub
2024/02/21
7740
视频生成领域的发展概述:从多级扩散到LLM
一种用于360度全景视频超分的单帧多帧联合网络
论文、代码地址:在公众号「3D视觉工坊」,后台回复「全景视频超分」,即可直接下载。
3D视觉工坊
2020/12/03
1.1K0
一种用于360度全景视频超分的单帧多帧联合网络
YouKu-mPLUG 最大中文视频语言数据集,助力增强多模态大型模型性能
mPLUG-video可以很好的理解视频的整体语义是“舞蹈视频”以及包含详细的视觉信息,比如“跳跃”和“扭动”等。
CV君
2023/08/31
7370
YouKu-mPLUG 最大中文视频语言数据集,助力增强多模态大型模型性能
抠图只精细到头发丝还不够,Adobe新方法能处理6000×6000的高分辨率图像
抠图是图像和视频编辑与合成的关键技术。通常,深度学习方法会以整个输入图像和相关的 trimap 作为输入,使用卷积神经网络来推断前景蒙版(alpha matte)。这种方法在图像抠图领域实现了 SOTA 结果。但是,由于硬件限制,这些方法在实际的抠图应用中可能会失败,因为现实世界中需要抠图的输入图像大多具备很高的分辨率。
机器之心
2020/09/24
6670
抠图只精细到头发丝还不够,Adobe新方法能处理6000×6000的高分辨率图像
谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%
---- 新智元报道   编辑:David 【新智元导读】谷歌、MIT联合研究,视频问答模型计算效率提升一倍。 视频是一种无处不在的媒体内容源,涉及到人们日常生活的许多方面。越来越多的现实世界的视频应用,如视频字幕、内容分析和视频问答(VideoQA),都依赖于能够将视频内容与文本或自然语言联系起来的模型。 其中,视频问答模型尤其具有挑战性,因为它需要同时掌握语义信息,比如场景中的目标,以及时间信息,比如事物如何移动和互动。这两种信息都必须在拥有特定意图的自然语言问题的背景下进行。 此外,由于视频有
新智元
2022/08/26
2390
谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%
解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
机器之心原创 作者:Angulia 参与:王灏、hustcxy、吴攀 最近,谷歌发布了一种把低分辨率图像复原为高分辨率图像的方法,参见机器之心文章《学界 | 谷歌新论文提出像素递归超分辨率:利用神经网络消灭低分辨率图像马赛克》。与最先进的方法相比,这篇论文提出了一种端到端的框架来完成超分辨率任务。它由两个卷积神经网络组成,一个是描述低分辨率图像骨架的优先网络(prior network),一个是用于优化细节特征的调节网络(conditioning network)。这种方法强调了细节特征恢复上的提升,并以
机器之心
2018/05/07
1.3K0
解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
视频文本检索在多模态研究中起着至关重要的作用,在许多实际应用中得到了广泛的使用。CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。
CV君
2021/11/18
2.4K0
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
低分辨率图像中目标检测(附论文下载)
论文地址:https://arxiv.org/pdf/2201.02314.pdf
计算机视觉研究院
2023/08/24
3890
低分辨率图像中目标检测(附论文下载)
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
机器之心
2025/02/14
1310
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
源码地址:https://github.com/icey-zhang/SuperYOLO
计算机视觉研究院
2024/03/13
2.9K0
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
RestoreDet:低分辨率图像中目标检测
论文地址:https://arxiv.org/pdf/2201.02314.pdf
计算机视觉研究院
2022/01/28
1K0
RestoreDet:低分辨率图像中目标检测
IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述
超分辨率(SR)方法指的是从低分辨率输入生成高分辨率图像或视频的过程。这些技术几十年来一直是研究的重要课题,早期的 SR 方法依赖于空间插值技术。虽然这些方法简单且有效,但上转换图像的质量受到其无法生成高频细节的能力的限制。随着时间的推移,引入了更复杂的方法,包括统计、基于预测、基于块或基于边缘的方法。然而,最显著的进步是由新兴的深度学习技术,特别是卷积神经网络(CNNs)带来的。尽管卷积神经网络(CNNs)自 20 世纪 80 年代以来就存在,但直到 20 世纪 90 年代中期,由于缺乏适合训练和运行大型网络的硬件,它们才开始在研究社区中获得广泛关注。
用户1324186
2024/03/20
3730
IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述
【深度学习】基于深度学习的超分辨率图像技术一览
SR取得了显著进步。一般可以将现有的SR技术研究大致分为三大类:监督SR,无监督SR和特定领域SR(人脸)。
Twcat_tree
2023/11/25
4600
【深度学习】基于深度学习的超分辨率图像技术一览
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
自从Stable Diffusion和Midjourney爆火之后,人们见识到了人工智能技术在图片生成领域的强大实力。
新智元
2023/09/09
4110
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
信息增强的图像超分辨率重建
单图像超分辨率(SISR)的任务是旨在从其低分辨率版本重建出高质量的图像。基于CNN的网络在性能方面取得了显著的成功。然而,CNN的归纳偏置限制了SISR模型捕获长距离依赖性的能力。它们的固有局限性源于参数依赖的感受野扩展和不同层中卷积算子的核大小,这可能会忽略图像中的非局部空间信息。
Srlua
2025/01/02
1330
信息增强的图像超分辨率重建
从网络设计到实际应用,深度学习图像超分辨率综述
图像超分辨率(SR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中一种重要的图像处理技术。它在现实世界中有着广泛的应用,如医学成像、监控和安全等。除了改善图像的感知质量,它还有助于改善其它计算机视觉任务。总的来说,由于单个 LR 图像通常对应多个 HR 图像,因此这个问题比较具有挑战性。以往的文献中提到了多种经典的 SR 方法,包括基于预测的方法、基于边缘的方法、统计方法、基于 patch 的方法和稀疏表征方法等。
机器之心
2019/03/12
7770
从网络设计到实际应用,深度学习图像超分辨率综述
推荐阅读
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
4K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
1.3K0
解读 | 通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率F
2.1K0
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
1750
视频生成领域的发展概述:从多级扩散到LLM
7740
一种用于360度全景视频超分的单帧多帧联合网络
1.1K0
YouKu-mPLUG 最大中文视频语言数据集,助力增强多模态大型模型性能
7370
抠图只精细到头发丝还不够,Adobe新方法能处理6000×6000的高分辨率图像
6670
谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%
2390
解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
1.3K0
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
2.4K0
低分辨率图像中目标检测(附论文下载)
3890
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
1310
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
2.9K0
RestoreDet:低分辨率图像中目标检测
1K0
IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述
3730
【深度学习】基于深度学习的超分辨率图像技术一览
4600
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
4110
信息增强的图像超分辨率重建
1330
从网络设计到实际应用,深度学习图像超分辨率综述
7770
相关推荐
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文