Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集

CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐,还开源9288个视频数据集

作者头像
机器之心
发布于 2022-04-19 08:11:24
发布于 2022-04-19 08:11:24
7143
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

作者:李光耀、卫雅珂、田亚鹏、徐辰良、文继荣、胡迪

中国人民大学高瓴人工智能学院 GeWu 实验室提出了一种动态视音场景下的空间 - 时序问答模型,让 AI 能像人一样观看和聆听乐器演奏,并对给定的视音问题做出跨模态时空推理。论文已被 CVPR2022 接收并选为 Oral Presentation。

你知道 AI 可以自己欣赏音乐会吗?而且 AI 可以知道演奏场景中每一个乐器的演奏状态,这是不是很神奇?对人类而言,欣赏美妙的音乐会是一件很享受的事情,但对于机器来说,如何将优美的旋律和激昂的演奏画面珠联璧合来提升欣赏体验却颇有挑战。

最近,中国人民大学高瓴人工智能学院 GeWu 实验室就针对这一问题提出了一种新的框架,让 AI 能像人一样观看和聆听乐器演奏,并对给定的视音问题做出跨模态时空推理。

目前这一成果已被 CVPR2022 接收并选为 Oral Presentation,相关数据集和代码已经开源。

  • 论文地址:https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf
  • 项目地址:https://gewu-lab.github.io/MUSIC-AVQA/

接下来让我们一起来看一下这个有趣的工作!

1. 引言

我们在日常生活中被视觉和声音信息所包围,这两种信息的结合利用提高了我们对场景的感知和理解能力。想象一下,当我们身处在一场音乐会中时,同时观看乐器演奏动作和聆听音乐的旋律可以很好地帮我们享受演出。受此启发,如何让机器整合多模态信息,尤其是视觉和声音等自然模态,以达到与人类相当的场景感知和理解能力,是一个有趣且有价值的课题。因此,该研究专注于视听问答(Audio-Visual Question Answering, AVQA)任务,旨在回答有关不同视觉对象、声音及其在视频中的关联的问题。显然,必须对视听场景进行全面的多模态理解和时空推理才能做出正确的回答。

近年来,研究人员在声音对象感知、音频场景分析、视听场景解析和内容描述等方面取得了显著进展。尽管这些方法能将视觉对象与声音关联,但它们中的大多数在复杂视听场景下的跨模态推理能力仍然有限。相比之下,人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务,如视听问答任务等。现有的视觉问答(VQA)和声音问答(AQA)方法等往往只关注单一模态,从而不能很好的在真实的视音场景中进行复杂的推理任务。

如下图所示的单簧管双重奏场景,当回答 “哪个单簧管先发声?” 的问题时,需要在视听场景中先定位出发声的单簧管,并在时序维度上重点聚焦于哪个单簧管先发出声音。要正确回答这个问题,本质上需要有效地对视听场景理解和时空推理。

图 1 AVQA 任务问题样例展示

对于上面这个例子,若我们仅考虑基于视觉模态的 VQA 模型则很难对问题中涉及的声音信息进行处理,相反,若我们只考虑基于声音模态的 AQA 模型,同样难以对问题中涉及的空间位置信息进行处理。但是,我们可以看到同时使用听觉和视觉信息可以很容易的对场景进行理解并正确的回答上述问题。

2. 数据集

为了更好的探索视听场景理解和时空推理的问题,该研究构建了一个专注于问答任务的大规模的视听数据集(Spatial-Temporal Music AVQA, MUSIC-AVQA)。我们知道高质量的数据集对于视音问答任务的研究具有相当大的价值,因此,考虑到乐器演奏是一个典型的视音多模态场景,并由丰富的视听成分及其交互组成,非常适合用于探索视听场景理解和推理任务。因此该研究从 YouTube 上收集了大量用户上传的乐器演奏视频,构建数据集中的视频包括了独奏、重奏的合奏等多种演奏形式。具体来说,该研究一共选取了 22 种不同的乐器(如吉他、钢琴、二胡、唢呐等),设计了九种问题模板并涵盖了声音、视觉和视音三种不同的模态场景类型。

表 1 MUCIS-AVQA 数据集与其他 QA 数据集多维对比

如表 1 所示,该研究发布的 MUSIC-AVQA 数据集具有以下优势:1)MUSIC-AVQA 数据集涵盖大量的声音问题、视觉问题和视听问题的问答对,比其他问答类数据集更全面丰富。对于大多数问答任务数据集(ActivityNet-QA, TVQA 等)来说,仅包含了视觉问题,难以探索视听相关的研究。虽然现有的 AVQA 数据集(AVSD, Pano-AVQA 等)也提供了视听问答对,但它们更专注于相对简单的问题(Existential 或 Location),只需要空间推理即可做出回答。2)MUSIC-AVQA 数据集由包含丰富视听成分的乐器演奏场景组成,有助于更好地研究视听交互场景理解和推理,并可以在一定程度上避免场景中的噪声问题。大多数公开问答类数据集(ActivityNet-QA, AVSD 等)中的声音信息通常与其视觉对象不匹配,会产生严重的噪声(如背景音乐),这使得它们难以探索不同模态之间的关联。此外,TVQA 数据集虽然包含视觉和声音模态,但其声音是由人类说话声组成的,在其问答对构建过程中也只使用了相应的字幕信息,并不是真正的视音关联场景。

最终数据集包含了 9,288 个视频并包含了 22 种乐器,其总时长超过 150 小时。并且以众包的形式形成了 45,867 个问答对,平均每个视频约 5 个问答对,这些问答对涵盖了不同模态下的 9 类问题类型以及 33 个不同的问题模板。丰富而多样复杂的数据集对 AVQA 任务的研究具有相当大的价值和意义。

图 2 MUSIC-AVQA 数据集多维统计分析

3. 模型方法

为了解决上述 AVQA 任务,该研究分别从空间和时序感知的角度出发,提出了一种动态视音场景下的空间 - 时序问答模型(如下图所示)。

  • 首先,声音及其视觉源的位置反映了视听模态之间的空间关联,这有助于将复杂的场景分解为具体的视听关联。因此该研究提出了一个基于注意力机制的声源定位的空间模块来模拟这种跨模态的关联。
  • 其次,由于视听场景随时间动态变化,因此捕捉和突出与问题密切相关的关键时间戳至关重要。因此,该研究提出了使用问题特征作为查询的时间基础模块来聚焦关键时间片段,以有效地编码问题感知音频和视觉的嵌入。
  • 最后,融合上述空间感知和时间感知的视听特征,得到问答的联合表示,以预测视频关联问题的答案。

图 3 动态视音场景的空间 - 时序问答模型

4. 实验结果

如表 2 所示,引入 Audio 和 Visual 模态信息都有助于模型性能的提升。此外,能明显看到当结合声音和视觉模态时,AV+Q 模型的性能比 A+Q 和 V+Q 模型要好得多,这表明多感官感知有助于提升问答任务的性能。我们也能看到视音空间关联模块和时序关联模块都能够很明显的提升模型的性能,从而更好地对场景进行理解。

表 2 不同模态消融实验表

表 3 展示了一些最近的 QA 方法在 MUSIC-AVQA 数据集上的结果。结果首先表明所有的 AVQA 方法都要好于 VQA、AQA 和 VideoQA 方法,这说明多模态感知可以有益于 AVQA 任务。其次该研究所用方法在大多数视听问题上取得了相当大的进步,尤其是对于需要空间和时序推理的视听问题更为明显(如 Temporal 和 Localization 等)。

表 3 与其他 QA 类方法对比

为了进一步说明所提模型的有效性和可解释性,该研究进行了一些可视化展示。其中热力图表示声源的位置,热力图下方的表格表示时序上的注意力分数。从可视化结果可以明显看出所提的模型在多模态视听场景中具有很好的理解和推理能力。

图 4 可视化结果

5. 总述

总体来说,本文探索了如何回答有关不同视觉对象、声音及其在视频中的关联的问题,从而对动态复杂的视音场景进行细粒度理解和推理。作者团队构建了一个包含 45,867 个不同视听模态和多种问题类型问答对的大规模 MUSIC-AVQA 数据集,以及提出了一个简单高效的视音时序 - 空间模型来很好的解决 AVQA 问题。该研究相信提出的 MUSIC-AVQA 数据集可以成为评估视听场景细粒度理解和时空推理的基准平台,同时也认为这项工作是探索视听推理的开篇之作,为该领域开创了一个良好的开端,并借此希望能够激励更多的研究者同我们一道去探索这一领域。

团队主要来自人大 AI 学院

本项研究由中国人民大学高瓴人工智能学院主导,与美国罗彻斯特大学合作完成,通讯作者为 GeWu 实验室胡迪助理教授,主要内容由 GeWu 实验室博士生李光耀负责。

GeWu 实验室目前具体的研究方向主要包括多模态场景理解、多模态学习机制和跨模态交互与生成等,最近半年实验室同学已发表多篇高质量文章,如 TPAMI(人工智能领域影响因子最高的期刊,IF=17.861)和多篇 CVPR(均为 Oral)。

PS:研究人员发现常用的多模态模型存在欠优化的单模态表征,这是由某些场景中另一种主导模态导致的。为此他们设计了 OGM-GE 方法,通过监控不同模态对学习目标的贡献差异来自适应地调制每种模态的优化,从而缓解了这种优化上的不平衡。这篇工作也被 CVPR2022 接收为 Oral Presentation,具体内容将在后续发布中解说。

此外,GeWu 实验室非常欢迎对上述研究方向感兴趣的同学加入(本、硕、博和访问学生),详情请进一步查看实验室招生宣传 (https://zhuanlan.zhihu.com/p/496452639)。

IJCAI 2022 - Neural MMO 海量 AI 团队生存挑战赛

4月14日,由超参数科技发起,联合学界MIT、清华大学深圳国际研究生院以及知名数据科学挑战平台 AIcrowd 共同主办的「IJCAI 2022-Neural MMO 海量 AI 团队生存挑战赛」正式启动。

本届赛事以「寻找未来开放大世界的最强 AI 团队」为主题,通过在 Neural MMO 的大规模多智能体环境中探索、搜寻和战斗,获得比其他参赛者更高的成就。比赛还设置新的规则,评估智能体面对新地图和不同对手的策略鲁棒性,在 AI 团队中引入合作和角色分工,丰富了比赛内容,增强了趣味性。

比赛设立了20000美元的奖金池以及丰富的学术荣誉奖 & 趣味奖,比如“酸脚(Jio)奖”。对比赛感兴趣的小伙伴点击阅读原文赶紧报名吧!

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
3 条评论
热度
最新
解决。我眼睛有问题。。。sorry。 没注意
解决。我眼睛有问题。。。sorry。 没注意
11点赞举报
OK
OK
回复回复点赞举报
没有clone 的ball 啊 点了也没发射 是不是漏了 什么代码?
没有clone 的ball 啊 点了也没发射 是不是漏了 什么代码?
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
unity官方案例精讲(第三章)--星际航行游戏Space Shooter
导入的工程包中,包含着一个完整的 _scene---Main场景,创建一个全新场景,会在其中实现大部分功能
酱紫安
2020/10/15
3.4K0
unity官方案例精讲(第三章)--星际航行游戏Space Shooter
Unity入门教程(上)
一、介绍 目的:通过尝试制作一款使用玩家角色把小球弹飞的简单小游戏,熟悉使用Unity进行游戏开发的基本流程。 软件环境:Unity 2017.3.0f3,Visual Studio 2013 二、创建新项目 1,启动Unity后将出现一个并列显示Projects和Getting started的窗口。点击窗口中央的New Project按钮或者右上方的NEW文本标签,窗口下半部分内容将发生改变,出现Project Name文本框等内容。 2,如果Unity曾经被启动过(比如我),窗口中央将不再显示New
Zoctopus
2018/06/04
3.5K0
【Unity面试篇】Unity 面试题总结甄选 |Unity基础篇 | ❤️持续更新❤️
答:Awake —> OnEnable —> Start —> FixedUpdate —>Update —> LateUpdate—> OnGUl —> OnDisable —> OnDestroy
呆呆敲代码的小Y
2023/07/24
3K0
【Unity面试篇】Unity 面试题总结甄选 |Unity基础篇 | ❤️持续更新❤️
Unity零基础到入门 ☀️| 学会这些Unity常用组件,Unity中必备组件技能学习!
⭐️组件Component ????前言 ????简介 ????Unity工程结构 ????几种常用组件介绍 ????Transform组件 ????Mesh Filter(网格过滤器)和Mesh R
呆呆敲代码的小Y
2021/08/20
3.2K0
Unity零基础到入门 ☀️| 学会这些Unity常用组件,Unity中必备组件技能学习!
Unity和C#游戏编程入门:创建迷宫小球游戏示例
当涉及到Unity和C#游戏编程入门时,以下是一些示例代码,可以帮助初学者更好地理解这个领域的基础概念。我们将展示一个简单的示例,创建一个在Unity中控制的小球,并使用C#脚本来控制其运动。请确保你已经按照前文的步骤安装了Unity和学习了基础的C#编程知识。
海拥
2023/09/13
7130
如何用python制作3d游戏_【教程】12个步骤让你快速学会制作3D游戏
Unity3D不仅是一款功能强大且易于上手的游戏引擎,更重要的是,它还可以被免费下载(它还有一个功能更强大的付费版,但其实你可以使用免费版本完成绝大部分工作)。
全栈程序员站长
2022/09/02
3.8K0
【Unity+C#】Unity手把手入门基础演示,并实现一个翻滚的球球小游戏
先安装好Unity环境,此步骤省略。目前我安装两个Unity编辑器,一个是最新版2023.1.x,一个是最新LTS版本的2022.3.x
Wesky
2024/08/27
5270
【Unity+C#】Unity手把手入门基础演示,并实现一个翻滚的球球小游戏
一键完成对话需求?这款插件你不能错过(Unity3D)
Dialogue System是一个分支式的统一会话系统。它不需要任何脚本,但它是设计为易于由程序员扩展。
恬静的小魔龙
2022/08/07
5K0
一键完成对话需求?这款插件你不能错过(Unity3D)
Unity【Colliders碰撞器】和【Rigibody刚体】的应用——小球反弹效果
一、给地板floor添加碰撞器,这里我们不添加刚体Rigibody,因为会使地板因为重力而下落。
用户11315985
2024/10/16
4080
Unity【Colliders碰撞器】和【Rigibody刚体】的应用——小球反弹效果
2.5D游戏是如何做出来的呢,2.5D游戏快速制作教程
2.5D游戏 是一种介于二维和三维之间的游戏形式。它通常在二维平面上展示游戏内容,但利用三维技术来实现更加逼真的图像效果。
呆呆敲代码的小Y
2023/08/10
2.8K0
2.5D游戏是如何做出来的呢,2.5D游戏快速制作教程
unity3d的入门教程_3D网课
一、Unity下载与安装 参考博客:Unity Hub、unity、PlasticSCM安装
全栈程序员站长
2022/09/22
4.1K0
unity3d怎么挖坑_unity游戏教程
1、rigidbody.addforce(Vector3 * speed) (见roll-a-ball)
全栈程序员站长
2022/09/29
3K0
unity3d怎么挖坑_unity游戏教程
【Unity 3D 游戏开发】Unity3D 入门 - 工作区域介绍 与 入门示例
scence视图简介 : 展示创建的游戏对象, 可以对所有的游戏对象进行 移动, 操作 和 放置;
韩曙亮
2023/03/27
2.3K0
【Unity 3D 游戏开发】Unity3D 入门 - 工作区域介绍 与 入门示例
Unity3D游戏开发初探—3.初步了解U3D物理引擎
  四个世纪前,物理学家牛顿发现了万有引力,并延伸出三大牛顿定理,为之后的物理学界的发展奠定了强大的理论基础。牛顿有句话是这么说的:“如果说我看得比较远的话,那是因为我站在巨人的肩膀上。”
Edison Zhou
2018/08/20
1.7K0
Unity3D游戏开发初探—3.初步了解U3D物理引擎
Unity基本操作以及Roll A Ball窗口界面以及菜单Roll A Ball
第一个手部图标,可以拖动物体,对准物体点击就可以拖动。第二个就是指针图标,可以选择物体的移动方向。可以选择x,y,z三个方向进行移动。第三个就是旋转图标,可以对物体进行任意方向的旋转。第四个可以改变物体的大小。 这个时候按住鼠标右键可以对场景查看,全景查看。按下w,s可以对镜头远近调节,a,d可以左右位移,如果仅仅是鼠标左右移动那就仅仅只能旋转而已。
西红柿炒鸡蛋
2018/12/06
1.1K0
Unity 脚本入门
在 Unity 中脚本是必不可少的组成部分,因为它将定义游戏的各种行为。Unity 推荐使用的编程语言是 JavaScript,但是 C# 或 Boo 同样也可以。下面介绍 JavaScript 的基本使用及脚本的 API 。
hrscy
2018/08/30
1.5K0
Unity 脚本入门
官方案例--Survival Shoot(一)
导入Survival Shooter.unitypackage,里面有个完整了,新版本导入的时候,需要简单的修改一下代码;
酱紫安
2021/11/30
4750
官方案例--Survival Shoot(一)
从零开始制作Roll-a-ball tutoria滚动的小游戏(Unity3D)
  大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧。
恬静的小魔龙
2022/08/07
1.6K0
从零开始制作Roll-a-ball tutoria滚动的小游戏(Unity3D)
unity3d新手入门必备教程
   Unity3D入门教程中文版    Unity3D基本操作、    用Unity3D创建简单漫游... 1    基本设置... 1    修改视角控制键为右键... 9    如何取消浏览窗口上的右键菜单... 10    植物效果设置... 10    水面效果的设置... 15    烘培光影贴图的处理... 16    如何制作连续加载的场景漫游... 29    用Unity3D 创建简单漫游    1.      建模中使用的图片、文件、文件夹
py3study
2020/01/08
6.6K0
mirror--tankWar
一、创建离线场景 1、创建新项目,导入mirror,创建场景重命名为OfflineScenes 2、从Prefabs文件夹中,将预制体LevelArt拖拽到场景中,LevelArt有光源,删除场景中自带的光源 4、从models文件夹中,将Tank拖拽到场景中,调试好合适的位置,也可以拖拽其他的模型布置场景 5、创建canvas,修改UI Scale Mode选项为:scale with screen size,下面的尺寸根据自己的需求更改,我打包出来的是4:3的界面,创建输入框--输入姓名,3个滑杆
酱紫安
2022/05/10
1.4K0
mirror--tankWar
推荐阅读
相关推荐
unity官方案例精讲(第三章)--星际航行游戏Space Shooter
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档