首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」

MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」

作者头像
机器之心
发布2020-08-28 15:06:30
发布2020-08-28 15:06:30
1K0
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

从无声视频中生成音乐?这听起来很难。由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组在 ECCV 2020 的一篇论文中,提出了一种名为 “Foley Music” 的模型,仅根据音乐家的身体动作就能自动生成一段极具表现力的音乐。

说起计算机音乐的发展史,还要追溯到 1951 年,英国计算机科学家艾伦 · 图灵是第一位录制计算机生成音乐的人。近年来,深度神经网络的出现促使了利用大规模音乐数据进行训练来生成音乐的相关工作。

然而,音乐往往伴随着演奏者与乐器的互动,并通过细微的手势与乐器相互作用以产生独特的音乐。这就会出现一个有趣的问题:给定音乐家演奏乐器的无声视频片段,我们是否可以开发一种模型,能够根据音乐家的身体动作自动生成一段逼真的音乐?

这种功能将会为各种应用奠定基础,例如自动为视频添加声音效果,以避免繁琐的人工操作,或在虚拟现实中创造听觉沉浸式体验。但具体来说,如何实现呢?

研究概述

  • 论文地址:https://arxiv.org/pdf/2007.10984.pdf
  • 项目地址:http://foley-music.csail.mit.edu/

为了解决这个问题,由MIT-IBM 沃森人工智能实验室主任研究员淦创博士领导的研究小组提出了一种名为 “Foley Music” 的模型,可以从无声视频中生成富有表现力的音乐。该模型将视频作为输入,检测视频中的人体骨架,识别其与乐器之间的交互作用,预测相应的 MIDI 文件。论文已入选计算机视觉顶会 ECCV 2020。

首先,研究者确定了生成音乐的两个关键要素。对于视觉感知,采用身体和手指关键点作为视觉表征,从而可以显式地对身体部位和手部动作进行建模;对于音频表征,研究者提出使用 MIDI,可对每个音符事件的时间和强度信息进行编码,使用标准音频合成器,亦可轻松将 MIDI 转换为逼真的音乐波形。由此将音乐生成问题视为 Motion-MIDI 的转换问题,如图 1 所示。同时研究者还提出了 Graph-Transformer 模块来学习将它们关联起来的映射函数。

图 1:任务定义。

为了评估生成音乐的质量,研究者进行了定性研究实验,通过正确性、噪声量、同步性和综合性指标进行衡量。实验结果证明,该方法的性能明显优于其他现有方法。更重要的是,由于 MIDI 是完全可解释和透明的,能够灵活地进行音乐编辑。研究者表示,该工作将为通过人体关键点和 MIDI 来探索视频和音乐之间的联系开辟未来的研究方向。

Graph-Transformer 模型

研究者分别选择了人体姿态和 MIDI 作为视觉和音频表征,并提出了一种 Graph-Transformer 模型,根据身体姿态特征预测 MIDI 事件,整体框架如图 2 所示。

视觉表征

该模型使用人体姿态特征来捕获身体运动线索。首先,从视频的每帧中检测身体和手指关键点,然后将其 2D 坐标根据时间堆叠为结构化视觉表征。在实际应用中,使用开源 OpenPose 工具箱提取身体关键点的 2D 坐标,并使用预训练手部检测模型和 OpenPose hand API 来预测手指关键点的坐标。总共获得了 25 个身体关键点,以及 21 个手部关键点。

音频表征

选择正确的音频表征对于成功生成富有表现力的音乐非常重要。研究者选择 MIDI 作为音频表征,主要由 note-on 和 note-off 事件组成,每个事件也定义了音高和强度。研究者使用音乐处理软件从视频的音轨中自动检测 MIDI。对于 6 秒钟的视频片段,通常包含大约 500 个 MIDI 事件。这些 MIDI 事件可以很容易地导入到标准合成器中生成音乐波形。

图 2:整体架构。

视觉编码器

MIDI 解码器

其输出通过两层全连接层和 softmax 后得到下一个 token 在词汇表中的概率分布

实验结果

数据集

研究者在 URMP,AtinPiano 和 MUSIC 这三个乐器演奏视频数据集上进行了实验,其中包含手风琴、贝斯、巴松管、大提琴、吉他、钢琴、大号、尤克里里和小提琴共九种不同类别乐器的大约 1000 个演奏视频。

对比基准

研究者将本文模型与 SampleRNN,WaveNet 和 GAN-based Model 这三种现有方法进行了比较。公平起见,为所有基准提供的姿态特征是相同的。

定性评估

在 AMT 上通过四个评价指标定性比较生成音乐的感知质量。(1)正确性:生成音乐与视频内容相关;(2)噪音量:生成音乐包含噪音最小;(3)同步性:生成音乐在时间上与视频匹配;(4)综合性:总体质量最佳。

研究者向 AMT 工作人员展示了四个视频,这些视频具有相同的视频内容,但具有不同的声音,分别由本文方法和三个基准方法合成。AMT 工作人员需要分别根据以上指标从中选择出最佳的视频。

表 1 展示了不同乐器类别的综合性指标结果,该方法在所有乐器类别上均优于基准方法。

表 1 综合性指标结果

图 3 分析了正确性,噪音量和同步性指标结果。可以观察到,在所有评价指标上,该方法也始终优于并远超基准方法。

图 3 正确性,噪音量和同步性指标结果

这些结果证明了本文所提出方法的有效性,即 MIDI 有助于改善声音质量,语义对齐以及时间同步。

可视化结果

图 4 左侧展示了这一方法预测的 MIDI 和 GT 之间的对比。可以观察到,该方法所预测的 MIDI 与 GT 非常相似。图 4 右侧展示了不同方法生成的声谱图结果。可以发现该方法比其他基准方法生成了更多的结构化谐波分量。

图 4:可视化结果。

音乐编辑

基于 MIDI 的可解释性和灵活性,可以通过 MIDI 文件轻松地进行音乐编辑,生成不同风格音乐,如图 5 所示。这对于以前使用波形或频谱图作为音频表示形式的系统而言难以实现。

图 5:不同风格音乐。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档