前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >下一个「洛天依」的打造任务,交给你了

下一个「洛天依」的打造任务,交给你了

作者头像
机器之心
发布于 2022-08-25 11:57:58
发布于 2022-08-25 11:57:58
4240
举报
文章被收录于专栏:机器之心机器之心

机器之心原创

作者:张倩

虚拟歌手越来越出圈的今天,自己开发一个 APP 合成歌声已经不是什么难事了。

对于虚拟歌手洛天依的粉丝来说,2022 年 7 月 12 日是一个大日子。这一天,他们聚集在世界各地的屏幕前,陪自己的偶像度过了诞生十周年纪念日。这场历时 3 个多小时的直播演唱会人气直破千万。

图源:https://b23.tv/v290sOn

历时十年经久不衰,这是很多人类歌手都很难做到的事情,但虚拟偶像洛天依做到了。与此同时,很多新生代虚拟歌手也在陆续出道,征服着越来越多二次元以外的人。

很多粉丝留言说,无论从外形还是声音来看,洛天依都越来越精致了,尤其是声音越来越接近真人。这些粉丝的感觉没有错。虚拟歌手的经久不衰,背后的支撑其实是技术的迭代,尤其是歌声合成技术。

虚拟歌手与歌声合成

从技术上来说,歌声合成是语音合成的子领域。但与常规的语音合成任务相比,歌声合成存在一些独特之处 [1],比如:

  • 输入特征比较多(除了音素、声调、韵律边界等文本特征,还有音符、节拍、连音符等乐谱信息),而且这些额外的特征稀疏性很大;
  • 对时长的对齐要求特别严格,节拍要唱准,比如不能将四分音符唱成二分音符;
  • 对音高要求特别严格,旋律要唱准,比如不能把中央 C 唱成中央 D;
  • 要有一定的自然度和情感,涉及倚音、滑音等技巧,音符之间的跳变要有一定的缓冲感;
  • 对采样率等一些语音编码属性有一定的要求;

近几十年来,人们一直在努力解决这些问题,其间经历了基于单元拼接的合成、统计参数合成、基于深度学习的合成等技术路线的迭代和融合。

拼接合成指的是在事先录制好的采样声库中寻找对应的采样并最终拼接成完整歌曲的方法。统计参数合成则是先产生一些合成音频必要的声学参数,然后再利用这些参数合成音频,中间要用到声码器 [2]。

利用这些传统方法,人们很早就做出了一些比较受欢迎的软件,比如雅马哈开发的 VOCALOID。它的早期合成结果可以在一些大火的虚拟歌手中听到,比如初音未来。

然而,仅靠这些传统的方法通常难以细粒度地刻画声音的变化(比如没有换气声、吐字不连贯),与真实的人声仍有差距。随着深度学习的兴起,基于深度学习或融合了深度学习的合成技术渐渐成熟,生成的歌声往往更真实、更细腻 [3]。有人甚至在 AI 合成的歌曲下评论:「AI 比我更像人」。

图源:https://b23.tv/hDiGxuK

可以用于歌声合成的深度学习模型有许多种,包括卷积神经网络、具有长短期记忆(LSTM)的循环神经网络、生成对抗网络等。此外,也有研究者利用歌声合成与语音合成(TTS)的相似性,提出了一些自回归 Seq2Seq 模型。

当然,当前效果更好的一些深度学习架构(如 Transformer)也被用到了歌声合成领域,诞生了 XiaoiceSing、HifiSinger 和扩散去噪概率模型 DiffSinger 等。然而,这些效果较好的深度学习大模型通常需要消耗海量的数据和算力,不是普通开发者或小型创业公司能玩得转的。

不过,普通开发者和小型创业公司可以不用自己动手开发,因为国内已经有一些平台开始提供相应的能力,比如能提供端、云开放能力的华为 HMS Core。开发者只需要简单的几步,就能将这项能力运用到自己的 APP 上(详情见参考链接 [5])。

可以观察到,最近几年,AI 歌声合成这一赛道正变得越来越出圈,也有越来越多的投资人开始看到这一领域的价值。比如去年,结合 AI 进行歌声合成的移动端软件 ACE 虚拟歌姬就获得了数百万美元 Pre-A 轮融资。

为什么大家愿意花这么大精力去投资、打磨歌声合成?在投资人看来,和有深度学习加持的视频剪辑软件一样,这是一种用算力来解放创造力的方式。音乐作为最普世的娱乐内容,但创作还集中在极少数人手上,创作的门槛亟待降低 [6]。

另外,在代表着未来的「元宇宙」中,如果我们想让虚拟人、虚拟演唱会给人更真实、更沉浸的体验,歌声合成也是必须要过的一关。

当然,如果我们想在元宇宙中打造更加沉浸的虚拟演唱会,仅发力打磨歌声合成是不够的,其他技术,比如音源分离、空间音频渲染等也很重要。

如何办一场富有「空间感」的虚拟演唱会?

人类的两只耳朵可以分辨声源的位置,因为从声源传递到两只耳朵的声音存在细微的差异,包括到达时间、接收到的能量以及相位差等信息,这就给人带来了空间感。为了还原这种感觉,空间音频技术使用信号处理的方法对到达两耳的声音信号进行模拟,将声场还原为三维空间,更接近真实世界。

理想的空间音频效果对虚拟演唱会的沉浸感非常重要。我们可以想象一下戴着 VR 头显欣赏邓丽君虚拟演唱会的情景,现场不止有邓丽君的歌声,还有钢琴等乐器的声音,这些声音给我们的感觉不应该是从我们的耳机中发出的,而是我们周围的一片区域,乐器们也各有其位置。

一些传统的 3D 音频制作技术可以达到或接近这种效果,但制作过程比较繁琐,需要获取原始的分轨素材(如录制的人声、钢琴声等),并使用专业的数字音频工作站(DAW)和 3D 混音插件手工制作,因此制作周期长、生产效率低、成本高、门槛高。此外,开发者由于没有歌曲的原始分轨,因此通过传统方法将 2D 音频转成 3D 难度也很大。

深度学习同样可以在这一问题中发挥作用。

通过对大量的音乐进行深度学习建模,并结合传统信号处理能力,我们可以实现音源分离。不过,为了确保每一个乐器都能尽可能地分离完整且干净,我们可能还需要针对不同的乐器音色特点专门设计过程中要用到的变换矩阵和网络结构,这就有一定的技术门槛了。

分离之后的空间音频渲染也存在一些难题,比如要解决因头型、肩宽等人体体征的差异带来的 HRTF(头相关传递函数)因人而异的难题,还要营造空间中声音的反射、散射、干涉等物理现象。

不过,这些问题也已经有了现成的解决方案,而且在上面提到的华为 HMS Core 音频编辑服务(Audio Editor Kit)中都能找到,其独有的变换矩阵、网络结构和一系列的声源滤波技术都已经向开发者开放。开发者仅需输入立体声,就能快速生成 3D 音频内容(详情见参考链接 [7])。

HMS Core音频编辑服务3D音频生成示意图

普通立体声与HMS Core提供的3D音频效果对比

普通开发者如何入局?

在 AI 所支持的各种产业中,音频编辑是被低估的一个,尤其是在当前虚拟人产品井喷、元宇宙被寄予厚望的背景下。

iMedia Research(艾媒咨询)调研数据显示,接近七成用户喜欢虚拟人形象的外形 / 声音,其次喜欢虚拟人的作品 [8]。他们的数据还显示,2020 年中国虚拟偶像核心市场规模为 34.6 亿元,预计 2022 年将达到 120.8 亿元;2020 年虚拟偶像带动周边市场规模为 645.6 亿元,预计 2022 年为 1866.1 亿元,破圈效应渐显 [9]。这样的市场规模对于产品开发的需求不言而喻。

如果你也想自己构建一个「AI + 音频编辑」APP,或者在自己的 APP 中加入歌声合成、3D 音频等功能,接入华为 HMS Core 等开放能力平台不失为一个便捷的选择,因为这个平台不仅提供了现成的技术能力,还有相应的技术文档、解决方案示例、技术解读课程、互动社区等作为辅助。

官方最近的一次技术解读(HMS Core Discovery 直播第 17 期)便是聚焦 HMS Core 音频编辑服务,展示歌声合成、空间音频渲染、音源分离等能力的新玩法,更有知名的弹唱音乐社区唱鸭 App 加盟,一起探讨影音娱乐应用如何构筑差异化竞争力、打造「声」临其境的听觉盛宴。感兴趣的开发者可以扫码,关注明晚 7 点的直播间。

直播互动,赢取精美好礼!

如果你有一些音频编辑方面的开发合作诉求或技术疑问,可以通过以下问卷与节目官方取得联系,获得免费咨询的机会!

音频编辑服务产品调研问卷

点击「阅读原文」可以到官网了解更多信息。

参考链接:

[1]https://mp.weixin.qq.com/s/w_6hgxlyhfaut5ylSpAYxA

[2]https://mp.weixin.qq.com/s/5ErbmM6t-tjh_HxHux9IaQ

[3]https://zhuanlan.zhihu.com/p/333349094

[4]https://arxiv.org/pdf/2110.02511.pdf

[5]https://developer.huawei.com/consumer/cn/forum/topic/0204941271250270953?fid=18

[6]https://www.sohu.com/a/488511824_323328

[7]https://developer.huawei.com/consumer/cn/forum/topic/0204944045144000049?fid=18

[8]https://www.iimedia.cn/c1040/85961.html

[9]https://www.8btc.com/article/6770042

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
孙燕姿的饭碗,也被AI盯上了
大数据文摘转载自深燃 作者 | 邹帅 编辑 | 黎明 孙燕姿可能都没想到,自己的“代表作”会加上一个《漠河舞厅》。 替孙燕姿唱歌的,是AI孙燕姿。最近,一批B站UP主用AI技术合成了孙燕姿版的《发如雪》《半岛铁盒》《红豆》,和其他港台歌手“梦幻联动”,还让孙燕姿唱起了更新的歌,《水星记》《漠河舞厅》等等,很多孙燕姿的粉丝都表示“绝对想不到孙燕姿会唱这种类型的歌。” 以假乱真,AI孙燕姿的唱功、音色均不在孙燕姿本人之下。这背后的技术原理也很简单,把孙燕姿的声音喂给AI,训练出特定的数据集,再给AI一首其他歌手
大数据文摘
2023/05/22
3950
孙燕姿的饭碗,也被AI盯上了
AI音乐,究竟是人类界限的突破还是冰冷的模仿?
音乐的魔力在于能够用声音敲击人们的心灵,由此产生共鸣,或抚慰人心,或振奋精神,或感同身受。在音乐中,每个人都能够找到一个宣泄口,释放出对于现实的不满、生活的压力,又或在音乐中体验恋爱的美好、友情的赞颂
VRPinea
2018/05/14
8160
​K歌中的歌唱评价与嗓音分析
我是高月洁,来自网易云音乐,是K歌综合评分系统的项目负责人,同时也负责包括音乐业务、直播业务与嗓音分析相关的内容。
LiveVideoStack
2022/02/11
3.7K1
​K歌中的歌唱评价与嗓音分析
真国风 AI 虚拟人!腾讯艾灵学会作诗书法新技能,以假乱真的那种
5月21日,腾讯AI虚拟人艾灵再秀出新技能,首次展示AI作诗、AI书法等国风才艺,并与青年歌手白举纲跨次元合作,共同演唱国风新歌《百川千仞》。
AI科技评论
2021/07/02
1.2K0
唱作俱佳 腾讯AI艾灵领唱中国新儿歌
本文转自腾讯AI实验室 2019年,腾讯高校合作第一次迎来音乐声学博士,中国音乐学院音乐科技系李子晋副教授与腾讯AI Lab语音识别中心开展了一项歌声合成相关的合作。转眼间,他们的合作成果已经化成了腾讯AI数字人艾灵的音乐细胞。 今年六一儿童节,腾讯联合北京荷风艺术基金会发起“腾讯荷风艺术行动”,为音乐美学中国素质教育的发展做出贡献。 今天,他们为孩子们送上一份礼物:首席儿歌守护唱作人,青年演员歌手王俊凯与雄安孩子,以及腾讯AI数字人艾灵共同演绎的新歌《点亮》。这份礼物被以特别的方式呈现:在H5互动里,每
腾讯高校合作
2020/06/02
1.3K0
虚拟邓丽君,歌声合成真的可以如此逼真吗?数字人技术系列
2022年江苏卫视跨年晚会上,一身优雅深蓝色旗袍的邓丽君与周深一起演绎了《小城故事》,《漫步人生路》,《大鱼》3首歌,让不少观众直呼感动。
mixlab
2022/04/11
1.7K0
虚拟邓丽君,歌声合成真的可以如此逼真吗?数字人技术系列
李玟“千禧之境”演唱会震撼来袭,VR 技术有新突破?
继王晰、郑钧、汪峰、A-SOUL,李玟 “千禧之境” 全虚拟 VR 演唱会震撼来袭!
mixlab
2023/01/31
3040
李玟“千禧之境”演唱会震撼来袭,VR 技术有新突破?
搜狗雅妮亮相这个大会,分身技术会在文娱产业率先爆发吗?
作为“雅妮”第一个抓手,文娱产业有望率先开花结果,但“雅妮”的野心,绝不只是文娱产业。
罗超频道
2019/08/12
7620
搜狗雅妮亮相这个大会,分身技术会在文娱产业率先爆发吗?
你听不出是AI在唱歌!这个日本虚拟歌姬,横扫中英日三种语言
在今天的内容开始之前,大家可以先戳下面的声音听一下,不长,只有18秒,是一个妹子在唱Adele的知名歌曲Rolling in the Deep。
量子位
2018/12/28
1.6K0
逆天!MIT新“像素发声”系统,完美分离声与画(附视频)
【新智元导读】麻省理工学院(MIT)的计算机科学与人工智能实验室(CSAIL)最近研发出一种名为Pixel Player系统,能够通过大量无标签的视频来学习声音定位,并把声音与声源的像素点进行分离。此
新智元
2018/04/17
1.2K0
逆天!MIT新“像素发声”系统,完美分离声与画(附视频)
音频品鉴与歌唱评价——音频内容理解实践
歌唱评价是K歌系统中核心技术之一。近年来,歌唱评价领域也发生着多元化和深度化的变革。本次LiveVideoStackCon 2022 北京站邀请到腾讯音乐天琴实验室高级研究员——江益靓,为大家介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践,以及优质内容挖掘中使用的音频品鉴系统。 文/江益靓 编辑/LiveVideoStack 各位同行朋友们,大家好,很高兴和大家一起分享交流,本次分享的主题是音频品鉴与歌唱评价——音频内容理解的一些技术实践。我是来自天琴实验室的益靓。 接下来将从四个方面展开介绍:歌唱
LiveVideoStack
2023/05/18
1.7K0
音频品鉴与歌唱评价——音频内容理解实践
虚拟偶像“C位出道”:数字浪潮下的崛起与财富密码(3/10)
在当今数字化浪潮席卷全球的时代,虚拟偶像如同一颗颗璀璨的新星,在文化娱乐的天空中闪耀着独特的光芒。从全球粉丝破亿的虚拟歌姬 “初音未来”,到国内人气爆棚的洛天依、A-SOUL 等,虚拟偶像已成为数字时代备受瞩目的文化现象,吸引着无数年轻人的关注和喜爱。
正在走向自律
2025/04/12
3650
虚拟偶像“C位出道”:数字浪潮下的崛起与财富密码(3/10)
想要出专辑、开个唱?试一下 Facebook「歌手变声器」
去年 6 月份,机器之心报道过,谷歌发布了从声纹识别到多重声线语音合成的迁移学习,利用该技术能够从任意一段参考音频中提取出说话者的声纹信息,并生成与其相似度极高的合成语音(参考:学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习)。这不禁让人想起《黑镜》中利用逝者音频合成语音继续陪伴生者的精彩脑洞。
机器之心
2019/04/29
9370
想要出专辑、开个唱?试一下 Facebook「歌手变声器」
路过人间遇见你!三次元虚拟小姐姐翻唱《华夏》除夕贺新春
主持人陈伟鸿表示,「刚才我刻意一开始先没有看她,就觉得这个歌声,已经是沁人心脾了。」
新智元
2022/02/24
5930
路过人间遇见你!三次元虚拟小姐姐翻唱《华夏》除夕贺新春
妈耶,摆脱机器音,二次宅的歌姬女友彻底活了
最近,一家日本公司展示了他们在虚拟歌姬上使用的新开发语音合成技术,效果惊艳,几乎听不出虚拟歌姬歌声中那“面瘫”式的机械音,现在的歌声有起承转合,有气息声,更有力度,能让你在脑海中自然脑补它的表情。
AI科技大本营
2018/12/28
6090
妈耶,摆脱机器音,二次宅的歌姬女友彻底活了
元宇宙将有750亿新人类?新智元发布《中国AI和元宇宙产业七大趋势》及2021创新大奖
---- 新智元报道   编辑:编辑部 【新智元导读】元宇宙市场复合增长率将是AI的10倍,真人与虚拟人交互爆发式增长。未来元宇宙里10个人可能有9个是虚拟人。2021年,新智元选出的TOP10虚拟人都有谁? 137亿年前发生的一次大爆炸,我们所处的「宇宙」形成了。 时间来到2021年,虚拟的「元宇宙」再一次大爆发。 2022,元宇宙奇点爆发才第2个年头,这个Metaverse却以惊人的速度疯长! 元宇宙大爆发是否突破了物理世界的约束,让人类来到了一个自由的新世界? 无数的虚拟人涌现,谁将主导未来的元
新智元
2022/04/01
8590
元宇宙将有750亿新人类?新智元发布《中国AI和元宇宙产业七大趋势》及2021创新大奖
虚实之间01 | 什么是虚拟数字人?
著名科幻小说《三体》描述过这样一个场景:主角为了寻找超自然力量的线索,借助虚拟现实设备进入了一款游戏,他在虚拟世界中遇到的人物,不仅有人类的外形,能跟他流畅地对话,甚至还有人类的逻辑和情感。
GIAIAC
2022/06/16
1.1K0
虚实之间01 | 什么是虚拟数字人?
GME 受邀 2022 世界人工智能大会,探讨虚实互联的前沿技术、场景、价值
9 月 2 日下午,2022 世界人工智能大会“游戏·AI·元宇宙”高峰论坛在上海举办。本次论坛由上海市经信委、徐汇区人民政府指导,上海米哈游网络科技股份有限公司主办,徐汇区科委、文旅局、伽马数据、西岸集团特别支持,米哈游、Unity、腾讯、复旦大学等游戏、科技、教育领域的众多专家到场交流。 腾讯游戏多媒体引擎 GME (Game Multimedia Engine) 副总经理左小祥受邀参加演讲,分享了腾讯云在虚实互联视角下的场景洞察、技术成果及应用,与行业各方共同探讨虚实互联的发展和价值。 腾讯云 G
腾讯游戏多媒体引擎GME
2022/09/22
1.3K0
GME 受邀 2022 世界人工智能大会,探讨虚实互联的前沿技术、场景、价值
人工智能也能玩音乐?这个小程序要做你手上的「初音未来」| 晓组织 #27
大家好,我们是成都涂鸦科技团队,一个扎根人工智能音乐行业的初创公司,由一群有梦想、爱音乐、懂人工智能的年轻人组成。
知晓君
2018/07/26
6260
创新架构扫清难题,TRTC实时合唱解决方案让你在家Get千人大合唱的快乐!
同时,全民K歌还持续打造明星大合唱玩法,与吴克群、张远、陈卓璇等超多实力歌手合作,邀请他们空降歌房和K歌粉丝实时互动。有实力的粉丝可以参与选拔,赢取与明星1v1对唱的机会。普通歌迷朋友也可以加入”明星空降大合唱“,歌手作为领唱,歌迷点击”加入合唱“,便可与明星同框合唱,无需抢票去现场,在家就能分分钟Get演唱会全场合唱的快乐,获得堪比演唱会现场的沉浸式体验。
腾讯云音视频
2024/04/30
3220
创新架构扫清难题,TRTC实时合唱解决方案让你在家Get千人大合唱的快乐!
推荐阅读
孙燕姿的饭碗,也被AI盯上了
3950
AI音乐,究竟是人类界限的突破还是冰冷的模仿?
8160
​K歌中的歌唱评价与嗓音分析
3.7K1
真国风 AI 虚拟人!腾讯艾灵学会作诗书法新技能,以假乱真的那种
1.2K0
唱作俱佳 腾讯AI艾灵领唱中国新儿歌
1.3K0
虚拟邓丽君,歌声合成真的可以如此逼真吗?数字人技术系列
1.7K0
李玟“千禧之境”演唱会震撼来袭,VR 技术有新突破?
3040
搜狗雅妮亮相这个大会,分身技术会在文娱产业率先爆发吗?
7620
你听不出是AI在唱歌!这个日本虚拟歌姬,横扫中英日三种语言
1.6K0
逆天!MIT新“像素发声”系统,完美分离声与画(附视频)
1.2K0
音频品鉴与歌唱评价——音频内容理解实践
1.7K0
虚拟偶像“C位出道”:数字浪潮下的崛起与财富密码(3/10)
3650
想要出专辑、开个唱?试一下 Facebook「歌手变声器」
9370
路过人间遇见你!三次元虚拟小姐姐翻唱《华夏》除夕贺新春
5930
妈耶,摆脱机器音,二次宅的歌姬女友彻底活了
6090
元宇宙将有750亿新人类?新智元发布《中国AI和元宇宙产业七大趋势》及2021创新大奖
8590
虚实之间01 | 什么是虚拟数字人?
1.1K0
GME 受邀 2022 世界人工智能大会,探讨虚实互联的前沿技术、场景、价值
1.3K0
人工智能也能玩音乐?这个小程序要做你手上的「初音未来」| 晓组织 #27
6260
创新架构扫清难题,TRTC实时合唱解决方案让你在家Get千人大合唱的快乐!
3220
相关推荐
孙燕姿的饭碗,也被AI盯上了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档