看柯南的人应该都对柯南的几大神器印象深刻,尤其是那个变声领结,模仿各种人的声音没压力。
现在,托百度的福,这种技术将会变成现实生活中的黑科技与我们见面。
根据外媒futurism.com的报道,百度人工智能团队研发出一种神经网络技术,Deep Voice能够在3秒内模仿声音,软件甚至还可以改变模仿声音的性别甚至口音。
Deep Voice是百度AI研究院一个由深度神经网路构建的高质量语音转(TTS )系统。最先于2017年推出,当时的第一代产品,一个系统只能学习一个人的声音,而且需要用几小时音频进行训练。
而现在这个系统不仅大大缩短了模拟所需的时间,出错的概率也降低了不少。
百度放出了用最新技术合成语音的几组例子,
在这里:https://audiodemos.github.io
这些例子当中,系统使用1段、5段、10段、20段、50段、100段说话人的样本,到10段的时候基本就和原说话人很像了。
在百度公布的论文中,介绍了语音克隆问题的两种方法:说话人适应(speaker adaptation)和说话人编码(speaker encoding)。
在实际运用方面,Deep Voice可以帮助患有语言障碍的病人通过一些学习来获得失去的声音。也可以应用在角色当中,让角色拥有和自己一样的声音,来获得更沉浸的的游戏体验。
当然还可以用于个性化「数字助理」,如Siri,谷歌助理,Alexa; 和百度的DuerOS(目前该平台支持5000万台人机对话的设备)。
甚至在娱乐行业和社交媒体中也能成为一种有趣的玩法,可以制造一些恶搞的配音短片等等。
当然了,也不否认这个会带来诈骗事件。因为毕竟只是用文字或者Photoshop,人们就已经很容易被骗了。
领取专属 10元无门槛券
私享最新 技术干货