工作生活中, 常常有这样的定制语音合成(TTS)声音的需求。
bot开发者希望给自己的bot一个独特的声音。bot需要有个性,而声音是个性很重要的组成部分。比如知心大姐小娜,萌妹子小冰就有着截然不同的声音
内容生产者需要用合适的声音把内容比如网络小说进行有声化。比如玄幻小说的朗读,采用标准新闻阅读的声音往往比较生硬。而一个适合读玄幻小说的声音可以让内容更有吸引力。
个人用户也有保存自己声音的需求,比如用来给孩子讲故事,voice banking。相信未来有一天,每个人都有一个代表自己的bot,它可以永久的生活在虚拟世界里成为我们的代理,这当然需要bot能模仿这个人的说话风格。
2018 //build大会发布了Customvoice.AI (https://customvoice.ai)。它的目标是为这一系列问题提供解决方案。创建一个声音的步骤分解为几步:
选择合适的声音。这对于商业应用非常重要,通常需要从较多的候选人(几十上百人)中选取符合目标场景的声音。 因为最终录音数据量可能较大, 发音人也需要有较好的录音控制能力。如果是个人使用,选择自己喜欢的就好。
数据采集。根据customvoice.AI提供的录音脚本进行录音。训练数据是平行数据, 包括句子和对应的录音文件。 为了最好的效果,可以采用高采样率录音比如48Khz。录音需要保证语音质量没有噪音,发音清晰以及前后语音的一致性,比如语速,音高,音量等等。每次开始录音的时候,可以根据固定的句子进行校准,尽量保持麦克风在同样的位置等等。一般来说,专业的录音公司可以做到以上这些质量保证。而有经验的音频主播也可以在家里录音棚做到这些点。
数据上传到customvoice.AI. 训练基本是自动化的。这里提供最先进的TTS建模技术基于深度神经网络构建,和认知服务以及小娜使用的语音技术保持一致。
模型部署。如果语音质量满足要求,可以部署到Azure云端得到一个HTTP endpoint和应用集成。
基于商务合作,定制语音模型也可以提供私有云和离线部署
最后要强调说明一下,制作高质量的声音需要保证数据的质量和数量,而且需要一定的耐心。Customvoice.AI目前是试用阶段,有兴趣的同学可以申请试用,提供反馈!
领取专属 10元无门槛券
私享最新 技术干货