目前的神经机器翻译如火如荼,可以帮助我们翻译很多资料,但是机器翻译的缺陷也很多。2019年5月15日,谷歌AI在博客平台介绍了一款能保留说话者声音特征的“同声传译”模型translatotron。
目前常用的语音翻译包含三个步骤:首先将语音转换为文字(speech recognition),再由机器将文字转换为目标语言文字(machine translation),第三步是将目标语言文字转化为语音(文字转语音全称Text-To-Speech,也叫TTS)。
与常用的模型不同,Translatotron模型通过某种手段实现了语音到语音的直接转译。除此之外,它还有一些其它的优势,比如推理速度更快、更容易识别不需要翻译的名称及专业名词、可以保留原说话人的声音特征等。
智能化的语音聊天
领取专属 10元无门槛券
私享最新 技术干货