Meta大幅推进语音识别技术,发布的单一多语言语音识别模型MMS(Massively Multilingual Speech)模型,能够识别超过4,000种的口说语言,而这个数量是目前已知技术的40倍。MMS也使得文本转语音,以及语音转文本技术,从原本只能用于约100种语言,现在扩展到1,107种。
要训练出能够识别大量语言的模型,Meta第一个遭遇到的困难是收集各种语言的音频资料,目前最大的语音资料集,也只不过涵盖100种语言而已,研究人员想到一个克服难题的方法,是利用圣经等宗教文本,这些文本已经被大量翻译成各种不同的语言,而且圣经翻译本也被广泛地用在文本语言翻译研究上。
这些宗教文本翻译也有公开的录音,因此Meta研究人员利用这些录音,创建出1,100多种语言的新约圣经音频资料集,每种语言平均有32小时的录音资料。除了圣经之外,还有许多基督教宗教读物无标签录音,也能够被拿来训练模型,使Meta得以将可用语言数量扩张至4,000多种。
Meta研究人员提到,经过他们的分析,虽然这些录音资料主要都是男性说话者的声音,但MMS模型处理男性和女性声音的性能表现一致,另外,训练资料内容来自于宗教,不过这并不会使模型产生更多的宗教语言。
语音技术被大量用在虚拟以及增强实境上,目的是让每个用户通过母语,理解网络上其他人的话语,官方也表示,目前地球已知有7,000多种语言,许多语言正不断的消失,更强大的语言技术将有助于保护这些语言。Meta现在开源MMS模型以及程序代码,供研究社群能够以这些基础进行后续研究。
领取专属 10元无门槛券
私享最新 技术干货