近日,据报道,根据谷歌官网,谷歌的通用语音模型USM目前已实现升级,支持100多个语种内容的自动识别检测。
据了解,去年11月,谷歌曾计划创建一个支持1000个语种的AI模型USM。谷歌将其描述为“最先进的通用语音模型”,拥有20亿个参数,经过涵盖1200万小时的语音、280亿个句子和300多个语种数据集的预训练。
SM的强大效果目前已在Youtube的字幕生成中展现出来,可自动翻译和检测如英语、汉语等主流语种,还能识别出阿萨姆语这种小众语种,可以说“精通方言”。
目前,谷歌称USM可支持检测100多个语种,并将作为构建更大的系统的“基础”。不过,这项技术似乎还有些遥远,谷歌在I/O开发者大会期间对阿拉伯语的错误表述就已证明。
USM已被YouTube用于生成字幕,它还支持自动语音识别(ASR),可自动检测和翻译语言,不仅包括普通话、英语等广泛使用的语言,还包括阿姆哈拉语、宿务语、阿萨姆语等冷门语言。
在周一发布的更新中,谷歌分享了更多有关USM的信息,谷歌称,这是构建支持1000种语言的通用语音模型的“关键第一步”。
好啦!今天小编的分享就到这啦!我们下期再见~
领取专属 10元无门槛券
私享最新 技术干货