首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Facebook开源低延迟在线自动语音识别框架:速度更快,错误率更低

Facebook 人工智能研究院(FAIR)于当地时间1月13日表示,已经开源了基于深度学习的推理框架wav2letter @ anywhere,该框架可在云或嵌入式边缘环境中快速实现在线自动语音识别。Wav2letter @ anywhere是由wav2letter和wav2letter ++这两个基于神经网络的语言模型构建的,在2018年12月发布时,Facebook 人工智能研究院认为这两款语言模型是目前可用的最快的开源语音识别系统

自动语音识别(ASR)可将语音转换为文本,然后推断出说话者的意图从而执行任务。wav2letter++存储库在GitHub上提供的API支持并发音频流和广泛使用的深度学习语音识别模型,如卷积神经网络(CNN)或递归神经网络(RNN),可以满足在线ASR所需的规模。

据纽约市实验室和Menlo Park总部的8名Facebook人工智能研究院研究员上周发布的一篇文章显示,Wav2letter@anywhere的单词错误率优于由双向LSTM RNNs构成的两个基线模型。双向LSTM RNNs是目前被广泛使用的控制延迟的方法。

研究人员称:“该系统的吞吐量几乎是调整好的混合ASR基准的三倍,同时系统的延迟和错字率都更低。” “延迟控制双向LSTM通常用于在线语音识别,将未来context与卷积结合在一起可产生更准确、延迟更低的模型。我们发现TDS卷积可以在有限的未来context下维持较低的WER。”

去年秋季,Facebook在2019年Interspeech上提出了一个降低延迟并在LibriSpeech(LibriSpeech是一个收录了1000小时英语语音的数据集)上表现出优越性能的方法,该方法被称之为“时深可分离卷积(TBS)”。由于卷积声学模型——时深可分离卷积(TBS)模型的改善,低延迟取得有了一定进步。

用于语音推理的CNN和自然语言模型趋势相去甚远,自然语言模型更加聚焦递归神经网络或者像Google基于BERT的双向编码器这种基于Transformer的模型,或者追求更好的性能。可分离模型因其在计算机视觉领域的诸多应用而最闻名,例如谷歌的MobileNet。

wav2letter@anywhere是在Pythia图像和语言模型框架、wav2vec在线语音识别和RoBERTa等新方法发布之后推出的(RoBERTa是一款基于谷歌BERT的模型,在2019年夏天GLUE benchmark排行榜上,RoBERTa攀升至第一位,但此后已跌至八位)。

wav2lette项目地址: https://github.com/facebookresearch/wav2letter

RoBERTa项目地址: https://github.com/brightmart/roberta_zh

原文链接: https://venturebeat.com/2020/01/13/facebook-releases-low-latency-online-speech-recognition-framework/

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/5U2p0d9MdfZSbxKk795r
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券