设备端自动语音识别(ASR)模型接收语音信号后,输出按概率排序的识别假设集合。这些假设以格(lattice)结构表示——图中的边代表识别词汇及其转移概率。
相比云端ASR需要传输音频片段,设备端仅需向云端发送识别格,由强大的神经语言模型重新排序假设。识别格需在用户结束说话后才能发送,因为后续词汇可能显著改变假设概率。
端点检测模型(end-pointer)决定用户何时结束发言。设备端运行两种端点检测器:
设备端ASR需支持动态上下文感知,例如:
采用基于多头注意力机制的上下文偏置技术,与ASR子网络联合训练:
专研神经边缘处理器支持:
该技术已应用于车载等弱网环境,未来将拓展至多语言动态切换场景。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。