自动语音识别(ASR)是将语音信号转换为文本的技术。某中心的语音系统为每种语言维护统一的核心ASR模型,但其AI团队通过实时适配用户上下文来提升识别精度。例如,系统可利用用户唤醒词"Alexa"的声学特征过滤背景噪音。
设备上下文利用
带屏幕的设备可显示查询应答列表,当处理后续指令时,ASR模型会优先识别列表中的条目。近期推出的上下文嵌入服务采用经多任务训练的大型神经网络,生成连续向量序列(嵌入),动态表征多轮对话中的用户语句和系统响应。
规模化工程挑战
以确认型追问场景为例(如用户说"打电话给Meg"后需选择联系人),上下文感知使ASR错误率降低26%。但需解决以下核心问题:
该服务在美式英语场景中显著降低语音识别错误率,并可扩展至本地信息上下文(如查询咖啡店后请求导航)。系统设计支持离线实验新上下文信号,持续优化模型效果。
技术团队强调:将实验室模型转化为海量用户服务需要严谨的系统设计,某中心工程团队通过科学与工程的紧密协作,实现了上下文机器学习在亿级规模下的稳定运行。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。