首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >语音识别 >语音识别效果问题如何排查?

语音识别效果问题如何排查?

词条归属:语音识别

问题排查步骤

分为如下几种常见情况:

1. 本身音频内容靠正常的人耳听不清楚或者听不懂,这类情况建议对于前端的采音环境进行改造,如采音距离由远场改为近场,采音环境的噪音尽量控制和减少,口音、方言尽量控制在带口音的普通话(即非本地人可听懂)以及改善语速过快造成的吞音。

2. 本身音频内容可以听懂,但识别结果与听到的内容相差很大。这类情况一般是音频信息不满足语音识别服务要求导致的。

通过 cooledit、Adobe Audition 或者 FFmpeg 查看音频的详细信息,包括采样率、声道数和位深。语音识别服务目前仅支持8000Hz或者16000Hz采样率、16bits位深,录音文件识别支持单/双声道,实时语音识别和一句话识别仅支持单声道。注:如果您使用的是实时语音识别或一句话识别,音频属性必须严格符合上述要求。

查看音频的波形和频谱(Adobe Audition 在视图选项中)来判断实际音频真实的采样率,建议真实采样率要满足语音识别的要求(8k电话引擎模型对应8000kHz采样率,16k非电话引擎模型对应16000kHz采样率)。

真实16000Hz(真实采样率 = 框出来的右侧数值的最高值 × 2,即8kHz × 2=16kHz)音频的波形和频谱如下:

非真正16000Hz(实际为4.6kHz × 2 = 9.2kHz)音频的波形和频谱如下,可以看到在音频在4.6k频段到8k频段信息完全缺失。

3. 本身音频内容可以听懂,并且识别结果与听到的内容相差不大,但有一些特有的名词或者句子识别不好,可通过如下步骤提升识别效果:

将识别不好的名词参考 热词使用文档 指引进行热词的添加和使用。

将识别不好的名词所在句子或者识别不好的特殊句子参考 自学习模型使用文档 指引进行自学习模型的添加和使用。

4. 本身音频内容可以听懂,并且识别结果与听到的内容相差不大,但会多出来一些识别结果。这类一般是因为噪声造成的,噪声分为两种,一种是非人声的噪音,一种是人声的噪音。本身 ASR 算法对于第一类噪音做过一定的适配和优化,这一类可以提供具体的 badcase 给到腾讯来分析优化,但对于第二类人声噪音较难解决,因为会对于真正需要识别出来的人声的造成误伤。

相关文章
DeepSpeech源码编译及语音识别效果复现
DeepSpeech是国内百度推出的语音识别框架,目前已经出来第三版了。不过目前网上公开的代码都还是属于第二版的。
sparkexpert
2019-05-26
3K0
利用BERT模型提升语音识别重排序效果
当用户与语音助手交互时,自动语音识别(ASR)模型将语音转为文本。由于核心ASR模型训练数据有限,对罕见词句处理能力较弱,因此需通过语言模型对识别假设进行二次排序。传统方法使用长短期记忆(LSTM)语言模型,而本文提出基于BERT的RescoreBERT模型,显著提升准确性。
用户11764306
2025-08-14
2430
如何实现语音识别功能
native 嵌套H5 实现语音识别功能? 看图说话,我采用的是 mui 框架所自带的功能! 代码附上: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>语音识别</title> <meta name="viewport" content="width=device-width, initial-scale=1,maximum-scale=1,user-scalable=no
White feathe
2021-12-08
6.2K0
如何排查 Tramp 卡住问题
今天在进行一个操作时,突然出现了访问 tramp 的操作,最近有一段时间没有使用过,所以看到这个消息时比较好奇,是什么操作导致触发了 tramp。
飞驰的西瓜
2023-09-06
4800
Linux 如何排查网络问题
使用ifconfig或ip address show命令查看网络接口的状态。确认网络接口是否正常启用,并且是否分配了正确的IP地址。
云域A
2024-03-06
1.2K0
点击加载更多
词条知识树 45个知识点
更多
  • 服务与计费相关(5个知识点)
  • 功能相关(22个知识点)
  • API 与 SDK 相关(4个知识点)
  • 其他相关(6个知识点)
  • 识别效果问题排查(1个知识点)
  • 产品介绍(7个知识点)
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券