- 应用:语音识别是为了让计算机理解自然语言。
- 中文语音识别的关键点:1.句到词的分解,词到音节的分解;2.语音的模糊性,如多音字问题;3.词在不同语境中不同;4.环境噪声的印象。
- 处理的核心步骤:
- - 1. 音频处理:消除噪声,让信号更能反映语音的本质特征。
- - 2. 声学特征提取:MFCC、Mel等
- - 3. 建立声学模型和语言模型:语音识别由这两种模型组成。
- 1. 隐马尔科夫链(HMM) 技术成熟、稳定为目前主流的语音识别方法。
1.1 核心的框架HTK包
- 2. 人工神经网络,也就是DNN方法。
- - 2.1 主流的语音识别解码器为(WFST):该解码器把语言模型和声学模型集成为一个大的网络,大大的提高了解码速度。
- - 2.2 主流的DNN方法有:
2.2.1 ASRT:中文模型
2.2.1.1 核心算法:卷积网络、CTC声学模型,熵最大的隐马尔科夫语言模型
2.2.1.2 准确率:80%
2.2.2 训练平台:keras+tensorflow
- - 2.3 DeepSpeechRecognition 模型
- - 2.4 Kaldi方法类
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有