声音的本质是震动,震动的本质是位移关于时间的函数,波形文件(.wav)中记录了不同采样时刻的位移。
通过傅里叶变换,可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。
语音识别
梅尔频率倒谱系数(MFCC)通过与声音内容密切相关的13个特殊频率所对应的能量分布,可以使用梅尔频率倒谱系数矩阵作为语音识别的特征。基于隐马尔科夫模型进行模式识别,找到测试样本最匹配的声音模型,从而识别语音内容。
MFCC
梅尔频率倒谱系数相关API:
案例:画出MFCC矩阵:
隐马尔科夫模型
隐马尔科夫模型相关API:
案例:训练 training文件夹 下的音频,对testing文件夹下的音频文件做分类
1、读取training文件夹中的训练音频样本,每个音频对应一个mfcc矩阵,每个mfcc都有一个类别(apple)。
2、把所有类别为apple的mfcc合并在一起,形成训练集。
| mfcc | |
| mfcc | apple |
| mfcc | |
.....
由上述训练集样本可以训练一个用于匹配apple的HMM。
3、训练7个HMM分别对应每个水果类别。 保存在列表中。
4、读取testing文件夹中的测试样本,整理测试样本
| mfcc | apple |
| mfcc | lime |
5、针对每一个测试样本:
1、分别使用7个HMM模型,对测试样本计算score得分。
2、取7个模型中得分最高的模型所属类别作为预测类别。
声音合成
根据需求获取某个声音的模型频域数据,根据业务需要可以修改模型数据,逆向生成时域数据,完成声音的合成。
案例:
领取专属 10元无门槛券
私享最新 技术干货