上一节学习了把声波转换成电信号,然后离散换成数字信息,今天学习怎样用计算机识别音乐风格。
音乐风格有爵士,摇滚,嘻哈,古典等十多种,计算机是怎样通过声音的数字信息加以区别的呢?
计算机识别声音分为以下几个步骤:1,输入声音的数字信息,2,通过特征提取器提取特征,3,声音的特征信息通过分类器进行分类,4,对声音的风格给出结论。
比如一段30秒4万4千赫兹的声音,一秒有4万4千个数据,对应的向量是44000个维数,30秒就是大约130万维,使用分类器直接对其分类,计算机负担太重,工作效率太低,所以需要对这个数据信息进一步处理,提取更有效的特征信息,这种办法就是——梅尔频率倒谱系数。
梅尔频率(Mel-frequency):是一种特殊的频率刻度,它与普通频率存在一种如下的函数关系:
这样把普通频率转换成梅尔频率,其图像如下:
由于函数转换的关系,表现在梅尔频率中的等长的频率区间,在普通频率下是不等长的频率区间,但这种低频分辨率高,高频分辨率低正好符合人类对声音的敏感度。
把梅尔频率分成26个区间,取均值,得到一个26维的特征向量。
倒谱:把这个26维特征向量再做数学变换后得到一个13维的特征。
梅尔频率是对普通频率的一种粗略刻画,这种刻画很好的保存了声音的一个重要特征——共振峰。
共振峰:是指声音频谱上能量相对集中的一些区域。如下图:
我们已经提取了声音的特征数据了,下一步要设计一个分类器,区别它们。
这个分类器就像我们在做图像识别一样,通过向量的积运算,使之边界清晰,这个运算就是以前学习过的卷积运算,化成卷积层和池化层。
通过对卷积层和池化层的特征分析,从而判断音乐风格。
领取专属 10元无门槛券
私享最新 技术干货