前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浅谈MFCC

浅谈MFCC

作者头像
全栈程序员站长
发布于 2022-07-21 07:39:33
发布于 2022-07-21 07:39:33
1.9K0
举报

大家好,又见面了,我是你们的朋友全栈君。

MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主要用于语音数据特征提取和降低运算维度。例如:对于一帧有512维(采样点)数据,经过MFCC后可以提取出最重要的40维(一般而言)数据同时也达到了将维的目的。

MFCC一般会经过这么几个步骤:预加重,分帧,加窗,快速傅里叶变换(FFT),梅尔滤波器组,离散余弦变换(DCT).其中最重要的就是FFT和梅尔滤波器组,这两个进行了主要的将维操作。

1.预加重

将经采样后的数字语音信号s(n)通过一个高通滤波器(high pass filter):

其中a一般取0.95左右。

经过预加重后的信号为:

预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。

2.分帧

为了方便对语音分析,可以将语音分成一个个小段,称之为:帧。先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。

3.加窗

语音在长范围内是不停变动的,没有固定的特性无法做处理,所以将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等,根据窗函数的频域特性,常采用汉明窗。

将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n), n=0,1…,N-1, N为帧的大小,那么乘上汉明窗后

,W(n)形式如下:

不同的a值会产生不同的汉明窗,一般情况下a取0.46.

4.快速傅里叶变换

由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:

式中x(n)为输入的语音信号,N表示傅里叶变换的点数。

这里需要先介绍下Nyquist频率,奈奎斯特频率(Nyquist频率)是离散信号系统采样频率的一半,因哈里·奈奎斯特(Harry Nyquist)或奈奎斯特-香农采样定理得名。采样定理指出,只要离散系统的奈奎斯特频率高于被采样信号的最高频率或带宽,就可以避免混叠现象。在语音系统中我通常采样率取16khz,而人发生的频率在300hz~3400hz之间,按照Nyquist频率的定义就有Nyquist频率等于8khz高于人发生的最高频率,满足Nyquist频率的限制条件。FFT就是根据Nyquist频率截取采样率的一半来计算,具体来说就是,假设一帧有512个采样点,傅里叶变换的点数也是512,经过FFT计算后输出的点数是257(N/2+1),其含义表示的是从0(Hz)到采样率/2(Hz)的N/2+1点频率的成分。也就是说在经过FFT计算时不仅把信号从时域转到了频域并且去除了高于被采样信号的最高频率的点的影响,同时也降低了维度。

5.梅尔滤波器组

由于人耳对不同频率的敏感程度不同,且成非线性关系,因此我们将频谱按人耳敏感程度分为多个Mel滤波器组,在Mel刻度范围内,各个滤波器的中心频率是相等间隔的线性分布,但在频率范围不是相等间隔的,这个是由于频率与Mel频率转换的公式形成的,公式如下:

式中的log是以log10为底,也就是lg。

将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,…,M。M通常取22-26。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图所示:

式中的k指经过FFT计算后的点的下标,也就是前面例子中的0~257,f(m)也对应点的下标,具体求法如下:

1.确定语音信号最低(一般是0hz)最高(一般是采样率的二分之一)频率以及Mel滤波器个数

2.计算对应最低最高频率的mel频率

3.计算相邻两个mel滤波器中心频率的距离:(最高mel频率-最低mel频率)/(滤波器个数+1)

4.将各个中心Mel频率转成频率

5.计算频率对应FFT中点的下标

例如:假设采样率为16khz,最低频率为0hz,滤波器个数为26,帧大小为512,则傅里叶变换点数也为512,那么带入Mel频率与实际频率的转换公式中得到最低Mel频率为0,最高Mel频率为2840.02.中心频率距离为:(2840.02-0)/(26+1)=105.19,这样我们就可以得到Mel滤波器组的中心频率:[0,105.19,210.38,…,2840.02],然后再将这组中心频率转成实际频率组(按公式操作即可,这里不列出来了),最后计算实际频率组对应FFT点的下标,计算公式为:实际频率组中的每个频率/采样率*(傅里叶变换点数 + 1)。这样就得到FFT点下标组:[0,2,4,7,10,13,16,…,256],也就是f(0),f(1),…,f(27)。

有了这些,我们在计算每个滤波器的输出,计算公式如下:

式中的M指滤波器的个数,N指FFT中的点数(上述的例子中是257)。经过上面的计算后每帧数据我们得到一个与滤波器个数相等的维数,降低了维数(本例中是26维)。

6.离散余弦变换

离散余弦变换经常用于信号处理和图像处理,用来对信号和图像进行有损数据压缩,这是由于离散余弦变换具有很强的”能量集中”特性:大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分,实际就是对每帧数据在进行一次将维。其公式如下:

将上述每个滤波器的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,通常取12-16。这里M是三角滤波器个数。

7.动态差分参数的提取

标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。差分参数的计算可以采用下面的公式:

式中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,Q表示倒谱系数的阶数,K表示一阶导数的时间差,可取1或2。将上式的结果再代入就可以得到二阶差分的参数。

因此,MFCC的全部组成其实是由: N维MFCC参数(N/3 MFCC系数+ N/3 一阶差分参数+ N/3 二阶差分参数)+帧能量(此项可根据需求替换)。

这里的帧能量是指一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信号的平方和,再取以10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。另外,解释下最开始说的40维是怎么回事,假设离散余弦变换的阶数取13,那么经过一阶二阶差分后就是39维了再加上帧能量总共就是40维,当然这个可以根据实际需要动态调整。

注:水平有限,如有错误,还请指正!

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/124744.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年4月4,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
CMOS图像传感器基础知识和参数理解「建议收藏」
CMOS图像传感器的工作原理:每一个 CMOS 像素都包括感光二极管(Photodiode)、浮动式扩散层(Floating diffusion layer)、传输电极门 (Transfer gate)、起放大作用的MOSFET、起像素选择开关作用的M0SFET.在 CMOS 的曝光阶段,感光二极管完成光电转换,产生信号电荷,曝光结束后,传输电极门打开,信号电荷被传送到浮动式扩散层,由起放大作用的MOSFET电极门来拾取,电荷信号转换为电压信号。所以这样的 CMOS 也就完成了光电转换、电荷电压转换、模拟数字转换的三大作用,通过它我们就能把光信号转化为电信号,最终得到数字信号被计算机读取,这样,我们就已经拥有了记录光线明暗的能力,但这还不够,因为我们需要色彩。现代彩色CMOS 的原理也很简单,直接在黑白图像传感器的基础上增加色彩滤波阵列(CFA),从而实现从黑白到彩色的成像。很著名的一种设计就是Bayer CFA(拜耳色彩滤波阵列)。一个很有趣的事就是,我们用来记录光影的 CMOS, 和我们用来输出光影的显示器,原理也刚好是向相反的,CMOS 把光转化为电信号最后以数字格式记录,显示器把解码的数字格式从电信号重新转化为光。光电之间的转换也就构成了我们人类数字影像的基础。
全栈程序员站长
2022/08/30
4.3K0
CMOS图像传感器基础知识和参数理解「建议收藏」
华为转机?新增索尼、豪威科技2家关键芯片供应商获批
据外媒报道,近日摄像头传感器供应商索尼和豪威科技已获得美国许可,可继续向华为供应图像传感器。不仅如此,报道中还提到,还有多家芯片厂商正在申请向华为供货,比如高通、联发科、SK海力士等。
镁客网
2020/11/06
4540
华为转机?新增索尼、豪威科技2家关键芯片供应商获批
13年来首度下滑!今年全球CIS出货量将减少8亿颗,2023年仍难恢复至2021年水平
9月17日消息,近日半导体研究机构 IC Insights 发布报告称,由于智能手机销量下滑、手机摄像头增长缓慢以及全球经济疲软,预计CMOS图像传感器(CIS)的销售额将出现13年来的首次下滑。
芯智讯
2022/09/27
4180
13年来首度下滑!今年全球CIS出货量将减少8亿颗,2023年仍难恢复至2021年水平
报告指出索尼“拿下”半数CMOS图像传感器市场,未来销售额将会持续增长
得益于辅助驾驶、人脸识别等相关技术领域市场的快速发展和带动,CMOS图像传感器市场规模在不断扩大,但市场格局依然没有显著变化。
镁客网
2019/08/06
4900
堆栈式 CMOS、背照式 CMOS 和传统 CMOS 传感器的区别
光电效应的现象是赫兹(频率的单位就是以他命名的)发现的,但是是爱因斯坦正确解释的。简单说,光或某一些电磁波,照射在某些光敏物质会产生电子,这就是光电效应。
AomanHao
2022/01/14
6.1K0
堆栈式 CMOS、背照式 CMOS 和传统 CMOS 传感器的区别
2022年全球CIS厂商排名:豪威第三,格科微跌出前五!
7月23日消息,近日市场研究机构Yelo Group发布的一份最新报告显示,2022年,全球CMOS图像传感器(CIS)市场达到了213亿美元,恢复了5.1%的同比稳定增长。相比之下,2022年普遍通货膨胀导致了全球智能手机等消费品销售大幅放缓(-10%)。
芯智讯
2023/08/09
1.2K0
2022年全球CIS厂商排名:豪威第三,格科微跌出前五!
相机图像传感器参数及其对成像的影响分析
导读:手机相机系统由镜头、传感器、光圈和ISP(图像信号处理器,一般集成在SoC中)等部件构成,结合软件算法,这几点的优劣基本决定一部手机的拍照性能。在硬件方面,由于体积和成本限制,手机的镜头和光圈并玩不出什么花样,所以传感器的重要性就更加突出。
小白学视觉
2022/09/28
1.5K0
两家中企进入全球CIS市场前五,合力拿下​13.7%份额!
1月17日消息,据韩国媒体The elec援引研究机构Omdia的数据报道,在2022年三季度,索尼继续主导全球 CMOS 图像传感器 (CIS) 市场。
芯智讯
2023/02/09
1870
三星CIS涨价30%,国产CIS厂商机会来了!
11月30日消息,据台媒《经济日报》报道称,业界传出消息称,CMOS图像传感器(CIS)大厂三星已于29日已通知客户,其CIS芯片将于明年第一季度涨价,主要涉及3200万像素以上的规格,平均涨幅高达25%,部分产品涨幅最高可达30%,有望带动CIS市场全面迎来涨价潮。
芯智讯
2023/12/04
2560
三星CIS涨价30%,国产CIS厂商机会来了!
2023年全球汽车CIS市场:安森美第一,豪威第二!舜宇主导了车用镜头市场!
近年来,中国新能源汽车产业发展迅猛,已经成为全球汽车产业电动化、智能化转型重要领导力量。
芯智讯
2024/06/07
2100
2023年全球汽车CIS市场:安森美第一,豪威第二!舜宇主导了车用镜头市场!
人工智能|千万不要小瞧一片小小的人工智能视觉芯片
一片小小的人工智能视觉芯片能做什么?无人驾驶汽车主动识别并避让行人、摄像头实时甄别在逃犯……这些影视作品中的情节,或许不久将可通过基于嵌入式人工智能视觉芯片的“解决方案”成为现实。
陆勤_数据人网
2019/12/30
1.1K0
同获海康、讯飞、全志等投资,产业大佬们看上它什么?
在轰轰烈烈的国产替代浪潮中,除了备受关注的后端处理器芯片,作为数据的直接来源,前端传感器芯片也将成为未来的重头戏。
AI掘金志
2021/07/14
4370
宛如白昼,谷歌发布最强夜景拍照AI算法,单摄秒杀一众苹果华为三星
是的,这张照片拍摄于夜晚,用普通模式拍照只能拍出勉强看到的酒杯和水果,在谷歌的夜视模式下,就能像白天一样,所有物品细节一清二楚。
量子位
2018/12/13
1.6K0
宛如白昼,谷歌发布最强夜景拍照AI算法,单摄秒杀一众苹果华为三星
智能手机迎来三国时代,2016年下半年旗舰机展望
近日,国际数据公司(IDC)公布了《全球手机季度跟踪报告》,从数据看,2016年第一季度智能手机出货量前五强悄然发生改变。其中三星、苹果依旧占据前两位,华为、OPPO、vivo分别位列其后,尤其是OP
镁客网
2018/05/28
4720
三星和魅蓝同一天发新机,却讲了两个截然不同的故事
8月23日晚,三星年度双旗舰GalaxyNote 8发布,成为安卓圈的大事件,市场给予Note 8高度关注,以至于当天白天发布的魅蓝Note 6,竟显得有些落寞。尽管都含有Note这个词,但三星Gal
罗超频道
2018/04/16
7430
三星和魅蓝同一天发新机,却讲了两个截然不同的故事
魅族跟进,3D深度探测器为何如此受青睐?
(VRPinea 5月18日讯)5月8日,魅族召开了新品发布会,预热许久的魅族17系列终于正式亮相。除了让人惊艳的晓芳窑“天青”配色,搭载骁龙865处理器,Pro版本相比标准版还有一个很大的亮点,那就是它搭载了一颗三星的S5K3 3D深度探测器。
VRPinea
2020/05/26
5930
CIS涨价30%!镜头涨价30%!摄像头模组也将跟涨?
12月12日消息,据《经济日报》报道,近日市场传出消息称,全球手机镜头大厂大立光在四季已经对中国大陆市场的高阶镜头调涨价格。同时,中国大陆镜头大厂舜宇也于近期宣布,将于明年一季度对新品进行涨价。预计部分5P(五片塑料镜片)镜头涨20%至30%。
芯智讯
2023/12/13
2950
CIS涨价30%!镜头涨价30%!摄像头模组也将跟涨?
【业界】新的图像传感器给汽车装上眼睛
【导读】自动驾驶在技术上的进步很大程度上依赖各种传感设备,而各种图像传感器更是汽车能够看清周围世界的眼睛,这一领域也逐渐成为各大芯片公司竞争的焦点,我们来一览这篇文章。 安森美收购仙童半导体公司为该公司在汽车领域打开了市场。但是直到2014年收购镁光图像公司才让该公司成为汽车视觉系统的领头羊:安森美目前占据了将近70%的高级驾驶辅助系统(ADAS)前摄像头市场,以及超过50%的汽车图像传感器市场[1]。 镁光CMOS图像传感器技术是安森美公司最近推出的Hayabusa图像传感器平台的关键,它同时使用120
WZEARW
2018/04/10
1.1K0
【业界】新的图像传感器给汽车装上眼睛
豪威集团发布用于AR/VR/MR和Metaverse的超小尺寸全局快门图像传感器
8月26日消息,近日,豪威集团发布了业界首款也是唯一一款三层堆叠式BSI全局快门(GS)图像传感器OG0TB。这款超小尺寸图像传感器用于AR/VR/MR和Metaverse消费设备中的眼球和面部跟踪,封装尺寸仅为1.64毫米x1.64毫米,采用2.2微米像素尺寸和1/14.46英寸光学格式(OF)。这款CMOS图像传感器具有400x400分辨率和超低功耗,是眼罩、眼镜等电池供电的小尺寸轻型可穿戴设备的理想选择。
芯智讯
2022/08/31
3450
豪威集团发布用于AR/VR/MR和Metaverse的超小尺寸全局快门图像传感器
3D视觉传感技术:时间飞行法 (ToF) 技术分析
3D视觉传感技术是一项重要的科学突破。它是一种深度传感技术,增强了摄像机进行面部和目标识别的能力。相对于2D技术,3D技术除了显示对象的X和Y值之外,还可以提供记录场景或对象的深度值,在感知和处理日常活动的方式上带来了独特的进步,制造商争先恐后地将这些新的进步融入到手机等消费产品中。该技术利用光学技术模拟人类视觉系统,促进了增强现实、人工智能和物联网的出现和应用。
3D视觉工坊
2021/07/27
4.5K1
推荐阅读
CMOS图像传感器基础知识和参数理解「建议收藏」
4.3K0
华为转机?新增索尼、豪威科技2家关键芯片供应商获批
4540
13年来首度下滑!今年全球CIS出货量将减少8亿颗,2023年仍难恢复至2021年水平
4180
报告指出索尼“拿下”半数CMOS图像传感器市场,未来销售额将会持续增长
4900
堆栈式 CMOS、背照式 CMOS 和传统 CMOS 传感器的区别
6.1K0
2022年全球CIS厂商排名:豪威第三,格科微跌出前五!
1.2K0
相机图像传感器参数及其对成像的影响分析
1.5K0
两家中企进入全球CIS市场前五,合力拿下​13.7%份额!
1870
三星CIS涨价30%,国产CIS厂商机会来了!
2560
2023年全球汽车CIS市场:安森美第一,豪威第二!舜宇主导了车用镜头市场!
2100
人工智能|千万不要小瞧一片小小的人工智能视觉芯片
1.1K0
同获海康、讯飞、全志等投资,产业大佬们看上它什么?
4370
宛如白昼,谷歌发布最强夜景拍照AI算法,单摄秒杀一众苹果华为三星
1.6K0
智能手机迎来三国时代,2016年下半年旗舰机展望
4720
三星和魅蓝同一天发新机,却讲了两个截然不同的故事
7430
魅族跟进,3D深度探测器为何如此受青睐?
5930
CIS涨价30%!镜头涨价30%!摄像头模组也将跟涨?
2950
【业界】新的图像传感器给汽车装上眼睛
1.1K0
豪威集团发布用于AR/VR/MR和Metaverse的超小尺寸全局快门图像传感器
3450
3D视觉传感技术:时间飞行法 (ToF) 技术分析
4.5K1
相关推荐
CMOS图像传感器基础知识和参数理解「建议收藏」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档