本文内容基于实用目的,不展开介绍各类评价标准,对标准感兴趣可以查阅各类综述。
质量评估指的是通过人为或自动化的方法评价语音的质量。在实践中,通常可以根据评价方式分为主观评价和客观评价两类。
在大多数情况下,人为参与的主观评价可能是评估语音质量或语音清晰度最可靠的方法,相对算法客观评价,主观评价可以更全面细致的反应音频的质量。但是主观评价实验受到以下限制:
1. 需要训练有素的听众
2. 需要消耗更多的时间成本和人力成本
3. 测听者受多种因素影响,容易影响到主观评价结果,如个体受试者的偏好和实验的环境(其他条件)
出于以上原因,研究人员设计了一些客观评价来评估语音质量。理想的客观评价方法应该能准确地预测由正常听力者进行的主观听力测试的结果,应包括语音不同处理层次的信息,包括低级信息(如心理声学)和高级信息(如语义、语言学和语用学)。本文概述了多种客观评价方法,这些方法已被用来评估质量和可理解度的语音处理的降噪算法。
主观语音质量测量可以通过主观听力测试获得,在主观听力测试中,参与者根据意见量表对系统的性能或信号质量进行评价。主观听力测试通常由几个受试者进行,他们将听原始的(如果有的话),通过增强算法退化和增强的语音信号。受试者使用预定义的听力质量量表提供他们对每个信号质量的意见。最后,通过平均分得到的MOS值表明了被测算法的主观质量。为了获得一个真实的MOS,需要大量的受试者。因此,主观质量测量的主要缺点是成本。即使有大量的被试,MOS的方差也可能很高。此外,从测试中获得的主观评分还取决于听力工具的类型和质量(耳机或扬声器)和环境条件。
MOS
最常用和相对简单的主观质量指标是分级判断方法,由于是人类给出测评分数,可以灵活应用与测试声音各方面的特性。采取5个级别对被测语音的质量进行评价,一般MOS在4以上被认为是比较好的音质。待测语音的质量是在所有试听人员的评分上求平均得到的。这种方式被称作平均意见得分(Mean Opinion Score, MOS)。下表给出了语音评价的等级分级。
MOS评分有两个阶段。训练阶段,听者需要听一系列参考信号,保证大家对质量评级的标准尽可能一致;评估阶段,试听人员对所听到的信号,进行主观打分。
客观评价主要是基于音频数据本身的。
一般来说,客观的语音质量指标可以分为
1 基于信噪比(SNR)或峰值信噪比(PSNR)或分段信噪比(SegSNR)的评价方法
2 频谱距离的评价方法
3 基于 线性预测系数(LPCs)的 评价方法
4 基于听觉感知的距离度量方法
语音质量感知评估 (Perceptual Evaluation of Speech Quality, PESQ)是由国际电信联盟(International Telecommunication Union,ITU) 2001年提供的ITU-T P862建议书:语音质量的感知评估(PESQ):窄带电话网络和语音编解码器的端到端语音质量评估的客观方法,并提供了ANSI-C语言实现代码。真实系统可能包括滤波和可变延迟,以及由于信道误差和低比特率编解码器引起的失真。国际电联电信政策861中描述的PSQM方法仅被推荐用于评估语音编解码器,不能适当考虑滤波、可变延迟和短时局部失真。PESQ通过传递函数均衡、时间校准和一种新的时间平均失真算法来解决这些影响。PESQ的验证包括许多实验,这些实验专门测试了它在滤波、可变延迟、编码失真和信道误差等因素组合下的性能。
建议将PESQ用于3.1kHz(窄带, 8000Hz采样率)手机电话和窄带语音编解码器的语音质量评估。PESQ是属于客观评价,和主观分数之间的相关性约为0.935,但PESQ算法不能用来代替主观测试。
PESQ算法没有提供传输质量的综合评估。它只测量单向语音失真和噪声对语音质量的影响。响度损失、延迟、侧音、回声和其他与双向互动相关的损伤(如中央削波器)的影响不会反映在PESQ分数中。因此,有可能有很高的PESQ分数,但整体连接质量很差。
PESQ的感知模型用于计算原始信号X(t)与退化信号Y(t)之间的距离(PESQ分数),退化信号Y(t)是X(t)通过通信系统的结果。PESQ的输出是对受试者在主观听力测试中给予Y(t)的感知质量的预测。取值在-0.5到4.5的范围内,得分越高表示语音质量越好,尽管在大多数情况下输出范围在1.0到4.5之间。
局限性是仅可支持 8K 和 16K。
PESQ算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后, 分别提取两路信号的参数, 综合其时频特性, 得到PESQ分数, 最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5--4.5之间。得分越高表示语音质量越好。
POLQA度量方法授权给了epticom公司,只有该公司授权的机构才能使用,我总结在这就是让大家了解一下,反正我们都用不了,哈哈
ITU P.863建议书提供了一种客观评价方法:感知客观语音质量评估 (Perceptual objective listening quality prediction, POLQA), ITU-T P.863建议书支持两种操作模式,一种用于窄带 (NB, 300Hz-3.4kHz),一种用于全带 (FB, 20Hz-20kHz)。
可以应用到全频带语音编解码器(例如,OPUS,增强语音服务(EVS))。比较参考信号X(t)和退化信号Y(t),其中Y(t)是通过通信系统传递X(t)的结果,人类听觉系统中音频信号的心理物理表征,
ITU-T P.863算法消除了参考信号中的低水平噪声,同时对退化输出信号中的噪声也进行了部分抑制。
一个好的客观质量测量应该与多个不同的主观实验有很高的相关性。在实践中,使用ITU-T P.863算法,回归映射通常几乎是线性的,在日常实践中,不需要对客观分数进行特殊映射,因为ITU-T P.863分数已经映射到MOS尺度,反映了大量单独数据集的平均值。
POLQA结果主要是模型平均意见得分(MOS),涵盖从1(差)到5(优秀)的范围。在全频带模式下得分为MOS-LQO 4.80,在窄带模式下得分为MOS-LQO 4.5。这反映了一个事实,即不是所有的主观测试参与者都会给最高的评级,即使是不降级的参考。
支持 8K、16K、48K 测试,局限性是设备贵
目前常用设备为思博伦的SpirentNomadHD语音性能测试设备,该设备对音质评价即采用的POLQA方法。
NomadHD测试设备包含Nomad硬件,PC端控制软件两部分,Nomad硬件有4路语音测试接口,可以通过耳机接头连接手机,PC端空间软件可以测量得到音频的MOS分。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。