我们在做语音数据标注的时候,经常碰见一些无效或者很难分辨的声音需要我们去判断判别,那我们应该如何标记才能达到更高的准确率呢?常见的语音数据标注的异常,你一定要了解!
在语音数据标注的过程中,需对这些异常数据加以鉴别并挑选出来,保证标注数据的整洁性。常见的语音异常现象包括以下几种:
(1)丢帧:在语音录制过程中,由于音频设备的问题而表现出的发音卡顿,比如语音段中某0.1秒内突然没有声音,0.1秒过后语音又恢复正常,此现象称为“丢帧”;
(2)切音:在语音录制过程中,由于过早结束或过晚开始录制导致个别字被截断而表现出的发音不完整,此现象称为“切音”,切音示意图如下;
(3)吞音:在说话人发音时,由于个别字的声母或韵母未完全发音而表现出的发音不完整,此现象称为“吞音”;
(4)喷麦:在说话人发音时,由于距离麦克风太近而表现出的录入语音不清晰,听起来有明显噗噗的声音,此现象称为“喷麦”;
(5)重音:在说话人发音时,语音中出现两个或多个说话人,他们的音量大小相近且有大段重叠,无法分清主次,此现象称为“重音”;
(6)空旷音:在录制过程中,由于周围环境较为空旷而表现出来的发音中带有回音,此现象称为“空旷音”;
(7)混响:混响是另一种常见的声学场景。与回声不同,混响是语音经多次反射、折射后叠加而成的声音。
通常情况下,上述情况下的异常语音数据会被认定为无效语音。
领取专属 10元无门槛券
私享最新 技术干货