简单tag语音标注规范、常规性问题及标签分类及用法
文本标注
文本层需要标注的是其语音所对应的文字,数据切分为语义表达完整、说话人单一的句子(文本重点验收部分)
截取问题
断句散的问题:同一个说话人最长截取可以到15s且保证截取段内没有大于0.5s的空白(静音停顿可小于0.5s。其他标签声音可小于0.3s。)。
预留问题:前后保证不切音的情况下无预留。
正确的截取方式:
错误的截取方式:
信息层的标注
区分说话人性别和编号。
不用按照出场顺序标注说话人编号,不同说话人使用不同的编号即可。
数字的标注:
如果是汉语交谈,则只能用简体中文。对于语音中的数字部分需根据发音情况转换为对应的汉字,例如“27”“二十七”;“我的电话是2381832”“我的电话是二三八幺(与发音相同)八三二”。
标签的使用
标注格式:标签在前“标签+内容”/“标签”,具体参考如下:
时长超过0.3的标签都需要单独截取标注,不足0.3s的噪音/纯静音/相对静音,都空着不截取不标注。
标签分类及用法
注意点:
1、保证不切音的情况无预留
2、有大于0.3s明显声音的地方都应该截取标注
3、为保证句意完整,在时长要求范围内,句中静音停顿可小于0.5s。其他声音可小于0.3s。
4、无法确定噪音是背景人声或者人声噪音时,统一标注非人声噪音符号noise
5、整句无可标注文本时可直接无效丢弃(整句方言、听不懂内容、音乐、tts等)
6、当两截取段文本中间噪音时长小于0.3s,可以前后分摊,不允许有非静音部分未截取
领取专属 10元无门槛券
私享最新 技术干货