评测返回 SuggestedScore 过低?
1. 音频文件格式需要符合要求,音频文件格式要求请参见 音频上传格式。
2. 请求参数 VoiceType 是否和传入的音频文件格式一致。
3. 选择合适的评测模式。请参考 评测模式介绍。
4. 查看返回的 MatchTag 是否为4,需要使用音素结构进行评测。
5. 如果采用英式发音,需要使用音素结构进行评测。
用户发音能否返回给用户回放参考?
在不同模式的音频文件支持的文件大小和时长是多少?
单词、句子和段落模式的音频文件均使用 API3.0 鉴权,支持的文件大小均可达到64MB,其中单词、句子模式最大时长可达到60秒、段落模式最大时长可达到300秒。
可以对高自由度的口语发音进行评测吗?
您可以调用自由说,无需上传文本,即可对用户的发音进行评估并返回用户发音的文本。另外自由模式下无完整度的概念,所以会显示-1。
如何设置分片大小?
目前移动端的 SDK 里面可以直接修改参数 fragSize 来修改分片大小。其它的需要将音频文件使用分片的形式来进行分割,来达到分片处理的目的。具体参考 发音数据传输接口附带初始化过程(常用实践) 参数 SeqId 和 IsEnd 的描述。
分片大小设置为多大比较合适?
如果是使用流式分片进行边录边传,分片最佳的大小与音频的格式有关,通常来说分片为500ms音频的大小为最佳,未压缩的格式大小约16K。例如一个文件大小为43.1kb,音频时长11.05s。那么分片大小为0.5x43.1÷11.05=1.95k。如果是使用流式分片进行本地音频评测,分片大小会与音频的数据量有关。推荐100k以上。如果不会出现评测超时可以增加。反则反之。
重音检测的准确度是否包含在准确度中?
不包含,重音准确度是独立的,且只存在于单词模式中。
matchtag:3表示读错单词,为什么返回-1,而不是0或者低分?
-1表示这个参数无意义,0或者低分表示读的不好,而不是读错。
返回结果里面 word 为 * 号?
一般返回的 match_tag 为1的时候,表示多读了识别不了的成 * 号。指文本中没有但是音频中含有。
返回结果里面智聆音素如何转换为国际音标?
返回结果里面的智聆音素不是用来转换成国际音标的,而是用来做对应关系的。