口语评测(基础版)

参数问题

最近更新时间:2024-04-11 17:30:21

我的收藏

评测返回 SuggestedScore 过低?

1. 音频文件格式需要符合要求,音频文件格式要求请参见 音频上传格式
2. 请求参数 VoiceType 是否和传入的音频文件格式一致。
3. 选择合适的评测模式。请参考 评测模式介绍
4. 查看返回的 MatchTag 是否为4,需要使用音素结构进行评测。
5. 如果采用英式发音,需要使用音素结构进行评测。

用户发音能否返回给用户回放参考?

移动端 SDK 可以保存录音文件到本地。详情见参数 audiopath 描述。 微信 H5 和小程序插件可以通过微信-js sdk 获取微信临时文件。

在不同模式的音频文件支持的文件大小和时长是多少?

单词、句子和段落模式的音频文件均使用 API3.0 鉴权,支持的文件大小均可达到64MB,其中单词、句子模式最大时长可达到60秒、段落模式最大时长可达到300秒。

可以对高自由度的口语发音进行评测吗?

您可以调用自由说,无需上传文本,即可对用户的发音进行评估并返回用户发音的文本。另外自由模式下无完整度的概念,所以会显示-1。

如何设置分片大小?

目前移动端的 SDK 里面可以直接修改参数 fragSize 来修改分片大小。其它的需要将音频文件使用分片的形式来进行分割,来达到分片处理的目的。具体参考 发音数据传输接口附带初始化过程(常用实践) 参数 SeqId 和 IsEnd 的描述。

分片大小设置为多大比较合适?

如果是使用流式分片进行边录边传,分片最佳的大小与音频的格式有关,通常来说分片为500ms音频的大小为最佳,未压缩的格式大小约16K。例如一个文件大小为43.1kb,音频时长11.05s。那么分片大小为0.5x43.1÷11.05=1.95k。如果是使用流式分片进行本地音频评测,分片大小会与音频的数据量有关。推荐100k以上。如果不会出现评测超时可以增加。反则反之。

重音检测的准确度是否包含在准确度中?

不包含,重音准确度是独立的,且只存在于单词模式中。

matchtag:3表示读错单词,为什么返回-1,而不是0或者低分?

-1表示这个参数无意义,0或者低分表示读的不好,而不是读错。

返回结果里面 word 为 * 号?

一般返回的 match_tag 为1的时候,表示多读了识别不了的成 * 号。指文本中没有但是音频中含有。

返回结果里面智聆音素如何转换为国际音标?

返回结果里面的智聆音素不是用来转换成国际音标的,而是用来做对应关系的。

在中间环节就要得到结果,IsEnd=1 的时候才能返回到全部评测结果?能在中间环节得到测评结果嘛?

只有支持 实时的模式 ,才会在中间环节的 SentenceInfoSet 字段有结果,单词模式是没有的。可以使用单词实时模式。