为了将语音转换为文本,我使用cmusphinx开放源码API将.wav音频格式转换为文本,并使用语言模型对特定的输入语音语言进行处理。
发布于 2017-01-30 11:39:41
袖珍狮身人面像的精度完全基于所使用的模型。为了取得更好的效果,试着根据目标用户来训练你的声学模型。如果您不想训练自己的模型,请尝试更改feat.params
的各种参数,如-cmninit
。
此外,尽量将recognizer.setKeywordThreshold()
设置为最小值,我更喜欢recognizer.setKeywordThreshold(1e-40f)
https://stackoverflow.com/questions/41855684
复制相似问题