可以用样本数据训练Google Speech API来帮助我的应用程序进行识别吗?
我的意思是一种方法,类似于wit.ai提供的方法和描述的here (即使这个例子适用于nlp处理)。基本上,如果你能预测你的用户将与你的机器人进行的交互,你就可以训练它来更好地执行。例如,我知道将使用的城市子集,例如:当我说Zurich
时,我似乎无法让机器人理解我,它变成了Syria
或Siberia
,但我已经知道这是不可能的。因此,假设我可以上传一个首选单词列表,然后如果找不到匹配的单词,则可以退回到标准识别或某种类似的方法,我认为它会获得更好的结果。
你知道这是不是可能的以及如何实现的?我知道这些API处于测试阶段,可能会有变化,但我仍然想试一试。
我可以上传一些我目前正在做的代码样本,尽管它只是发送音频和分析结果,所以不是真正接近这个问题。
发布于 2016-10-28 11:34:27
在recognition config中,您可以指定替代项来返回maxAlternatives字段(最多30个)。一旦你有了30个自信的选择,你就会有自信的Syria
0.5
,自信的Siberia
0.01
和自信的Zurich
0.1
。通常情况下,正确的答案是存在的,尽管它可能不在顶部。您可以根据您当前的状态选择最佳备选方案。
发布于 2018-05-20 02:54:36
当前的Google Cloud Speech- to -Text API允许用户指定为语音识别任务提供提示的单词和短语列表。
来自https://cloud.google.com/speech-to-text/docs/basics (mirror):
speechContext
-(可选)包含用于处理此音频的其他上下文信息。上下文包含以下子字段:短语-包含为语音识别任务提供提示的单词和短语的列表。
有关详细信息,请参阅:https://cloud.google.com/speech-to-text/docs/basics#phrase-hints (mirror)。
https://stackoverflow.com/questions/40299921
复制相似问题