我正在尝试使用google could APIs转换语音到文本,像这样的gcloud ml speech recognize-long-running当我使用--language-code='en-US,这段代码,我能够转换完美,文本是基于音频的US,口音或UK。当我试图转换印度口音时,这个文本完全错误,我尝试过en-in,但没有用。
我如何转换?:这里我上传(.wav)音频</e
我正在尝试音频文件中的"Bing Speech To Text API“,其中包含呼叫中心应答客户的人与呼叫中心的客户之间的真实对话,以解决客户的疑惑。因此,这些音频有两个人在说话,有时在客户等待支持人员的应答时会有很长的静默期。这些音频有5到10分钟长。我的疑问是:
使用Microsoft Cognitive Services将这样的音频</e
我正在使用Google Speech to Text API转换音频文件。问题是,在谷歌语音到文本,我们必须等待操作完成,即使我们让它异步,因为它的文档说通过使用long_running_recognize()。
有没有办法让它完全异步?因此,当我们上传音频文件时,它会给我们一个operation_id,我们可以使用它在任何时候异步下载转录。