我正在尝试使用google could APIs转换语音到文本,像这样的gcloud ml speech recognize-long-running当我使用--language-code='en-US,这段代码,我能够转换完美,文本是基于音频的US,口音或UK。:这里我上传(.wav)音频文件,并转换为文本。有人能帮上忙吗?
我在googleSpeech- to -text中不断得到这个错误的InvalidArgument: 400,问题似乎是我正在使用一个2声道的音频(立体声),而API正在等待一个wav in (单声道如果我在音频编辑器中转换文件,它可能会工作,但我不能使用音频编辑器来转换一批文件。有没有办法在Python或Google Cloud中更改音频类型。注意:我已经尝试了"wa
我目前使用React作为前端,使用Java Spring Boot作为服务器。我使用React-Mic录制音频,将音频传递给FormData,并将包含该FormData的HTTP post请求发送到我的Java服务器。但是,由于录制的音频是webm格式的,因此没有适用于GoogleSpeech-To-Text API的编码。知道如何将音
我已经设置了googlespeech来测试asterisk。我已经完成了以下操作,以便将语音转换为文本。当电话进来时,我录制消息,使用sox转换为google支持的比特率音频文件,将音频文件发送到google cloud speech并获得响应。有没有什么办法,我们可以发送现场通话音频,而不是录制到谷歌云速度,并获得响应?请参阅我的以下代码。 r
当我在英语音频文件中使用'languageCode' => 'en-US'时,Google对我来说很好。但是当将'languageCode' => 'ja-JP'与日文音频文件一起使用时,它会返回像"Transcription: ã‚‚ã—ã‚‚ã—è² ã‘ホンダã—ã¦ã‚‚ã—ã‚‚ã—来自google的示例代码:
# Includes the aut