我目前使用React作为前端,使用Java Spring Boot作为服务器。我使用React-Mic录制音频,将音频传递给FormData,并将包含该FormData的HTTP post请求发送到我的Java服务器。但是,由于录制的音频是webm格式的,因此没有适用于GoogleSpeech-To-Text API的编码。知道如何将音频转换为flac或GoogleSpeech
我正在尝试使用google could APIs转换语音到文本,像这样的gcloud ml speech recognize-long-running当我使用--language-code='en-US,这段代码,我能够转换完美,文本是基于音频的US,口音或UK。:这里我上传(.wav)音频文件,并转换为文本。有人能帮上忙吗?桑迪普。
我试图使用Python3.x,jupyter notebook和SpeechRecognition库对一些音频文件执行语音识别,但我得到了:
'RequestError: missing google-api-python-clientmodule: ensure that google-api-python-client is set up correctly.'使用recognize_google_cloud时,尽管我已经安装了
Google Chrome提供了语音转文本( speech to text,STT ),因此许多智能手机应用程序都提供了STT。它有很好的认知度。如果我使用GoogleSpeech来给Api发短信,这个问题就很容易解决了。
如果没有关于STT的公共googleapi,请告诉我除了使用start之外的其他方法。
我在谷歌语音识别中遇到了关于长音频文件的问题。所以我决定在15秒内拆分我的音频文件。每次我发送第一个15秒到语音识别,然后第二个15秒,以此类推… 但是现在当我使用pydub lib时,它分割音频文件,分割后的返回值不是文件扩展名,因为API需要一个文件扩展名作为参数(我标记了错误),key
# to use another API key, use `r.recognize_google(audio, key="GOOGLE_<