如何从google speech api获得每个话语的结果，并将每个音频话语块分别保存为wav文件？

文章/答案/技术大牛

发布

2回答

python、python-3.x、google-cloud-platform、google-speech-api、google-speech-to-text-api

我使用下面的python脚本从google speech API获取来自实时流音频输入的预测。问题是，我需要来自google speech API的每个话语的预测，然后还将每个话语的音频保存到磁盘。我不确定，我如何修改脚本来保存每个话语<

浏览 37提问于2020-07-26得票数 6

2回答

当调用缓慢的Python脚本时，如何避免网页接收网关超时？

python、web-services

然后，这个脚本将上传的音频文件从我的web服务器上传到本田的API中，该API将检测语音并为每个语音生成一个音频文件，以及一个包含每个话语的元数据的json对象。似乎可以从Hondas：中分别获取语音文件和每个语句的json。我的<

浏览 4提问于2016-06-22得票数 0

回答已采纳

3回答

Google语音API:如何获得超过1分钟的音频全文转录？

speech-recognition、speech-to-text、google-speech-api

我使用Google (longrunningrecognize)成功地获得了5分钟长音频的文本和替代品，但我没有得到这5分钟的全文，只是一个小文本，如下所示： "name": "2340863807845687922", "@type": "type.googleapis.com/google.cloud.speech.v1

浏览 0提问于2018-09-20得票数 3

回答已采纳

1回答

如何在Mespeak.js显示文字播放时延迟合成

javascript、text-to-speech、wav、speech-synthesis

我一直在浏览Mespeak.js ( )，试图弄清楚如何在说话时抓取每个单词，然后在播放wav文件时将其显示在屏幕上。这是我的资料 <span>Here.无论我将timeoutID设置为什么，文本都会一次变小，并且显示的唯一单词是最后一

浏览 18提问于2014-11-07得票数 1

1回答

如何在帧上分割语音数据并计算MFCC

speech-recognition、speech-to-text、speech、cmusphinx

我理解创建一个自动语音识别引擎的基本步骤。然而，我需要一个清晰的概念，分割是如何做的，什么是帧和样本。我会写下我所知道的，并期待答案--呃，在我错的地方纠正我，并进一步指导我。据我所知，语音识别的基本步骤是：找到话语开始和调整剪辑大小<e

浏览 2提问于2016-01-08得票数 7

回答已采纳

2回答

为什么Google* Speech Recognition API只返回音频的前2-3秒转换文本*

python、google-cloud-platform、google-speech-api

我在Google Cloud控制台中创建了一个项目，并在此项目中启用了Google Speech API，并创建了凭据。也使用了谷歌推荐的transcribe.py，我可以使用由谷歌控制台生成的API密钥成功地将音频文件(30秒)转换为文本，但不完全，只有2-3秒。来自谷歌的回复是这样的：{"results"：[{"alternatives"：{&qu

浏览 1提问于2016-10-21得票数 3

1回答

将WAV文件字节转换为语音识别兼容格式

python、audio、speech-recognition、wav、pydub

三天来，我一直在.WAV自动化管道上碰壁，该管道采用二进制字节数组的电子邮件附件(例如b‘’RIFFm\xC1\x00\x00WAVEfmt.‘)一个电话系统自动推送，通过一些文本到语音API，如speech_recognition理想情况下，所有这些都可以在内存中处理，而不需要在磁盘上创建文件，因为这似乎是多余的，但是我正在试图找出毕特森从我必须发送的音频数据到我可以发送的文字记录的任何移动，我不

浏览 5提问于2020-04-23得票数 4

回答已采纳

1回答

Google Text-to-speech -从txt文件的各行加载文本

javascript、node.js、json、text-to-speech、google-text-to-speech

我正在使用Node.js中的谷歌TextToSpeech应用程序接口从文本生成语音。我能够获得一个与为演讲生成的文本同名的输出文件。但是，我需要对此进行一些调整。我希望我可以同时生成多个文件。我想将它们分别生成到一个单独的文件中: cat.wav、dog.wav等。我还希望应用程序能够从* .txt文件中读取这些单词(每个单词

浏览 40提问于2021-04-25得票数 0

回答已采纳

3回答

如何立即将Twilio语音调用直接流到Google语音API

python、twilio、twilio-api

我使用Twilio的python进行呼叫处理和响应。当一个Twilio调用被放置时，我想要一个功能，在调用本身为时，调用者的语音被直接流到Google，用于文本转换。然后，我需要处理转录文本，以提供适当的反应，立即用户。我知道twilio中的 record 功能，它帮助我们记录来电者的声音并将其保存为录音。一种方法是在录音文件可用后访问它，然后将记录的文件传递给Google。但是

浏览 1提问于2018-04-12得票数 0

回答已采纳

1回答

google speech to text的Live transciption

node.js、stream、blob、google-speech-api、socket.io-stream

我想用nodejs和google speech to text api制作一个实时转录应用程序。我使用RecordRTC和socket.io将音频块发送到后端服务器。目前，我正在录制1个很长的块，transciption可以工作，但它不会将其视为流，它会在处理每个块后发送响应。这意味着我得到的是半句话，而谷歌无法使用上下文来帮助自己识别演讲。我的问题是，如何让google

浏览 8提问于2021-05-13得票数 0

1回答

将python生成的音频数据发送给Google* Cloud语音到文本以进行异步识别*

python、google-cloud-speech、python-sounddevice

我正在编写一个脚本，将数据从麦克风发送到Google语音到文本API。我需要访问gRPC API来产生在录制过程中的实时读数。一旦记录完成，我需要访问REST以获得更精确的异步识别。下面的流将cffi_backend_buffer对象记录到一个队列中，一个单独的线程收集这些对象，将它们转换为字节，并将它们提供给API。但是，仅像我在实时识别中那样发送字节字符串似乎不起作用： from google.

浏览 32提问于2021-12-31得票数 1

回答已采纳

2回答

Java记录/混合两个音频流

java、audio、record、audio-streaming

我有一个java应用程序，它可以记录来自混频器的音频，并将其存储在字节数组中，或者保存到文件中。我需要的是从两个混频器同时获得音频，并将其保存到一个音频文件(我正在尝试使用.wav)。问题是，我可以获得两个字节数组，但不知道如何合并它们(所谓“合并”，我不是指级联)。具体来说，它是一个通过USB调制解调器处理会话的应用程序，我需

浏览 1提问于2013-08-26得票数 4

回答已采纳

2回答

将DSP解码为TrueSpeech时发出蜂鸣音

decode、naudio、decoding、beep

我正在尝试解码从DSP TrueSpeech到PCM的字节数组。当我们将此数组转换为流的一部分(将其划分为数据包)时，我们可以在解码后听到一些奇怪的“嘟嘟声”。我们试图解码整个WAV文件，但我们没有收到这些蜂鸣声。目前我们正在使用Alvas.net，但我们也尝试了NAudio，并得到了相同的结果？我的问题是:1)有人熟悉这种行为吗?

浏览 3提问于2014-06-15得票数 0

1回答

通过每次读取几次不确定的写入来提升Beast WebSockets

c++、boost、websocket、beast

在C++中使用boost/beast websocketsIBM Watson speech- to -text WebSockets API允许您在音频数据块可用时发送它们(或从现有文

浏览 5提问于2018-05-06得票数 2

1回答

如何在Android Studio中集成tflite模型来识别声音(Java语言)

java、python、android、numpy、tensorflow

我需要在android中创建一个项目，从麦克风获得输入，并对它正在录制的内容进行分类。为此，我使用python语言和Google Colab中的keras创建并训练了一个卷积神经网络模型。获取数据集的方法如下:使用UrbanSound8k数据集，读取.wav文件(使用Python中的soundfile库)，并将它们存储在numpy数组中。然后我做了一些处理，并将每个numpy数组(

浏览 29提问于2021-06-20得票数 0

1回答

Google Speech to Text API未定义方法

ruby、api、speech-recognition、speech-to-text、google-cloud-speech

我正在尝试学习如何使用google speech to text API，但在运行代码时遇到未定义的方法错误。代码取自google云客户端库以供使用。我不确定如何修复这个错误。错误：：未定义nil:NilClass (NoMethodError)的替代方法 require "google/cloud&#x

浏览 1提问于2020-10-19得票数 1

1回答

在NodeJS中操作原始PCM数据的缓冲区

node.js、audio

我正在做一个个人项目，涉及从YouTube检索音频，操作音频，并将结果流到浏览器。到目前为止，我已经有了第一步，也是最后一步，但中间的是一个挑战。由于有了youtube-audio-stream软件包，获得音频很容易。我想要操作原始音频示例，所以我遵循了他们的自述文件示例，并将流从lame包中导入解码程序。我搞了几个小溪改造..。一种是将传入的

浏览 0提问于2018-11-14得票数 2

回答已采纳

1回答

Google语音API v2结果为空

c#、google-api、speech-recognition

我从获得了有关如何访问api的信息。我还从v1 api获得了一些用于 api的源代码。，Constants.GoogleRequestString等于https://www.google.com/speech-<em

浏览 0提问于2014-04-24得票数 3

4回答

如何使用python批量/批量转录wav文件？

python、ibm-cloud、speech-recognition、ibm-watson、speech-to-text

我正在尝试使用我的python应用程序来转录文件夹中的多个文件，并加快这一过程。inplace=True) test4.to_csv("Call 8.csv") 我如何才能转录文件夹中的多个文件我可以多次运行此脚本，但我希望将其自动化，以便它从文件夹中拾取wav文件并运行它。假设我的</

浏览 76提问于2021-03-03得票数 6

回答已采纳

2回答

自定义音频输入字节到Python中的azure认知语音翻译服务

python、azure、speech-recognition、translation、microsoft-cognitive

我需要能够翻译自定义音频字节，我可以从任何来源，并将语音翻译成我需要的语言(目前是印地语)。我一直在尝试使用Python中的以下代码来传递自定义音频字节： import azure.cognitiveservices.speech as speechsdk

浏览 44提问于2020-04-19得票数 0

回答已采纳

点击加载更多