我正在尝试音频文件中的"BingSpeech To Text API“,其中包含呼叫中心应答客户的人与呼叫中心的客户之间的真实对话,以解决客户的疑惑。因此,这些音频有两个人在说话,有时在客户等待支持人员的应答时会有很长的静默期。这些音频有5到10分钟长。我的疑问是:
使用Microsoft Cognitive Services将这样的音频转换为文本的最
当我尝试使用Azure BingSpeech to Text Api将示例音频从英语转换为其他语言时,我收到错误:语音识别失败: BingSpeechAPI / token中的错误状态代码401我尝试在第110行的bingspeech-api-client中硬编码将open_timeout增加到一个更高的值,如50000(建议用于慢速互联网),但错误仍然存在。let audioStr
我在javascript中使用Bing text to speechapi并生成随机数进行加法。为了提供支持,我想将bing的text- to -speech集成到我的代码中,但我在microsoft页面上找不到说明可以将动态参数传递给api的文档。bingClientTTS.synthesize(randomNum1.value);
TypeError: Cannot read property