PAAS层
录音文件识别,一句话识别,在ASR服务端处理。
VAD是减小系统功耗的,实时音频流。建议开启VAD,一分钟之后的结果就没有了。
开了VAD之后,就可以超过60秒,但是还是建议用户开启。
如果是断断续续的。
一般人也不能一口气说60秒。
所有的友商都是这么写的,
这么听是没有问题的,但是不建议这么做,实时的音频采样率。
Q1:会是怎样的一种对应关系呢?
Q2:静音状态会不会收费呢?
集成实时语音识别 API 时,需按照以下要求。
内容 | 说明 |
---|---|
支持语言 | 中文普通话、英文、粤语、韩语 |
支持行业 | 通用、金融 |
音频属性 | 采样率:16000Hz或8000Hz、采样精度:16bits、声道:单声道 |
音频格式 | wav、pcm、opus、speex、silk、mp3 |
数据长度 | 音频流中每个数据包的音频分片建议为200ms,8k采样率对应的音频分片大小为3200字节,16k采样率对应的音频分片大小为6400字节 |
请求协议 | HTTP |
请求地址 | http://asr.cloud.tencent.com/asr/v1/<appid>?{请求参数} |
接口鉴权 | 签名鉴权机制,详见 签名生成 |
响应格式 | 统一采用 JSON 格式 |
开发语言 | 任意,只要可以向腾讯云服务发起 HTTP 请求的均可 |
请求频率限制 | 50次/秒 |
这里添加声道这个参数:
ChannelNum | 是 | Integer | 语音声道数。1:单声道;2:双声道(仅支持 8k_zh 引擎模型)。 |
---|
Q1:录音文件保存成双通道,
A1:但是你传过来的音频,必须是双通道的。是你音频文件生成好的。是一个实时音频流的概念。
Q2:实时语音识别的分片是200毫秒吗?
A2:IOS的SDK. 200ms对应的
参数名称 | 类型 | 描述 |
---|---|---|
Data | Task | 录音文件识别的请求返回结果,包含结果查询需要的TaskId |
RequestId | String | 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。 |
这么一个特点是
能量频谱图,选择频谱显示。
采样是正常的采样。
季友生,云剑飞。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有