腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
对不限时长的实时音频流进行识别,识别结果自动断句,标记每句话的开始和结束时间;可应用于智能语音助手等实时音频流场景。
对用户上传的五小时之内的录音文件进行识别;可应用于呼叫中心语音质检、视频字幕生成,会议语音资料转写等场景。
对直播协议语音流进行识别,准实时返回识别结果,支持音视频场景专用模型;可用于直播流质检等场景。
对用户上传的较大的录音文件进行极速识别,半实时返回识别结果;可应用于音视频字幕、准实时质检分析场景等场景。
对一分钟之内的短音频文件进行识别;可应用于语音输入法、语音消息转文字、语音搜索等场景。
立足于腾讯庞大的社交数据平台,积累了数十万小时的语音标注数据,拥有丰富多样的语料库,为高识别率奠定数据基础。
基于多种序列神经网络结构(LSTM、Attention Model、DeepCNN),采用 Multitask 训练方法,结合T/S方式,在通用以及垂直领域有业内领先的识别精度。
提供 REST API 和 SDK,支持智能硬件、移动应用、网站、桌面客户端和物联网等多种设备终端。
现阶段已经支持中文普通话、英文、粤语、韩语、日语、泰语和上海话等23种方言的语音识别,后续将持续开放其他语种和语言的识别能力。
语音识别模型鲁棒性佳,识别精度高,抗噪声的干扰能力强,能够识别来自嘈杂环境的音频信息,不需要客户进行降噪处理。
经过微信、腾讯视频、王者荣耀等内部业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户,性能稳定。
在智能客服场景中,使用腾讯云语音识别可以将客服通话录音转化为文本,对可能出现的违规用语、危险用语等进行及时的干预处理,避免造成公司损失。支持实时监控和离线录音异步质检等多种质检方式。
通过腾讯云语音识别实现实时对会议内容进行转写,免除了大量人工记录的工作,并通过产品的自动分段功能减轻后续人工编辑的工作量,辅助会议记录快速生成,提升稿件整体效率。
支持对视频进行实时字幕转写,产品提供时间戳功能,其精细度可到字级别,帮助客户更好地定位字幕持续时间,实现在线会议、在线视频的实时字幕功能。
传统场景的书记员人工记录方式有可能影响庭审的效果,或出现错误需要二次修改。使用腾讯云语音识别,可自动地实现庭审记录的转写,大量降低了人工成本,避免了人为错误、人为篡改等因素,维护了法庭记录的合规性,有效提升庭审记录效率。
腾讯云语音识别对面对面销售的场景、尤其是车企、药企等需要重点依赖面对面销售的场景有很好的支持力度,能够通过远场识别技术准确地转写客户和销售人员的对话内容,帮助销售人员回顾工作过程,或帮助管理者进行销售人员规范用语质检。
腾讯云语音识别能够帮助各大输入法厂商实现语音转写,通过多方言、多语种、实时性等特性的支持,能够覆盖大部分终端客户语音转写的场景,可用性高达95%。
使用方式 | 适用对象 | 说明 | 相关文档 |
---|---|---|---|
通过 语音识别控制台 进行功能体验 | 非业务开发者,没有代码编写基础 | 此方式只能用于体验,不能用于开发。 | |
通过 API 3.0 Explorer 在线调用功能 | 开发初学者,有代码编写基础 | 此方式能够实现在线调用、签名验证、SDK 代码生成和快速检索接口等能力 | |
通过编写代码调用 API 进行开发 | 开发工程师,熟悉代码编写 | 腾讯云已编写好的开发工具集(SDK),支持通过调用语音识别服务 API 开发功能。目前 SDK 已支持多种语言,包括 Python、Java、PHP、Go、Node.js、.Net 等,可在每个服务的文档中下载对应的 SDK。 | |
通过客户端 SDK 进行集成 | 客户端开发工程师,熟悉代码编写 | 腾讯云支持通过已编写好的开发组件(SDK)在客户端集成语音识别的能力。目前客户端 SDK 主要支持的 Android、iOS 平台,您可以在 客户端 SDK 中心 获取对应的 SDK 包。 |