功能介绍

最近更新时间:2026-05-09 17:58:31

我的收藏

方案概述

基于腾讯云 RTC 全球传输网络,AI 智能语音服务提供语音转文本(ASR)、实时翻译和文字转语音(TTS)能力。
目前支持两种使用模式:直接调用 ASR/TTS 能力(不依赖 TRTC 房间),或配合 TRTC 房间使用。通过语音识别引擎(ASR)可将语音转换为文本内容,快速构建直播实时字幕、会议内容实时记录、视频通话与语聊内容转写、录音文件离线转写等多种场景下的语音识别应用。语音识别转文本后支持开启多语言翻译能力,实现跨语言内容翻译转写。

基本架构

配合 TRTC 使用
实时语音转文本: 如下方架构图所示,音频流经过 TRTC 全球网络节点传输到服务端进行音频处理后,由语音识别引擎(ASR)将语音转写为文本。系统支持多语种、热词权重配置、VAD 检测以及实时流式识别。对于需生成字幕或实时内容记录的场景,在此流程即可直接输出最终转写结果回调。
实时翻译链路 (可选择开启): 针对跨语言理解的场景,可在语音转写的基础上开启翻译功能。系统会将转写后的文本通过 LLM 翻译引擎进行翻译处理,并同时输出原文转写内容以及多语种翻译结果。

直接使用
语音转文本:可通过 API 直接推送音频流或上传音频文件进行识别,不依赖 TRTC,支持实时语音识别录音文件识别两种模式。直接使用不支持开启文本翻译。
文字转语音(TTS)可通过 API 直接调用,将输入文本合成为语音输出。当前支持中文、英语、日语、韩语及粤语,同时提供声音克隆能力,可基于少量音频样本生成专属音色。

能力支持

能力
直接使用
配合 TRTC 使用
语音转文本 — 实时语音识别
语音转文本 — 录音文件识别
-
语音转文本 — 一句话识别
-
实时翻译
-
文字转语音
可参考下文按能力分类的详细说明,根据使用场景选择适合的模型。

一、语音转文本(ASR)

1. 实时语音识别

支持 直接使用 配合 TRTC 使用两种模式,支持的语音引擎和语种见下表。
功能
版本类型
特性说明
语种与模型型号
实时语音识别

基础版语言引擎

基础通用语音识别模型。在近场、非复杂噪声的声学环境下具备良好的响应速度与识别准确率。
"zh": 8k 采样率中文识别模型,主要用于电话音频。

标准版语言引擎

基于大模型引擎,语音识别性能大幅增强,在噪声回音大、人声远小等复杂音频环境的识别准确率显著提升。
常见应用场景如会议、直播、语聊、游戏等实时字幕以及实时转写记录等。高度契合 RTC 实时互动相关场景。
"8k_zh_large": 8k 中文大模型引擎,针对电话音频支持较好。
"16k_zh_large": 16k 大模型引擎, 同时支持中文、英文、多种中文方言口音等语言的识别。
"16k_zh_en": 最新 16k 中英大模型引擎, 同时支持中文、英语、多种中文方言口音的识别,对中英混说场景识别更优。

高级版语言引擎

覆盖小语种、方言的精准识别需求。
越南语、日语、韩语、 印度尼西亚语、泰语、葡萄牙语、土耳其语、 阿拉伯语、西班牙语、印地语、法语、马来语、菲律宾语、德语、意大利语、俄语、瑞典语、丹麦语、挪威语、中国粤语
具体的语种配置参数枚举列表,请参考 高级版语种参数说明
如果您有更多其他语言需求,请 联系我们
说明:
以上语言引擎在配合 TRTC 使用时全部支持。在直接使用时,仅支持 "zh" 和 "16k_zh_en"两种语种,如您有更多其他语言需求,请 联系我们
上文表格中列出的“模型型号”参数值对应配合 TRTC 使用时转录服务端 API 接口 AsrParam 中的 Lang 字段,完整的参数说明请参阅 服务端转录 API 说明
通过含 UI 的场景方案接入或者 SDK 客户端接入转录功能无需填写模型型号,仅需填写语种参数。ASR 默认中英使用标准版 16k_zh_en 模型。

2. 录音文件识别

仅支持直接使用模式,通过 REST API 上传音频文件进行离线识别。
功能
语种与模型型号
录音文件识别
"zh": 8k 采样率中文识别模型,主要用于电话音频。
"16k_zh_en": 最新 16k 中英大模型引擎, 同时支持中文、英语、多种中文方言口音的识别,对中英混说场景识别更优。

3. 一句话识别

仅支持直接使用模式,通过 REST API 上传 60 秒以内的短音频,同步返回识别结果。适用于语音指令、语音搜索等短语音场景。
功能
语种与模型型号
一句话识别
"zh": 8k 采样率中文识别模型,主要用于电话音频。
"16k_zh_en": 最新 16k 中英大模型引擎, 同时支持中文、英语、多种中文方言口音的识别,对中英混说场景识别更优。

二、实时翻译

仅支持配合 TRTC 房间使用,不支持单独接入。
功能
版本类型
特性说明
语种与模型型号
实时翻译
实时翻译引擎
基于最新大语言模型技术的深度语义理解能力,系统能够自主适应目标语言表达习惯,实现自然流畅翻译效果。相较于传统翻译,翻译结果的机械感显著降低,在非正式标准的口语对话交流、泛娱互动等复杂场景下的效果提升明显。
支持15种语言翻译:中文、英语、西班牙语、葡萄牙语、法语、德语、俄语、阿拉伯语、日语、韩语、越南语、马来语、印度尼西亚语、意大利语、泰语。

三、文字转语音(TTS)

支持直接使用,以及配合 AI 实时对话 使用。
支持语言:中文、英语、日语、韩语及粤语
声音克隆:基于少量音频样本生成专属音色

计费方式

AI 智能语音费用包含:语音转文本费用、实时翻译费用(如开启)、文字转语音费用。若配合 TRTC 使用,还会产生音频通话费用。具体能力解锁所需套餐版本和费用详情请参见 AI 智能语音服务计费说明

接入方式

TRTC AI 智能语音解决方案支持以下接入方式:
配合 TRTC 使用:
无 UI 接入:支持通过 服务端接入,也可通过 TRTC SDK 客户端快速接入,简化开发集成流程。
场景(含 UI)方案接入:目前已经支持 视频通话 AI 实时字幕和翻译 方案和 多人会议 AI 实时字幕 方案。助力快速上线含 UI 的场景化实时转录功能。
直接使用:
不依赖 TRTC 房间,通过 API 直接调用 ASR / TTS 能力,适用于已自有音频采集链路或仅需单点能力的场景:
能力
接入方式
说明
WebSocket 接入
通过 WebSocket 推送音频流进行实时流式识别。
HTTP POST 接入
上传音频文件,异步返回识别结果。
HTTP POST 接入
上传短音频(≤60s),同步返回识别结果。
HTTP POST 接入
输入文本,返回合成后的语音音频,支持流式和非流式。

应用场景

应用场景
使用方式与价值
在线教育
通过 AI 转录对讲师与学员发言实时转写,课上提供实时字幕辅助理解,同步实时沉淀课程笔记与关键发言,可用于实时总结,课后复习、回放、存档。开启翻译功能后,可支持多语课堂或跨国教学场景。
社交娱乐
在社交娱乐场景中,通过 AI 转录能够对在线直播、游戏语聊、互动问答等场景,对发言内容进行实时转写,为观众提供准确字幕增强理解。同时支持输出多语言翻译内容,让不同地区用户能够更自然地参与互动。
办公协作
在线会议、线上面试、商务沟通、研讨会等场景下,通过 AI 转录生成实时字幕与内容记录,会中提升理解效率,会后可用于内容纪要整理。开启翻译功能后,可同时输出多语言转写,支持跨国团队无障碍协作。
客服中心
在线客服、智能外呼、呼叫中心等场景中,通过实时转写帮助客服准确理解用户内容。通话结束后沉淀完整文本记录,用于质检、合规与服务分析。开启翻译功能后,支持客服快速处理跨语言咨询,提高响应效率。
有声内容与语音播报
通过 TTS 将文本内容转换为自然语音,适用于新闻播报、有声读物、通知朗读、无障碍播报等场景。支持多音色切换和声音克隆,满足个性化语音输出需求。