智能字幕模板

最近更新时间:2026-02-06 11:39:52

我的收藏

操作场景

智能字幕功能可以将点播视频文件或直播流中的语音信息进行语音识别,将其转换成字幕并进行多语言翻译。其适用于直播实时字幕、视频转译出海等场景。您可以创建自定义智能字幕模板,针对不同应用场景预设不同的处理参数,以便于后续复用。




前提条件

1. 注册腾讯云 账户并完成实名认证。

模板配置指引

1. 进入模板管理 > 媒体 AI 模板 > 智能字幕,系统提供了几种预设模板,您可以直接使用,也可以单击创建智能字幕模板来创建自定义模板。

2. 进入智能字幕模板创建页面,支持以下几种配置参数:


处理类型为“语音识别(ASR)生成字幕”

支持以下配置项:
配置项
说明
模板名称
仅支持中文、英文、数字、下划线(_)、短横线(-)和句点(.),长度不能超过64个字符。
处理类型
语音识别(ASR)生成字幕:输入需为音频或视频文件,通过 ASR 生成字幕文件并翻译。
翻译字幕文件:输入需为字幕文件,通过大模型翻译为多语种,生成新字幕文件。
当处理类型为「语音识别(ASR)生成字幕」
视频语音源语言
选择源视频语音的源语言。下文列出了 支持的源语言列表
关联语音识别热词库
语音中的常用词汇一般能够被准确识别,然而,对于特定的人名、产品名、公司名和行业专有词汇(如品牌名“智聆”、建筑名“滨海大厦”、保险领域的“核保”、云存储的“存储桶”等),识别准确率可能会降低。为了解决这个问题,我们提供了自定义热词库功能,您可以通过手动输入或文件导入的方式,添加专有词汇,以显著提升语音识别准确率。具体配置指引请参见 自定义热词库 文档。
注意:
目前热词库只支持中文普通话、英文语种,因此,只有当视频语音源语言为简体中文、英文时,才支持关联热词库。
是否开启翻译
开启后,支持将源语言字幕翻译成指定语言,适用于视频转译出海等场景。
说明:
部分语言暂未开放选择,如需使用,请 联系我们 获得支持。
翻译目标语言
字幕文件格式
当前支持 WebVTT 、SRT 格式。若您只需要字幕内容回调,不需要实际输出字幕文件,可以选择“不生成字幕文件”。
字幕类型
未开启翻译功能,字幕内容为单语(源语言)。
开启了翻译功能,字幕内容支持单语(翻译语言)或双语(两行字幕、源语言 + 翻译语言)。

支持语言

处理类型为“文本识别(OCR)生成字幕”


支持以下配置项:
配置项
说明
模板名称
仅支持中文、英文、数字、下划线(_)、短横线(-)和句点(.),长度不能超过64个字符。
当处理类型为「文本识别(OCR)生成字幕」
字幕区域
框选待提取的字幕位置。预设区域默认为视频中部靠下部分。为避免漏提取,建议您切换到自定义,上传预览视频/图片,自定义框选字幕区域。
源语言
中英:表示源语言为中文、英文或中英混合;
其他:除中英之外的其他多语种。
是否开启翻译
开启后,支持将源语言字幕翻译成指定语言,适用于视频转译出海等场景。
说明:
部分语言暂未开放选择,如需使用,请 联系我们 获得支持。
翻译目标语言
字幕文件格式
支持选择 WebVTT、SRT。
字幕类型
未开启翻译功能,字幕内容为单语(源语言)。
开启了翻译功能,字幕内容支持单语(翻译语言)或双语(两行字幕、源语言 + 翻译语言)。

支持语言

处理类型为“翻译字幕文件”


配置项
说明
模板名称
仅支持中文、英文、数字、下划线(_)、短横线(-)和句点(.),长度不能超过64个字符。
当处理类型为「翻译字幕文件」
源语言
默认“自动识别”,您也可以指定语种。下文列出了 支持的源语言列表
翻译目标语言
开启后,支持将源语言字幕翻译成指定语言,适用于视频转译出海等场景。下文列出了 支持的翻译目标语言列表
说明:
部分语言暂未开放选择,如需使用,请 联系我们 获得支持。
字幕文件格式
支持选择 WebVTT、SRT、与源文件一致。
字幕类型
支持以下选项:
单语(翻译语言):生成的翻译语言字幕文件为单行单语字幕。
双语(源语言 + 翻译语言):生成的翻译语言字幕文件为双行双语字幕。

支持语言

计费说明

智能字幕计费与处理类型、是否开启翻译、翻译目标语言数量有关。以下提供了详细计费场景以供参考。

语音识别(ASR)生成字幕

仅识别源语种,收取「语音识别」费用

处理类型选择「语音识别(ASR)生成字幕」,未开启翻译,将会收取「语音识别」费用,定价请参考 计费说明文档


翻译一个目标语种,收取「语音翻译」费用

处理类型选择「语音识别(ASR)生成字幕」,开启翻译,并选择了一个翻译目标语言,将会收取「语音翻译」费用,定价请参考 计费说明文档


翻译目标语种数量 > 1,每个额外语种收取「翻译字幕(附加语种)」费用

处理类型选择「语音识别(ASR)生成字幕」,开启翻译,并选择了 n 个翻译目标语言,将会收取「语音翻译」× 1 + 翻译字幕(附加语种)× (n-1) 费用。
以下面配置为例,将收取的费用为「语音翻译」× 1 + 翻译字幕(附加语种)× 3 。定价请参考 计费说明文档


文字识别(OCR)生成字幕

仅提取源语种,收取「OCR 提取字幕」费用

处理类型选择「文字识别(OCR)生成字幕」,未开启翻译,将会收取「OCR 提取字幕」费用,定价请参考 计费说明文档


翻译一个目标语种,收取「OCR 提取字幕并翻译」费用

处理类型选择「文字识别(OCR)生成字幕」,开启翻译并选择了一个翻译目标语言,将会收取「OCR 提取字幕并翻译」费用,定价请参考 计费说明文档


翻译目标语种数量 > 1,每个额外语种收取「翻译字幕(附加语种)」费用

处理类型选择「文字识别(OCR)生成字幕」,开启翻译,并选择了 n 个翻译目标语言,将会收取「OCR 提取字幕并翻译」× 1 + 翻译字幕(附加语种)× (n-1) 费用。
以下面配置为例,将收取的费用为「OCR 提取字幕并翻译」× 1 + 翻译字幕(附加语种)× 3 。定价请参考 计费说明文档


翻译字幕文件

翻译一个目标语种,收取「翻译字幕」费用

处理类型选择「翻译字幕文件」,并选择了一个翻译目标语言,将会收取「翻译字幕」费用,定价请参考 计费说明文档


翻译目标语种数量 > 1,每个额外语种收取「翻译字幕(附加语种)」费用

处理类型选择「翻译字幕文件」,并选择了 n 个翻译目标语言,将会收取 「翻译字幕」× 1 + 翻译字幕(附加语种)× (n-1) 费用。
以下面配置为例,将收取的费用为「翻译字幕」× 1 + 翻译字幕(附加语种)× 3 。定价请参考 计费说明文档