大模型音视频理解接入

最近更新时间:2026-04-30 11:47:31

我的收藏

功能介绍

大模型音视频理解功能,使用行业内领先的多模态大模型,实现对视频、音频的内容理解,通过提示词来设定内容理解的侧重点,以及文本结果的输出格式。

功能优势

使用简单:无需复杂设置,仅需通过提示词限定输出格式,即可实现批量内容理解。
内容质量高:例如在教育场景中,能够对绘画的色彩、笔法、造型和结构进行点评。在音乐演奏场景中,可对节奏、音准、指法等方面,提供专业的演奏点评和改进建议。
使用场景广泛:可应用于短视频总结,视频脚本拆解,视频/音频评价,分镜理解等场景。

前置操作

在接入前,您需要在 云点播控制台媒体处理 > 媒体处理模板 > 媒体智能模板页面中开通 MPS 服务。
注意:
大模型音视频理解功能由媒体处理(MPS)提供服务,使用前需同时开通 VOD 和 MPS 服务
功能用量及账单将在媒体处理(MPS)平台显示。定价请参考 MPS 媒体 AI 按量计费


方式一、控制台使用

发起任务

您可以进入 云点播控制台 智能媒资管理 > 音视频管理页面发起任务。
1. 选择需要发起任务的视频,并单击媒体处理

2. 处理类型选择“媒体智能”的智能分析,您可以选择33号预设模板,根据下文 扩展参数说明,传入所需参数发起任务。
说明:
控制台会自动转义,请直接传入 JSON 数据,不要传入转义后的字符串,否则会导致任务失败。


查看任务结果

云点播控制台 任务中心页面,找到对应任务并单击详情查看结果。

您也可以调用 DescribeMediaInfos 接口,查询存入媒资的结果。
注意:
同一模板任务,媒资中仅保留最新的任务结果。

方式二、API 接入

发起任务

调用 ProcessMediaByMPS,FileId 处填写需要处理的媒资 ID,SubAppId 处填入子应用 ID,MPSProcessMediaParams 参数中填写 AiAnalysisTask 任务,并将 Definition 设置为 33(预置模板)。ExtendedParameter 根据需求填额外的扩展参数,通过该参数实现特定的能力。
大模型摘要任务 MPSProcessMediaParams 参数示例如下:
{"AiAnalysisTask":{"Definition":33,"ExtendedParameter":"{\\"mvc\\":{\\"mode\\":\\"video\\",\\"prompt\\":\\"...\\"}}"}}


查询任务结果

可以在输出信息中找到输出结果。


扩展参数说明

ExtendedParameter 用于对视频理解任务进行个性设置,ExtendedParameter 全部可选参数及其说明参考下表:
参数
类型
必填
描述
mode
String
理解模式,video、audio。audio 模式下如果上传的是视频,服务内部会从视频中提取音频。
prompt
String
大模型提示词。
extendData
Array
扩展数据,多于1个音视频文件可放在此字段,当前最多支持2个。
extendData[i].url
String
数据文件 URL。
请求参数示例:
{
"mvc": {
"mode": "audio", // video|audio, 理解模式, audio模式下如果上传的是视频,服务内部会从视频中提取音频
"prompt": "...", // 大模型提示词
"extendData": [ // 扩展数据,对比数据可放在该字段
{
"url": "..." // 数据文件 url
},
{}
]
}
}