
本文详细介绍VITA API的接入方法,包括接口信息、请求参数、返回参数、调用示例,帮助开发者快速上手VITA多模态理解服务。
VITA API兼容OpenAI API协议,开发者可直接使用OpenAI SDK进行接入,降低接入成本。无论你是AI应用开发者、内容平台运营者,还是企业技术团队,都可以通过本文快速了解VITA API的接入方法。
访问腾讯云控制台:https://console.cloud.tencent.com/
在控制台中进入"腾讯云TokenHub平台",或直接访问:https://console.cloud.tencent.com/tokenhub
在TokenHub平台创建API密钥(每个账号赠送100万免费Token额度)。
说明: 每个账号赠送100万免费Token额度,可用于测试VITA的各项能力。
VITA提供以下两个可用模型,用户可根据是否需要处理音频选择合适的模型。
可选模型 | 介绍 |
|---|---|
vita-video-3.0 | 支持视频画面(不含音频)和图片,最新基模,若不需要处理音频,首推该模型(后续会升级为支持音频,全面替换vita-video-long) |
vita-video-long | 支持视频(含画面和音频)和图片,25年底发布,需要处理音频则选择该模型 |
模型选择建议:
vita-video-3.0vita-video-long腾讯云TokenHub平台模型名称:
在腾讯云TokenHub平台上,VITA模型的调用名称为youtu-vita,与vita-video-3.0/vita-video-long等价。
参数 | 说明 |
|---|---|
接口协议 | 兼容 OpenAI Completions API 协议 |
BaseURL(境内) |
|
接口路径 |
|
请求方式 | POST |
调用方式 | 流式/非流式(按需选择) |
授权方式 | Bearer Token |
完整URL:
https://tokenhub.tencentmaas.com/v1/chat/completionsyoutu-vitaep-xxxxxxxx,可在在线推理服务页面查看参数名 | 必选 | 类型 | 描述 |
|---|---|---|---|
model | 是 | String | 模型名称,可选值: |
messages | 是 | Array | 需要理解的内容,结构见下方 |
stream | 否 | Boolean | 是否启用流式输出,取值范围 |
temperature | 否 | Float | 输出随机性,取值范围 |
top_p | 否 | Float | 输出多样性(核采样),取值范围 |
max_tokens | 否 | Integer | 限制最大输出Token数 |
stop | 否 | Array of String | 指定模型输出的停止序列,当生成结果命中任一指定序列时,模型将停止输出,且响应内容中不包含该停止序列;支持传入单个字符串或字符串数组,最多4个
示例:让模型生成10条清单,不希望继续输出第11条,可填写为 |
字段 | 必选 | 类型 | 描述 |
|---|---|---|---|
role | 是 | String | 角色,固定为 |
content | 是 | Array | 需要理解的内容,结构见下方 |
字段 | 必选 | 类型 | 描述 |
|---|---|---|---|
type | 是 | String | 输入类型,可选值: |
text | 是 | String | 自定义的理解指令,例如: |
image_url | 否 | Object | 需要理解的图片信息, |
video_url | 否 | Object | 需要理解的视频信息, |
字段 | 必选 | 类型 | 描述 |
|---|---|---|---|
url | 是 | String | 图片URL链接,格式要求: 1. 封装格式:JPG、JPEG、PNG、WebP 2. 文件大小:单图最大10MB,一次请求最多10张图片 |
字段 | 必选 | 类型 | 描述 |
|---|---|---|---|
url | 是 | String | 视频URL链接,格式要求: 1. 封装格式:MP4、MOV、AVI、WebM 2. 编码格式:H.264、H.265 3. 文件大小:默认最大100MB,特殊情况下(白名单)可支持最大600MB,一次请求仅支持1个视频 |
参数名 | 类型 | 描述 |
|---|---|---|
id | String | 请求唯一标识 |
object | String | 对象类型,固定为 |
created | Integer | 创建时间(Unix时间戳) |
model | String | 实际使用的模型名称 |
choices | Array | 模型针对同一次请求返回的候选结果列表,结构见下方 |
usage | Object | Token用量统计,结构见下方 |
字段 | 类型 | 描述 |
|---|---|---|
index | Integer | 选项索引 |
message | Object | 回复消息,包含 |
finish_reason | String | 结束原因:
|
字段 | 类型 | 描述 |
|---|---|---|
prompt_tokens | Integer | 输入Token数 |
completion_tokens | Integer | 输出Token数 |
total_tokens | Integer | 总Token数 |
使用场景: 需要对视频内容进行理解分析。
curl命令:
curl -X POST 'https://tokenhub.tencentmaas.com/v1/chat/completions' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-H 'Content-Type: application/json' \
-d '{
"model": "vita-video-long",
"messages": [{"role": "user", "content": [
{"type": "video_url", "video_url": {"url": "<video url>"}},
{"type": "text", "text": "请描述视频的内容"}
]}],
"stream": false
}'说明: 如果视频不含音频,建议使用vita-video-3.0模型。
使用场景: 需要对图片内容进行理解分析。
curl命令:
curl -X POST 'https://tokenhub.tencentmaas.com/v1/chat/completions' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-H 'Content-Type: application/json' \
-d '{
"model": "vita-video-3.0",
"messages": [{"role": "user", "content": [
{"type": "image_url", "image_url": {"url": "<image url 1>"}},
{"type": "image_url", "image_url": {"url": "<image url 2>"}},
{"type": "text", "text": "请描述图片的内容"}
]}],
"stream": false
}'说明: 对于图片理解任务,推荐使用vita-video-3.0模型(不含音频处理,成本更低)。
使用场景: 已熟悉OpenAI SDK的开发者,可直接使用OpenAI SDK接入VITA API。
Python代码:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://tokenhub.tencentmaas.com/v1"
)
response = client.chat.completions.create(
model="vita-video-long", # 如需处理音频,使用vita-video-long;如不需处理音频,使用vita-video-3.0
messages=[{"role": "user", "content": [
{"type": "video_url", "video_url": {"url": "<video url>"}},
{"type": "text", "text": "请描述视频的内容"}
]}],
stream=False
)
print(response.choices[0].message.content)优势: 兼容OpenAI API协议,可直接使用OpenAI SDK进行接入,降低接入成本。
分类 | 模型版本 | 输入价格(元/百万Token) | 输出价格(元/百万Token) | 支持理解形态 |
|---|---|---|---|---|
优图 | VITA 3.0 | 1.2 | 3.5 | 图片、视频、音频 |
定价特点:
总Token消耗 = 指令token消耗 + 图片数向上取偶 × 单图token消耗说明:
分辨率 | 单图token消耗 |
|---|---|
640×360 | 108 |
1280×720 | 421 |
1920×1080 | 972 |
2560×1440 | 1713 |
Q1:VITA支持哪些文件格式?
A1:
Q2:VITA的响应时间是多少?
A2:
Q3:VITA是否支持实时处理?
A3:当前版本不支持实时视频流的直接处理,需要通过预先录制后批量上传的方式提交任务。
Q4:VITA的模型名称是什么?
A4:VITA提供以下两个可用模型:
vita-video-3.0:支持视频画面(不含音频)和图片,若不需要处理音频,首推该模型vita-video-long:支持视频(含画面和音频)和图片,需要处理音频则选择该模型说明: 在腾讯云TokenHub平台上,模型名称也可使用youtu-vita,与vita-video-3.0/vita-video-long等价。
Q1:如何获取API密钥?
A1:需登录腾讯云TokenHub平台控制台,创建API密钥。每个账号赠送100万免费Token额度。
Q2:VITA是否兼容OpenAI API协议?
A2:是的,VITA API兼容OpenAI API协议,可直接使用OpenAI SDK进行接入。
Q1:VITA如何计费?
A1:VITA按Token消耗量进行计费:
Q2:VITA有免费试用吗?
A2:每个账号赠送100万免费Token额度。也可访问腾讯云官网VITA产品页或活动页查询最新优惠活动信息。
Q3:如何降低VITA的使用成本?
A3:
VITA API兼容OpenAI API协议,开发者可直接使用OpenAI SDK进行接入,降低接入成本。通过本文的介绍,相信你已经了解了VITA API的接入方法、请求参数、返回参数、调用示例等关键信息。
了解更多产品详情并免费体验:https://console.cloud.tencent.com/tokenhub/multimodal?modelId=youtu-vita
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。