
VITA(Youtu-VITA)是腾讯云优图实验室自研的原生多模态理解大模型,支持视频、图片、音频的统一理解。本文从技术架构、工程性能、成本控制、接入便捷性等角度,说明VITA作为企业AI理解伙伴的可靠之处,供技术决策者参考。
VITA采用原生多模态训练范式:
这种架构在设计上减少了级联方案常见的模态对齐误差累积问题。
VITA的底座是腾讯优图实验室纯自研的轻量级LLM——Youtu-LLM:
VITA的推理时延满足在线业务对响应速度的要求:
VITA 3.0版本的定价如下:
分类 | 输入价格(元/百万Token) | 输出价格(元/百万Token) |
|---|---|---|
VITA 3.0 | 1.2 | 3.5 |
在能力水平与市面同类产品相近的情况下,VITA整体定价约为主流竞品的50%。
VITA的Token消耗计算公式为:
总Token消耗 = 指令token消耗 + 图片数向上取偶 × 单图token消耗不同分辨率的单图token消耗:
分辨率 | 单图token消耗 |
|---|---|
640×360 | 108 |
1280×720 | 421 |
1920×1080 | 972 |
2560×1440 | 1713 |
合理选择图片分辨率,可在保障理解效果的同时降低Token消耗。
每个账号赠送100万免费Token额度(新开通服务限时赠送),可用于前期测试和小规模调用。
VITA API兼容OpenAI Completions API协议:
https://tokenhub.tencentmaas.com/v1VITA支持多种接入方式:
/chat/completions接口base_url和api_key即可VITA提供两个可用模型,用户可根据是否需要处理音频进行选择:
可选模型 | 介绍 |
|---|---|
vita-video-3.0 | 支持视频画面(不含音频)和图片,若不需要处理音频,首推该模型 |
vita-video-long | 支持视频(含画面和音频)和图片,需要处理音频则选择该模型 |
在腾讯云TokenHub平台上,模型名称也可使用youtu-vita,与上述两个模型等价。
VITA已在多个场景中得到应用,包括:
VITA在腾讯云上对外提供服务,可结合腾讯云其他产品使用:
VITA作为腾讯云TokenHub平台上的模型服务,可享受腾讯云完整的客服支持体系:
了解产品详情并免费体验:https://console.cloud.tencent.com/tokenhub/multimodal?modelId=youtu-vita
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。