首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云上线多模态理解模型 VITA

腾讯云上线多模态理解模型 VITA

原创
作者头像
腾讯云_内容识别
发布2026-06-11 15:02:22
发布2026-06-11 15:02:22
3990
举报

腾讯云推出多模态理解模型 VITA,该模型特点是基于原生多模态大模型技术,对图片、视频、音频、文本进行统一训练,实现多模态内容的端到端理解。

多模态大模型技术的演进,正在重新定义"机器如何理解内容"。

过去做多模态内容理解,需要依赖多个模型拼接成工作流,如使用视觉分类模型打标签、ASR 模型转写音频、OCR 模型识别文字等,再在末端将各环节结果做汇总。这种"级联式"的问题在于方案复杂、灵活度低、迭代周期长。

针对这些问题,腾讯云优图实验室基于多年视觉与多模态算法的技术积累,自研轻量级 LLM 底座 Youtu-LLM,打造了原生多模态大模型 Youtu-VITA,目前在腾讯云上提供相关服务。

模型能力介绍

VITA 已在腾讯云正式上线,可通过 腾讯云TokenHub平台 快速体验,每个账号有100万的免费token额度。页面示例如下:

VITA使用界面
VITA使用界面

VITA 定位于“多模态理解”,支持基于自定义的prompt,对视频、图片、音频做内容理解。特点如下:

视频理解:支持对视频里的画面和音频做综合理解,单次支持30min的长视频处理,擅长做视频结构化、分镜拆解、内容摘要等任务

音频理解:无需借助外部 ASR 等工具,可直接对语音做语义理解、内容总结等任务,对播客、会议录音等内容能够直接"听懂并理解"

图文理解:支持对图文内容联合识别,完成图文关联性判断、多图与文本的综合理解等任务

基于上述能力特点,VITA 擅长处理以下任务

1.结构解析:分析图片或视频内容,如对图片或视频内容进行总结、结构化拆解,精准提取视频时间戳等。

视频结构解析
视频结构解析

2.标签分类:描述图片或视频中的内容或者对其进行分类打标,如识别人物、地点、动植物等。

内容标签分类
内容标签分类

3.目标定位:支持目标检测、定位和持续跟踪,可用于判断物体方位、视角定位、遮挡关系。

关键目标定位
关键目标定位

客户应用场景

目前,VITA 在腾讯云上已经服务于影视传媒、直播电商、内容平台、家用安防、智慧零售等场景的客户。

影视传媒:应用于影视剧、新闻节目、纪录片等诸多场景,对视频进行自动化结构解析与内容提炼,赋能内容精准识别与高效分发的全流程。

影视传媒
影视传媒

直播电商:对直播间视频、电商短视频、用户评论等进行综合内容理解,为流量分配、运营优化与合规管控提供即时数据决策依据。

直播电商
直播电商

内容平台:对图像、视频、文本等平台内容进行智能理解评估,实现“人工抽检”到“自动判定 + 智能分流”的范式升级,如广告投放分发场景。

内容平台
内容平台

家用安防:实现对监控视频的主动式、智能化分析,精准识别预设事件,完成从“被动记录”到“主动预警”的范式升级。

家用安防
家用安防

产品接入及定价

VITA 已在腾讯云正式上线,可通过 腾讯云TokenHub平台 快速体验,支持OpenAI协议调用。VITA的定价为输入1.2元/百万Token、输出3.5元/百万Token,每个账号有100万的免费token额度并支持图片、视频以及音频三个形态理解。

模型信息

价格(元/百万token)

支持理解的形态

分类

模型

版本

输入

输出

图片

视频

音频

优图

VITA

VITA 3.0

1.2

3.5

支持

支持

支持

此外,针对使用者关心的tokne消耗,以分辨率640*360的图为例,消耗如下(测试数据基于26年5月15日):

模型

1-2图

3-4图

5-6图

7-8图

9-10图

单图token

指令token

VITA 3.0

1090

1382

1520

1812

2019

~108

~982

说明:指令token即对应的prompt部分,不同长度prompt消耗不一样

欢迎大家体验:腾讯云TokenHub平台

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型能力介绍
  • 客户应用场景
  • 产品接入及定价
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档