
腾讯云推出多模态理解模型 VITA,该模型特点是基于原生多模态大模型技术,对图片、视频、音频、文本进行统一训练,实现多模态内容的端到端理解。
多模态大模型技术的演进,正在重新定义"机器如何理解内容"。
过去做多模态内容理解,需要依赖多个模型拼接成工作流,如使用视觉分类模型打标签、ASR 模型转写音频、OCR 模型识别文字等,再在末端将各环节结果做汇总。这种"级联式"的问题在于方案复杂、灵活度低、迭代周期长。
针对这些问题,腾讯云优图实验室基于多年视觉与多模态算法的技术积累,自研轻量级 LLM 底座 Youtu-LLM,打造了原生多模态大模型 Youtu-VITA,目前在腾讯云上提供相关服务。
VITA 已在腾讯云正式上线,可通过 腾讯云TokenHub平台 快速体验,每个账号有100万的免费token额度。页面示例如下:

VITA 定位于“多模态理解”,支持基于自定义的prompt,对视频、图片、音频做内容理解。特点如下:
● 视频理解:支持对视频里的画面和音频做综合理解,单次支持30min的长视频处理,擅长做视频结构化、分镜拆解、内容摘要等任务
● 音频理解:无需借助外部 ASR 等工具,可直接对语音做语义理解、内容总结等任务,对播客、会议录音等内容能够直接"听懂并理解"
● 图文理解:支持对图文内容联合识别,完成图文关联性判断、多图与文本的综合理解等任务
基于上述能力特点,VITA 擅长处理以下任务
1.结构解析:分析图片或视频内容,如对图片或视频内容进行总结、结构化拆解,精准提取视频时间戳等。

2.标签分类:描述图片或视频中的内容或者对其进行分类打标,如识别人物、地点、动植物等。

3.目标定位:支持目标检测、定位和持续跟踪,可用于判断物体方位、视角定位、遮挡关系。

目前,VITA 在腾讯云上已经服务于影视传媒、直播电商、内容平台、家用安防、智慧零售等场景的客户。
影视传媒:应用于影视剧、新闻节目、纪录片等诸多场景,对视频进行自动化结构解析与内容提炼,赋能内容精准识别与高效分发的全流程。

直播电商:对直播间视频、电商短视频、用户评论等进行综合内容理解,为流量分配、运营优化与合规管控提供即时数据决策依据。

内容平台:对图像、视频、文本等平台内容进行智能理解评估,实现“人工抽检”到“自动判定 + 智能分流”的范式升级,如广告投放分发场景。

家用安防:实现对监控视频的主动式、智能化分析,精准识别预设事件,完成从“被动记录”到“主动预警”的范式升级。

VITA 已在腾讯云正式上线,可通过 腾讯云TokenHub平台 快速体验,支持OpenAI协议调用。VITA的定价为输入1.2元/百万Token、输出3.5元/百万Token,每个账号有100万的免费token额度并支持图片、视频以及音频三个形态理解。
模型信息 | 价格(元/百万token) | 支持理解的形态 | |||||
|---|---|---|---|---|---|---|---|
分类 | 模型 | 版本 | 输入 | 输出 | 图片 | 视频 | 音频 |
优图 | VITA | VITA 3.0 | 1.2 | 3.5 | 支持 | 支持 | 支持 |
此外,针对使用者关心的tokne消耗,以分辨率640*360的图为例,消耗如下(测试数据基于26年5月15日):
模型 | 1-2图 | 3-4图 | 5-6图 | 7-8图 | 9-10图 | 单图token | 指令token |
|---|---|---|---|---|---|---|---|
VITA 3.0 | 1090 | 1382 | 1520 | 1812 | 2019 | ~108 | ~982 |
说明:指令token即对应的prompt部分,不同长度prompt消耗不一样
欢迎大家体验:腾讯云TokenHub平台
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。