贾佳亚团队推出多模态大模型LLaMA-VID。据介绍,该模型可支持单图、短视频,还可以将3个小时的电影或视频精简为数个Token,直接使用大语言模型进行理解和交互。(36氪)
分享快讯到朋友圈
领取专属 10元无门槛券
私享最新 技术干货