据站长之家 8 月 23 日报道,人工智能创业公司 Hugging Face 最近推出了一款名为 IDEFIX 的开源多模态 AI 模型。IDEFIX 可以处理图像和文本输入,并生成连贯的文本输出。
IDEFIX 基于视觉语言模型 Flamingo 构建,Flamingo 是去年由 DeepMind 开发的一款领先的多模态 AI 模型。IDEFIX 使用了包括维基百科、公共多模态数据集和 LAION 在内的各种开放数据集进行了训练。此外,Hugging Face 还引入了一个新的多模态数据集 OBELIX,其中包含 1.41 亿个从互联网收集的图像文本文档。
与专有模型相比,IDEFIX 在各种图像文本理解评估中的表现非常优异。它有两个版本,基本版本有 90 亿个参数,指导版本有 800 亿个参数。相比之下,OpenAI 的 ChatGPT 目前还不支持处理图像。
领取专属 10元无门槛券
私享最新 技术干货