Ferret 模型是一种新的端到端多模态语言和视觉模型 (MLLM),由 Apple 和研究人员Haoxuan You、Haotian Zhang、Zhe Gan、Xianzhi Du、Bowen Zhang、Zirui Wang、Liangliang Cao、Shih等开发。
该模型使用混合区域表示和空间感知视觉采样器来进行细粒度和开放词汇的引用和基础。该团队还创建了 GRIT 数据集(一个大规模、分层、强大的地面参考指令调整数据集)和 Ferret-Bench(一个多模式评估基准)。
Ferret 简介:突破性的 MLLM
Ferret 是一种端到端的多模式语言和视觉模型 (MLLM),可以在任何地点、任何粒度上引用和基础任何内容。该团队的研究论文深入探讨了该模型的功能及其潜在应用。
Ferret 模型对 MLLM 领域的主要贡献包括混合区域表示和空间感知视觉采样器。这些功能可实现 MLLM 中细粒度和开放词汇的引用和基础。这意味着该模型可以引用并奠定任何对象或概念的基础,无论其复杂性或特殊性如何。这是该领域的重大进步,因为它允许更精确和细致的语言和视觉处理。
GRIT 数据集
除了Ferret 模型之外,团队还开发了 GRIT 数据集。该数据集包含约 110 万个条目,是一个大规模、分层、稳健的 ground-and-refer 指令调优数据集。GRIT 数据集旨在与 Ferret 模型配合使用,为模型提供丰富的数据源以供参考和依据。
Ferret-Bench:多模式评估基准
该团队还引入了多模式评估基准 Ferret-Bench。该基准旨在共同要求引用/基础、语义、知识和推理。这意味着它测试模型引用和基础对象和概念、理解和应用语义知识以及逻辑推理的能力。这个全面的基准测试提供了对模型功能和性能的可靠衡量。
Ferret 模型、GRIT 数据集和 Ferret-Bench 基准代表了 MLLM 领域的重大进步。这些工具可以实现更精确、更细致的语言和视觉处理,这有可能大大增强人工智能系统的能力。该团队的研究论文详细概述了这些工具及其潜在应用,使其成为对 MLLM 领域感兴趣的任何人的宝贵资源。
本文讨论了 Ferret 模型,这是一种端到端多模态语言和视觉模型 (MLLM),由Haoxuan You、Haotian Zhang、Zhe Gan、Xianzhi Du、Bowen Zhu、Zhe Wang、Liangliang Cao、Shih-Fu Chang 开发,杨银飞.
该模型使用混合区域表示和空间感知视觉采样器来实现 MLLM 中的细粒度和开放词汇引用和基础。
该团队还创建了 GRIT 数据集,这是一个大规模、分层、强大的 ground-and-refer 指令调整数据集,包含大约 110 万个条目。
此外,他们还开发了 Ferret-Bench,这是一种多模式评估基准,需要参考/基础、语义、知识和推理。
Ferret 模型旨在以任何粒度在任何地方引用和接地任何内容,接受任何形式的引用并接地任何响应。
领取专属 10元无门槛券
私享最新 技术干货