据站长之家 8 月 28 日报道,加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型 BLIVA,旨在更好地处理包含文本的图像。视觉语言模型(VLM)通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。
据悉,BLIVA 结合了两种互补的视觉嵌入类型:一种是 Salesforce InstructBLIP 提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受 Microsoft LLaVA 启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。
领取专属 10元无门槛券
私享最新 技术干货