在人工智能领域,视觉和语言是两个重要的模态,它们可以帮助我们理解世界并与之交流。然而,如何有效地将视觉和语言信息结合起来,仍然是一个具有挑战性的问题。
目前,流行的方法是将图像特征映射到语言模型的输入空间,然后用一个冻结的预训练语言模型来处理跨模态序列。
这种方法被称为浅层对齐(shallow-align),它有以下几个缺点:
图像特征和语言特征之间的差异没有得到充分的缩小,导致信息损失和噪声干扰。
预训练语言模型没有针对视觉任务进行微调,导致视觉理解能力不足。
预训练语言模型的参数量巨大,导致计算效率低下和内存消耗高昂。
为了解决这些问题,今天介绍一个新的AI模型:CogVLM
CogVLM是什么?
清华大学多媒体实验室(THUDM)提出了一个新颖的视觉语言模型,称为CogVLM。
CogVLM与浅层对齐方法不同,它利用一个可训练的视觉专家模块(visual expert module)在注意力层(attention layer)和前馈网络层(FFN layer)中深度整合语言编码和视觉编码。
CogVLM可以实现视觉语言特征的深层融合,而不牺牲任何NLP任务的性能。CogVLM-17B在10项经典的跨模态基准上取得了最先进的性能。
CogVLM模型由四个基本组件组成:
一个视觉变换器(ViT)编码器,一个MLP适配器,一个预训练的大型语言模型(GPT),以及一个视觉专家模块。下图展示了CogVLM的整体架构:
其中,ViT编码器负责从图像中提取高级特征,并将其映射到与GPT相同的维度空间。MLP适配器负责将ViT编码器和GPT之间的参数差异进行适配,并保持GPT参数不变。GPT负责处理跨模态序列,并输出最终结果。视觉专家模块负责在每个注意力层和FFN层中增强视觉编码和语言编码之间的交互,并提高视觉理解能力。
CogVLM优点!
它可以在不破坏NLP任务性能的情况下,实现视觉语言特征的深层融合。它可以利用可训练的视觉专家模块来缩小图像特征和语言特征之间的差异,提高信息质量和准确性。
它可以利用冻结的预训练语言模型来降低计算成本和内存消耗,提高计算效率和可扩展性。CogVLM是一个强大的开源视觉语言模型,可以在多种跨模态任务上表现出色,例如:
详细描述和视觉问答(Detailed Description & Visual Question Answering)
复杂计数(Complex Counting)
视觉数学问题求解(Visual Math Problem Solving)
无OCR推理(OCR-Free Reasonging)
无OCR视觉问答(OCR-Free Visual Question Answering)
世界知识(World Knowledge)
指代表达理解(Referring Expression Comprehension)
基于视觉输入的编程(Programming with Visual Input)
基于字幕的定位(Grounding with Caption)
基于定位的视觉问答(Grounding Visual Question Answering)
CogVLM实战情况如何?
我们还是用上次测试的菜单,让它来识别一下,看看能否获取到价格!
结果都错了....看来计算能力和之前文章介绍的LLaVA-1.5和chatgpt-4比还是有差距。具体文章可以看:LLaVA-1.5:号称可以和ChatGPT-4V硬刚的开源多模态AI模型,我们来看看究竟如何!
我们换个方式,让它描述一下图片,识别一下照片里有几个人。
按照它的解答,其实也对。
好了,实际情况究竟如何,大家可以自行测试判断。下面是网址。
体验网址:
http://36.103.203.44:7861/
论文地址:
https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf
代码地址:
https://github.com/THUDM/CogVLM
魔塔地址:
https://www.modelscope.cn/models/ZhipuAI/CogVLM/summary
领取专属 10元无门槛券
私享最新 技术干货