前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

作者头像
量子位
发布于 2024-05-23 05:45:25
发布于 2024-05-23 05:45:25
2770
举报
文章被收录于专栏:量子位量子位
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI

开源多模态SOTA模型再易主!

Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI

CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。

网友闻讯而来,发现ChatGPT新绝技之“AI挑瓜”,我们开源届也不缺了。

更复杂的学术图表,它也能理解并给出详细解释。

CogVLM2整体模型参数量仅19B,却能在多项指标取得接近或超过GPT-4V的水平,此外还有几大亮点:

  • 支持8K文本长度
  • 支持高达1344*1344的图像分辨率
  • 提供支持中英文双语的开源模型版本
  • 开源可商用

英文版经网友测试也有不错的表现。

特别值得注意的是,尽管CogVLM2的总参数量为19B,但得益于精心设计的多专家模块结构,每次进行推理时实际激活的参数量仅约12B,这样一来,全量推理(BF16/PF16)需要42GB 显存。

接下来划重点了:

Int4量化版本,仅需要16GB显存。

也就是一张英伟达RTX4080,或者刚出不久的RTX4070 Ti SUPER就能搞定了。

性能不俗,算力需求也不离谱,以至于刚开源不久就在GitHub上小火了一把,各类开发者带着自己的场景来找团队咨询。

团队也贴心的表示,考虑到很多实际场景需要微调,专门给大家提供了Lora微调代码

  • 冻结视觉部分,BF16 Lora微调仅需57GB显存
  • 如果同时对视觉部分进行 BF16 Lora微调,则至少需要80GB显存

CogVLM2也提供在线Demo,感兴趣的话可以先试玩一下。

(试玩地址在文末领取)

好嘛,一般的小诡计还真骗不过它~

大模型整合视觉专家模块

其实去年10月,团队就发布了CogVLM一代,量子位当时也介绍过

系列的核心思路,是给大语言模型的每一层都添加可训练的视觉专家模块,以实现图像特征和文本特征的深度对齐,而不会牺牲NLP任务的性能。

可以说是把视觉语言模型的训练方式,从图像文本的浅层对齐,转向了深度融合。

CogVLM2在继承这一经典架构的基础上,做了不少优化和改进。

语言模型基座升级成最新的Llama3-8B-Instruct视觉编码器升级到5B、视觉专家模块也升级到7B,支持更高的图像分辨率等等。

特别是视觉专家模块,通过独特的参数设置精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。

升级后能力有多强?

在不损失任何通用能力的前提下,在许多关键指标上有了显著提升,如在 OCRbench基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。

也可以来个更直观的展示:

现在,复杂的模型架构图都可以让CogVLM2自己描述一遍,而一代的时候我们也测试过,当时还是有难度的。

为了更为严格地验证CogVLM的性能和泛化能力,一系列多模态基准上的定量评估更能说明问题。

CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

中文能力到位,模型代码试玩开放

可能有人会疑惑,Llama3系列是出了名的能看懂中文,但死活不愿意用中文完整回答,有一种各说各话、跨服交流的美。

怎么到CogVLM2这里,加入视觉专家模块之后,中文输出能力也这么6了?

我们就这个问题询问了智谱团队,他们表示为了解决这个问题可费了不少功夫。

团队判断Llama 3 8B Instruct模型的训练数据中可能包含了大量英文数据,而中文数据的比例相对较低

找到问题,就能对症下药了:

首先,在预训练阶段,团队收集了大量的中文图文数据,涵盖了中文场景的各种情况。 特别是针对中文场景进行了OCR和文档等类型的数据收集。通过这些数据,我们使得模型在预训练阶段就能够充分接触和理解中文语境。 其次,在指令微调阶段也构造了一些高质量的中文数据。这些数据包含了各种中文指令和对应的回答,使得模型能够更好地理解和回答中文问题。在这个过程中确保中英数据的比例在一个合理的范围内,从而使得模型在处理中文问题时能够更加得心应手。

通过这些措施,CogVLM2在支持中文方面就有了显著的提升,无论是在理解中文问题还是在用中文回答问题方面,都成了亮点和优势

比如识别火车票信息,再整理成json格式,部分文字反光或者掉色也不受影响。

又或者识别并描述复杂户型图,连注释和水印都不放过。

又或者识别中文手写字体。

甚至古代字体。

最后,奉上CogVLM2开源相关的一系列链接,感兴趣的朋友可以自取。

团队还透露,GLM新版本会内嵌CogVLM2能力,在智谱清言App智谱AI大模型MaaS开放平台上线。

代码仓库: github.com/THUDM/CogVLM2

模型下载: Huggingface:huggingface.co/THUDM 魔搭社区:modelscope.cn/models/ZhipuAI 始智社区:wisemodel.cn/models/ZhipuAI

Demo体验: http://36.103.203.44:7861

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩
CogVLM由清华和智谱AI合作开发,通讯作者为唐杰和丁铭,论文和开源代码已上传到GitHub。
量子位
2023/10/17
3900
挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩
LLM 大模型学习必知必会系列(一):大模型基础知识篇
2023 年,随着 LLM 技术的发展,中国模型研究机构的开源模型迎来了爆发式的增长:
汀丶人工智能
2024/05/11
3.3K0
LLM 大模型学习必知必会系列(一):大模型基础知识篇
清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了
此外,在10月27日的2023中国计算机大会(CNCC)上,智谱AI还开源了ChatGLM3-6B(32k)、多模态CogVLM-17B、以及智能体AgentLM。
新智元
2023/10/28
1.4K0
清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
9月底,OpenAI宣布ChatGPT多模态能力解禁。多模态GPT-4V的神奇能力让众人惊呼:这就是GPT-4.5吧?
新智元
2023/10/08
3.5K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3.2K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。
新智元
2024/01/04
1.3K0
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级
今天上午,在 AI 开放日上,备受关注的大模型公司智谱 AI 公布了一系列行业落地数字:
机器之心
2024/06/17
1.2K0
GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身的硬实力。
汀丶人工智能
2023/11/22
4680
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上(含 Mind2Web,AITW 等),大幅超过基于 LLM 的 Agent,取得第一。
深度学习与Python
2024/01/04
7040
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
<!-- CogVLM is powerful for answering various types of visual questions, including **Detailed Description & Visual Question Answering**, **Complex Counting**, **Visual Math Problem Solving**, **OCR-Free Reasonging**, **OCR-Free Visual Question Answering**, **World Knowledge**, **Referring Expression Comprehension**, **Programming with Visual Input**, **Grounding with Caption**, **Grounding Visual Question Answering**, etc. -->
汀丶人工智能
2023/11/21
5540
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
3 月 9 日央视的一档节目上,百度创始人、董事长兼 CEO 李彦宏指出,以后不会存在「程序员」这种职业了,因为只要会说话,人人都会具备程序员的能力。「未来的编程语言只会剩下两种,一种叫做英文,一种叫做中文。」
机器之心
2024/03/18
1200
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
从 ChatGPT 到 Sora,生成式 AI 技术遵从《苦涩的教训》、Scaling Law 和 Emerging properties 的预言一路走来,让我们已经看到了 AGI 的冰山一角,但技术的发展的方向还不尽于此。
机器之心
2024/04/13
2270
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
【AI大模型】从零开始运用LORA微调ChatGLM3-6B大模型并私有数据训练
安装Git(如果尚未安装): 确保你的系统上已经安装了Git。可以通过运行以下命令来安装Git:
大数据小禅
2024/05/25
2.9K1
【AI大模型】从零开始运用LORA微调ChatGLM3-6B大模型并私有数据训练
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
图神经网络(GNNs)擅长利用图的结构信息进行推理,但它们通常需要特定于领域的调优才能达到峰值性能,这阻碍了它们在不同任务之间的泛化性。
新智元
2024/03/05
2690
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
那些年踩过的坑!大型语言模型(LLM) Fine-Tuning 经验之谈...(干货)
由于 ChatGPT 和 GPT4 兴起,如何让人人都用上这种大模型,是目前 AI 领域最活跃的事情。当下开源的 LLM(Large language model)非常多,可谓是百模大战。面对诸多开源本地模型,根据自己的需求,选择适合自己的基座模型和参数量很重要。选择完后需要对训练数据进行预处理,往往这一步就难住很多同学,无从下手,更别说 training。
ShuYini
2023/10/27
1.7K0
那些年踩过的坑!大型语言模型(LLM) Fine-Tuning 经验之谈...(干货)
跟大厂拼价格到底!智谱 AI 宣布模型全面降价,刘慈欣、AI 老罗线上“整活儿
“大模型的 Scaling Law 并未失效,AI 技术的增长进入了一个全新的阶段。也就是说大模型技术的创新依旧是突飞猛进的进行时,甚至还有速度越来越快的迹象。”智谱 AI CEO 张鹏在 6 月 5 日的 Open Day 上说道。
深度学习与Python
2024/06/17
2330
跟大厂拼价格到底!智谱 AI 宣布模型全面降价,刘慈欣、AI 老罗线上“整活儿
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。
新智元
2024/06/27
2660
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
9月20日,上海人工智能实验室(上海AI实验室)与商汤科技联合香港中文大学和复旦大学,正式开源了200亿参数的InternLM-20B模型。
新智元
2023/09/22
5190
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
每周AI论文速递(240826-240830)
视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上尚未形成共识。本文旨在作为构建 VLM 的实践指南。我们首先概述了当前最先进方法的优缺点,探讨了领域内主要挑战,并指出了未充分探索领域的潜在研究方向。随后,我们详细阐述了构建 Idefics3-8B 的过程,该模型在性能上大幅领先于前代 Idefics2-8B,且高效地仅利用开放数据集进行训练,流程简洁明了。这一过程中,我们创建了 Docmatix 数据集,旨在增强文档理解能力,其规模达到了先前数据集的 240 倍。我们同时发布了该模型及其训练所用的数据集。
叶子的技术碎碎念
2025/04/08
1300
每周AI论文速递(240826-240830)
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
上个月,Meta FAIR 田渊栋参与的一项研究广受好评,他们在论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型,主打在移动设备上运行 LLM。
机器之心
2024/03/18
1.4K0
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
推荐阅读
挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩
3900
LLM 大模型学习必知必会系列(一):大模型基础知识篇
3.3K0
清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了
1.4K0
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完
3.5K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3.2K0
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
1.3K0
GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级
1.2K0
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
4680
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
7040
激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
5540
前端不存在了?盲测64%的人更喜欢GPT-4V的设计,杨笛一等团队新作
1200
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
2270
【AI大模型】从零开始运用LORA微调ChatGLM3-6B大模型并私有数据训练
2.9K1
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
2690
那些年踩过的坑!大型语言模型(LLM) Fine-Tuning 经验之谈...(干货)
1.7K0
跟大厂拼价格到底!智谱 AI 宣布模型全面降价,刘慈欣、AI 老罗线上“整活儿
2330
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
2660
20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了
5190
每周AI论文速递(240826-240830)
1300
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
1.4K0
相关推荐
挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档