前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GPT-4平替来了!华人团队开源miniGPT-4,只需23G显存,画草稿写网站,还能帮你修洗衣机

GPT-4平替来了!华人团队开源miniGPT-4,只需23G显存,画草稿写网站,还能帮你修洗衣机

作者头像
新智元
发布于 2023-05-09 04:51:10
发布于 2023-05-09 04:51:10
73200
代码可运行
举报
文章被收录于专栏:新智元新智元
运行总次数:0
代码可运行


新智元报道  

编辑:LRS

【新智元导读】技术爆发的时代,一切都得拼手速!

先是ChatGPT的发布给世界带来了一点小小的NLP震撼,随后发布的GPT-4更是破圈计算机视觉,展现了非凡的多模态能力。

不光能读懂人类的梗,给个手绘草图甚至可以直接写出网站的代码,彻底颠覆了对语言模型、视觉模型能力边界的认知。

GPT-4:图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。

不过像GPT-4这么好的模型,CloseAI选择闭源,让广大AI从业者实在是又爱又恨。

最近,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队开源了GPT-4的平民版MiniGPT-4,从效果上看已经基本具备GPT-4所展现出的多个功能,包括手写网页示意图生成代码、解读图像中的梗等。

论文链接:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

项目链接:https://minigpt-4.github.io/

代码链接:https://github.com/Vision-CAIR/MiniGPT-4

想要本地部署,一行代码即可搞定!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

默认加载选项为8bit Vicuna模型以节省GPU内存,beam search的宽度为1,大约需要23G显存。

为了实现有效的MiniGPT-4,研究人员提出了一个两阶段的训练方法,先在大量对齐的图像-文本对上对模型进行预训练以获得视觉语言知识,然后用一个较小但高质量的图像-文本数据集和一个设计好的对话模板对预训练的模型进行微调,以提高模型生成的可靠性和可用性。

文中的研究结果表明,MiniGPT-4具有许多与 GPT-4类似的能力,如通过手写草稿生成详细的图像描述和创建网站;还可以观察到 MiniGPT-4的其他新功能,包括根据给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片烹饪等。

论文作者朱德尧来自泉州,目前是阿卜杜拉国王科技大学(KAUST)的博士生,主要研究方向包括多模态大语言模型、预测模型和强化学习

论文共同一作Jun Chen目前是阿卜杜拉国王科技大学 Vision-CAIR 研究小组的博士生,主要研究方向为多模态学习、自监督学习和大规模预训练模型。

MiniGPT-4模型架构

研究人员认为,「GPT-4强大的多模态生成能力主要来自于更强的语言模型」。

为了验证这点,研究人员选择固定住语言模型和视觉模型的参数,然后只用投影层将二者对齐:MiniGPT-4的语言解码器使用Vicuna(基于LLaMA构建),视觉感知部分使用与BLIP-2相同的视觉编码器。

1. 预训练阶段

为了从大量对齐的图像-文本对中获取视觉-语言知识,研究人员把注入投影层的输出看作是对语言模型的软提示(soft prompt),促使它生成相应的ground-truth文本;并且预训练的视觉编码器和视觉编码器在预训练阶段始终保持参数不变,只训练线性投影层。

训练数据集包括Conceptual Caption, SBU和LAION,使用4张A100(共80GB显存) GPU以256的batch size训练了20000步,覆盖了大约500万个图像-文本对。

虽然在预训练后,MiniGPT-4已经展现了丰富的知识,并能够对人类的query提供合理的回复。

不过还是可以观察到MiniGPT-4仍然很难生成连贯的语言输出,比如经常会生成重复的词或句子、零散的句子或不相关的内容,这些问题也阻碍了MiniGPT-4与人类进行流畅的视觉对话的能力。

还可以注意到GPT-3也存在类似的问题:即便在大量的语言数据集上进行了预训练,GPT-3还是不能直接生成符合用户意图的语言输出;但通过指令微调和从人类反馈中进行强化学习的过程后,GPT-3就成功蜕变为了GPT-3.5,并能够生成对人类更友好的输出。

所以只对MiniGPT-4进行预训练是不够的。

2. 高质量的视觉-语言对齐数据集

虽然在自然语言处理领域,指令微调数据集和对话相关数据集很容易获得,但对于视觉语言领域来说,并不存在对应的数据集,所以为了让MiniGPT-4在生成文本时更自然、更有用,还需要设计一个高质量的、对齐的图像-文本数据集。

在初始阶段,使用预训练后得到的模型来生成对给定图像的描述,为了使模型能够生成更详细的图像描述,研究人员还设计了一个符合Vicuna语言模型的对话格式的提示符。

###Human: <Img><ImageFeature></Img> Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

其中<ImageFeature>表示线性投影层生成的视觉特征,如果生成的描述不足80个tokens,就添加额外的提示符「#Human:Continue#Assistant:」继续生成。

最后从Conceptual Caption中随机选择了5000幅图像,并生成对应的描述。

数据后处理

目前生成的图像描述仍然包含许多噪音和错误,如重复的单词、不连贯的句子等,研究人员使用ChatGPT来完善描述。

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

修正给定段落中的错误。删除重复的句子、无意义的字符、不是英语的句子等等。删除不必要的重复。重写不完整的句子。直接返回结果,无需解释。如果输入的段落已经正确,则直接返回,无需解释。

最后为了保证数据质量,手动验证每个图像描述的正确性,并得到了3500个图像-文本对。

3. 微调阶段

研究人员使用预定义的模板提示来优化预训练模型。

###Human: <Img><ImageFeature></Img> <Instruction> ###Assistant

其中<Instruction>表示从预定义指令集中随机抽样的指令,包含各种形式的指令,例如「详细描述此图像」或「您能为我描述此图像的内容吗」等。

需要注意的是,微调阶段没有计算特定文本-图像提示的回归损失,所以可以生成更自然、可靠的回复。

MiniGPT-4的微调过程非常高效,batch size为12的话,只需要400个训练步,使用单个A100 GPU训练7分钟即可。

示例

MiniGPT-4表现出了与GPT-4类似的多模态能力。

给一张图片,可以让模型生成非常详细的图像描述。

识别图像中的梗,比如解释「一到周一,人就像图里的小狗一样,一周中最令人恐惧的一天」。

还可以发现图像中不寻常的内容,比如「狼和小羊在同一片草地」。

还可以根据手绘图生成一个网站的代码。

MiniGPT-4还可以识别图像中的问题并提供解决方案,比如「洗衣机冒出了大量泡泡」是因为过载等原因,可以检查洗衣液是不是放多了、清理一下排水管或是看看洗衣机是不是坏了。

创作以图像为主题的诗歌或说唱歌曲。

编写图像背后的故事。

为图像中的产品写广告词。

甚至还可以知道换头表情包里的人是Tesla和Space X的CEO马斯克。

提供一些有深度的图像评论。

检索与图像相关的事实,比如给个《教父》的截图就可以让模型检索到对应的电影信息。

甚至给个食物的照片,可以让模型输出一份菜谱。

更多强大的功能等你解锁!

参考资料:

https://minigpt-4.github.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站
机器之心报道 机器之心编辑部 GPT-4 已经发布一个多月了,但识图功能还是体验不了。来自阿卜杜拉国王科技大学的研究者推出了类似产品 ——MiniGPT-4,大家可以上手体验了。 对人类来说,理解一张图的信息,不过是一件微不足道的小事,人类几乎不用思考,就能随口说出图片的含义。就像下图,手机插入的充电器多少有点不合适。人类一眼就能看出问题所在,但对 AI 来说,难度还是非常大的。 GPT-4 的出现,开始让这些问题变得简单,它能很快的指出图中问题所在:VGA 线充 iPhone。 其实 GPT-4 的魅力
机器之心
2023/04/21
6610
3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站
MiniGPT-4 ,开源了!
在这段时间,有不少人拿到了 GPT-4 API 权限,开通了 ChatGPT Plus,提前体验了 GPT-4 的能力。
GitHubDaily
2023/04/27
5280
MiniGPT-4 ,开源了!
MiniGPT-4:使用先进的大型语言模型提升视觉语言理解
为上一篇介绍MiniGPT-4的文章,在ChatGPT兴起的当下,涌现了一大批围绕着ChatGPT建立的应用项目,通过文章的方式把这些进行一个分类梳理。顺便给关注AI的同学科普一下。
山行AI
2023/06/14
5890
MiniGPT-4:使用先进的大型语言模型提升视觉语言理解
MiniGPT-4:看图聊天、教学、创作、搭网站......还开源了
大数据为文摘转载自学术头条 一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等。 尽管目前 OpenAI 暂未对 GPT-4 用户开放这一能力,但具有多模态能力的视觉语言模型令人充满了想象力。 近日,来自阿卜杜拉国王科技大学的研究团队,便提出了一个具有类似 GPT-4 图像理解与对话能力的 AI 大模型——MiniGPT-4,并将其开源 。 据介绍,MiniGPT-4 具有出色的多模态能力,如从手
大数据文摘
2023/04/21
5980
MiniGPT-4:看图聊天、教学、创作、搭网站......还开源了
华人团队迷你GPT-4抢跑看图聊天:OpenAI有的它都有,服务器已被挤爆
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4识图功能迟迟不开放,终于有人忍不住自己动手做了一个。 MiniGPT-4来了,Demo开放在线可玩。 传一张海鲜大餐照片上去,就能直接获得菜谱。 传一张商品效果图,就可以让AI写一篇带货文案。 手绘一个网页,可以给出对应的HTML代码 除了生产力拉满,也支持根据常识推理图上内容是否合理、解释表情包为什么好笑,以及看截图找电影等娱乐玩法。 可以说,GPT-4发布时展示过的功能,MiniGPT-4基本也都有了。 这下网友直接把Demo服务
量子位
2023/05/06
1940
华人团队迷你GPT-4抢跑看图聊天:OpenAI有的它都有,服务器已被挤爆
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
---- 新智元报道   编辑:桃子 拉燕 【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。 GPT-4看图聊天还没上线,就已经被超越了。 近来,华人团队开源了多模态基础模型InstructBLIP,是从BLIP2模型微调而来的模型。 BLIP家族中增加了一个新成员:InstructBLIP 据介绍,InstructBLIP模型更擅长「看」、「推理」和「说」,即能够对复杂图像进行理解、推理、描述,还支持多轮对话等。 比如
新智元
2023/05/15
5620
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
几个月前,来自 KAUST(沙特阿卜杜拉国王科技大学)的几位研究者提出了一个名为 MiniGPT-4 的项目,它能提供类似 GPT-4 的图像理解与对话能力。
机器之心
2023/10/24
9590
MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
3000多条数据里选出200条效果反而更好,MiniGPT-4被配置相同的模型超越了
在生成细节丰富和精确的图像描述方面,GPT-4 已经展现出了强大超凡的能力,其标志着一个语言和视觉处理新时代的到来。
机器之心
2023/09/08
2510
3000多条数据里选出200条效果反而更好,MiniGPT-4被配置相同的模型超越了
GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞
自3月发布以来,Vicuna已成为最受欢迎的聊天LLM之一。它在多模态、AI安全和评估方面的研究具有开创性。
新智元
2023/09/09
5810
GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
机器之心报道 编辑:赵阳 尽管 LLaVA 是用一个小的多模态指令数据集训练的,但它在一些示例上展示了与多模态模型 GPT-4 非常相似的推理结果。 GPT-4 的识图能力什么时候能上线呢?这个问题目前依然没有答案。 但研究社区已经等不及了,纷纷自己上手 DIY,其中最火的是一个名为 MiniGPT-4 的项目。MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供
机器之心
2023/05/01
2680
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
介绍两个好玩的AI开源项目:MiniGPT-4和AnimatedDrawings
MiniGPT-4支持图片输入,对图片做做描述。MiniGPT-4是一个具有图像理解能力的开源聊天机器人,基于+Vicuna-13B+LLM+和+BLIP-2视觉语言模型。
纯情
2023/04/26
9070
介绍两个好玩的AI开源项目:MiniGPT-4和AnimatedDrawings
7 Papers & Radios | MiniGPT-4看图聊天、还能草图建网站;视频版Stable Diffusion来了
机器之心 & ArXiv Weekly  参与:楚航、罗若天、梅洪源 本周论文包括慕尼黑大学、英伟达等机构的研究者利用潜在扩散模型(latent diffusion model, LDM)实现了高分辨率的长视频合成;MiniGPT-4 发布,能看图聊天、还能草图建网站。 目录 Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models  MiniGPT-4:Enhancing Vision-language
机器之心
2023/05/01
3950
7 Papers & Radios | MiniGPT-4看图聊天、还能草图建网站;视频版Stable Diffusion来了
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
论文: MultiModal-GPT: A Vision and Language Model for Dialogue with Humans 代码: https://github.com/open-mmlab/Multimodal-GPT (包含代码、数据、demo) 作者:OpenMMLab
zenRRan
2023/08/22
5610
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
MiniGPT4,开源了。
ChatGPT 的对话能力,想必大家也早已体验过了,无论是文本生成能力,还是写代码的能力,甚至是上下文的关联对话能力,无不一次又一次地震撼着我们。
Jack_Cui
2023/04/28
7340
MiniGPT4,开源了。
手把手教学!部署MiniGPT4模型
这里推荐一篇实用的文章:https://cloud.tencent.com/developer/article/2467267?shareByChannel=link
算法一只狗
2024/11/24
2610
手把手教学!部署MiniGPT4模型
Less is More! 上交清源 && 里海 | 利用200条数据微调模型,怒超MiniGPT-4!
对于大型语言模型的微调对齐,并不是说微调数据越多越好。这一结论在Zhou等人发表的关于LIMA的论文中指出,他们选择750条数据集对LLaMA-65B进行微调得到LIMA模型,其性能非常好,甚至接近 GPT-4 和 Claude2 等最先进的专有模型的性能。对此不了解的小伙伴可以看一下我上篇文章 质量>数量!数据对大型语言模型(LLM)整个生命周期的影响!但是,Zhou等人的数据集都是通过人工严格删选的,并没有给出如何选择高质量数据集的指导方针。
ShuYini
2023/09/02
7660
Less is More! 上交清源 && 里海 | 利用200条数据微调模型,怒超MiniGPT-4!
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。
机器之心
2024/02/06
4610
多模态LLM多到看不过来?先看这26个SOTA模型吧
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。此外,它还在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。
机器之心
2024/01/04
4310
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了
大模型正在实现语言和视觉的跨越,有望无缝地理解和生成文本和图像内容。在最近的一系列研究中,多模态特征集成不仅是一种不断发展的趋势,而且已经带来了从多模态对话到内容创建工具等关键进步。大型语言模型在文本理解和生成方面已经展现出无与伦比的能力。然而,同时生成具有连贯文本叙述的图像仍然是一个有待发展的领域。
机器之心
2023/10/10
4860
统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了
​浅析多模态大模型的前世今生
前段时间 ChatGPT 进行了一轮重大更新:多模态上线,能说话,会看图!微软发了一篇长达 166 页的 GPT-4V 测评论文,一时间又带起了一阵多模态的热议,随后像是 LLaVA-1.5、CogVLM、MiniGPT-5 等研究工作紧随其后,到处刷屏。大模型的多模态能力到底是怎么来的?今天来分享一下多模态相关的一些工作和个人的理解。
腾讯技术工程官方号
2023/11/01
3.7K0
​浅析多模态大模型的前世今生
推荐阅读
3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站
6610
MiniGPT-4 ,开源了!
5280
MiniGPT-4:使用先进的大型语言模型提升视觉语言理解
5890
MiniGPT-4:看图聊天、教学、创作、搭网站......还开源了
5980
华人团队迷你GPT-4抢跑看图聊天:OpenAI有的它都有,服务器已被挤爆
1940
超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
5620
MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
9590
3000多条数据里选出200条效果反而更好,MiniGPT-4被配置相同的模型超越了
2510
GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞
5810
熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩
2680
介绍两个好玩的AI开源项目:MiniGPT-4和AnimatedDrawings
9070
7 Papers & Radios | MiniGPT-4看图聊天、还能草图建网站;视频版Stable Diffusion来了
3950
多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~
5610
MiniGPT4,开源了。
7340
手把手教学!部署MiniGPT4模型
2610
Less is More! 上交清源 && 里海 | 利用200条数据微调模型,怒超MiniGPT-4!
7660
多模态LLM多到看不过来?先看这26个SOTA模型吧
4610
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
4310
统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了
4860
​浅析多模态大模型的前世今生
3.7K0
相关推荐
3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档