多模态 MiniGPT4 正式开源了！

文章来源：企鹅号 - 互联网大世界

火爆的 ChatGPT！还记得 GPT-4 发布的时候根据图片生成网站的功能吗？

就是下面这个视频！

GPT4 根据一个图片，然后立马生成网站的 HTML 代码

当时大家的第一感觉是震撼，这也太强了吧！可惜 OpenAI 直到现在还没公开这个功能！！不过最近有个同样技术的项目它开源了！！地址

https://github.com/Vision-CAIR/MiniGPT-4

项目说明

MiniGPT-4 是一个很酷的开源项目,它能让计算机更好地理解图片和文字!

MiniGPT-4 通过训练一个超大的语言模型 Vicuna 和一个视觉编码器 BLIP-2,使得两者可以互相“通话”。这样,计算机就能同时理解图片和文字了,也能生成两者,这听起来像科幻电影里的人工智能啊!

MiniGPT-4 的训练分两步:

第一步用大量的图片和文字数据进行预训练

第二步用小量优质的数据进一步调优。经过第一步,语言模型就能理解视觉特征了

第三步使其能更流畅地描述图片,也更容易使用

MiniGPT-4 展示了许多酷炫的视觉语言技能,就像 OpenAI 在 GPT-4 发布会上展示的那些。

作者提供了一个线上的 DEMO

https://minigpt-4.github.io/

MiniGPT-4 为研究和应用多模态人工智能开拓了新道路,具有很高的研究价值

部署方式

要玩转 MiniGPT-4, 首先要准备 Python 环境和下载 Vicuna 的预训练模型。

然后下载 MiniGPT-4 的预训练检查点,或者自己训练一个

我们可以在本地部署一个，首先准备好 Python 环境，这个没啥好说的

准备预训练的 Vicuna 权重,下载 Vicuna-13B 的模型参数,已经开源提供

准备预训练的 MiniGPT-4 checkpoint.

然后，在第 11 行的 eval_configs/minigpt4_eval.yaml 中的评估配置文件中设置预训练检查点的路径

运行项目：

以上就是 MiniGPT-4 项目的部署步骤。

主要需要准备环境、下载预训练模型与数据集、训练模型、评估模型效果等。

由于项目开源, 数据集和预训练模型也都可以公开获取, 大家可以动手实践起来哦！

如果你想了解更多关于 ChatGPT 有趣的项目和玩法，欢迎点击下面的链接，加入我们的社群一起交流探讨

每个进群的人，都会收到我们赠送的独享 ChatGPT 账号，以及 AI 绘画的教程！！

chatGPT 每个人都应该掌握的技能

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货