火爆的 ChatGPT!还记得 GPT-4 发布的时候根据图片生成网站的功能吗?
就是下面这个视频!
GPT4 根据一个图片,然后立马生成网站的 HTML 代码
当时大家的第一感觉是震撼,这也太强了吧!可惜 OpenAI 直到现在还没公开这个功能!!不过最近有个同样技术的项目它开源了!!地址
https://github.com/Vision-CAIR/MiniGPT-4
项目说明
MiniGPT-4 是一个很酷的开源项目,它能让计算机更好地理解图片和文字!
MiniGPT-4 通过训练一个超大的语言模型 Vicuna 和一个视觉编码器 BLIP-2,使得两者可以互相“通话”。这样,计算机就能同时理解图片和文字了,也能生成两者,这听起来像科幻电影里的人工智能啊!
MiniGPT-4 的训练分两步:
第一步用大量的图片和文字数据进行预训练
第二步用小量优质的数据进一步调优。经过第一步,语言模型就能理解视觉特征了
第三步使其能更流畅地描述图片,也更容易使用
MiniGPT-4 展示了许多酷炫的视觉语言技能,就像 OpenAI 在 GPT-4 发布会上展示的那些。
作者提供了一个线上的 DEMO
https://minigpt-4.github.io/
MiniGPT-4 为研究和应用多模态人工智能开拓了新道路,具有很高的研究价值
部署方式
要玩转 MiniGPT-4, 首先要准备 Python 环境和下载 Vicuna 的预训练模型。
然后下载 MiniGPT-4 的预训练检查点,或者自己训练一个
我们可以在本地部署一个,首先准备好 Python 环境,这个没啥好说的
准备预训练的 Vicuna 权重,下载 Vicuna-13B 的模型参数,已经开源提供
准备预训练的 MiniGPT-4 checkpoint.
然后,在第 11 行的 eval_configs/minigpt4_eval.yaml 中的评估配置文件中设置预训练检查点的路径
运行项目:
以上就是 MiniGPT-4 项目的部署步骤。
主要需要准备环境、下载预训练模型与数据集、训练模型、评估模型效果等。
由于项目开源, 数据集和预训练模型也都可以公开获取, 大家可以动手实践起来哦!
如果你想了解更多关于 ChatGPT 有趣的项目和玩法,欢迎点击下面的链接,加入我们的社群一起交流探讨
每个进群的人,都会收到我们赠送的独享 ChatGPT 账号,以及 AI 绘画的教程!!
chatGPT 每个人都应该掌握的技能
领取专属 10元无门槛券
私享最新 技术干货