前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >手把手教学!部署MiniGPT4模型

手把手教学!部署MiniGPT4模型

原创
作者头像
算法一只狗
发布2024-11-24 21:56:55
发布2024-11-24 21:56:55
18100
代码可运行
举报
文章被收录于专栏:算法一只狗算法一只狗
运行总次数:0
代码可运行

好事发生

这里推荐一篇实用的文章:https://cloud.tencent.com/developer/article/2467267?shareByChannel=link

《腾讯IMA:AI智能工作台的革命性创新》

这篇文章深入解析了IMA Copilot的功能和应用场景,并通过与OpenAI Canvas的对比,帮助读者更好地理解不同AI写作工具的特点。对于关注AI技术在内容创作领域应用的读者而言,本文提供了有价值的参考。


现在多模态大模型其实已经很多了,比如最著名的是OpenAI的GPT-4o模型,最主要的优势在于它是一个多模态模型。在输入图片的时候可以让GPT4理解图片的信息内容。

官网上给了很多具体的例子,像它能够理解图片的笑话:用一个VGA连接器去给手机充电

或者能知道整幅图的不寻常地方:

OpenAI花了 6 个月的时间,使用对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可控性和拒绝超出回答边界方面取得了有史以来最好的结果(尽管远非完美)。

但是差不多一个月过去了,OpenAI在官网中还没有开放GPT4模型图片理解的能力。但是最近,有个项目叫MiniGPT-4,号称图像理解能力和GPT4相似;而且已经开源起来,让用户可以真正拥有自己的GPT4模型

https://github.com/Vision-CAIR/MiniGPT-4

在MiniGPT-4模型中,你可以围绕一张图片和它进行对话:

从模型实现上来看,主要分为两步进行训练:

  • MiniGPT-4冻结一个视觉编码器和LLM
  • 在第一个阶段,使用100万个图像文本对进行训练。通过第一阶段后,模型能够有效理解图像,但是其生成能力变差
  • 第二个阶段则使用高质量的图像文本对数据集,共3500个进行微调,以显着提高其生成可靠性和整体可用性。这个阶段的计算效率很高,使用单个 A100 只需要大约7分钟。

在官网放出的例子中,它可以描述这张图片的内容:

或者可以给这张图定制一个广告语:

搭建教程

1.安装环境依赖

这个项目需要比较大的GPU显存,起码要有16G以上显存才能部署。

另一种方法是利用Google Colab进行部署,这个也需要你是 Google Colab Pro用户(说白了也是要花钱的)才能部署成功,下面是部署在Colab的代码:

https://colab.research.google.com/drive/1OK4kYsZphwt5DXchKkzMBjYF6jnkqh4R?usp=sharing

在本地上,首先需要安全GPU的驱动程序Cuda。到 https://developer.nvidia.com/cuda-toolkit 去下载

下载完成后,然后进行安装。

安装结束后会在这个文件夹下看到这些文件:

同时在命令行下输入 ncvv -V 命令会看到有输出,就说明安装成功了:

然后安装MiniGPT4的步骤执行,这里我没有利用官方的文件进行安装,因为那个文件安装之后有很多错误。因此我这里先新建了一个python==3.9的版本:

代码语言:javascript
代码运行次数:0
复制
conda env create minigpt4 python=3.9
conda activate minigpt4

然后接着安装pytorch,去到官网 https://pytorch.org/get-started/locally/ 下载对应的cuda版本的pytorch。比如你的cuda版本为11.7,而且是windows下的,可以这样选择:

然后把对应的命令放到命令行进行安装:

代码语言:javascript
代码运行次数:0
复制
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

最后检查一下是否成功,如果下面命令如果输出是True,则说明pytorch安装成功:

代码语言:javascript
代码运行次数:0
复制
import torch
torch.cuda.is_available()

然后安装依赖文件requirements.txt,这个文件是根据官方的environment.yml文件提取出来的:

代码语言:javascript
代码运行次数:0
复制
pip install -r requirements.txt

2.下载模型

可以到huggingface上获取对应的模型文件: https://huggingface.co/lmsys/vicuna-13b-delta-v0/tree/main

然后下载放到vicuna_weights文件夹下

下载checkpoint到项目目录下:

3.运行Demo程序

把对应的文件路径设置一下:

执行命令行代码:

等待一段时间就可以成功了:

好了,以上就是本期的全部内容了,我是leo,我们下期再见~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 搭建教程
    • 1.安装环境依赖
    • 2.下载模型
    • 3.运行Demo程序
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档