前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI绘画专栏之 SDXL 4G显存就能跑SDXL ?SD1.7或将对F8优化merge(46)

AI绘画专栏之 SDXL 4G显存就能跑SDXL ?SD1.7或将对F8优化merge(46)

原创
作者头像
疯狂的KK
发布于 2023-11-26 01:30:12
发布于 2023-11-26 01:30:12
2.7K00
代码可运行
举报
文章被收录于专栏:Java项目实战Java项目实战
运行总次数:0
代码可运行

关于SDXL的生态目前还未完全稳定,但是不得不提到的就是SDXL的在VAE,CLIP,UNET三大组件的巨大提升,其101亿的参数量是原本SD的N倍,那么对于SDXL的生态介绍我们再次重复一遍。4G的显存都能跑SDXL意味着将来大模型Lora将降低其大小,炼丹炉压力更小~

SDXL为什么强?

0.1参数训练量为101亿 其中BASE模型35 亿 加REFINER模型66亿  SD的8倍???

0.2对Stable Diffusion原先的U-Net(XL Base U-Net 一共14个模块),VAE,CLIP Text Encoder三大件都做了改进。可以明显减少显存占用和计算量

0.3增加一个单独的基于Latent(潜在)的Refiner(炼制)模型,来提升图像的精细化程度。【新增:对Base模型生成的图像Latent特征进行精细化,其本质上是在做图生图的工作。】

0.4设计了很多训练Tricks(技巧)(这些Tricks都有很好的通用性和迁移性,能普惠其他的生成式模型),包括图像尺寸条件化策略,图像裁剪参数条件化以及多尺度训练等。

0.5先发布Stable Diffusion XL 0.9测试版本,基于用户使用体验和生成图片的情况,针对性增加数据集和使用RLHF技术优化迭代推出Stable Diffusion XL 1.0正式版。

0.6采样方法禁用DDIM (保留意见、非绝对),不需要开启CN,随着CN的支持,可以开启CN的XL版本。所有的环境需要都是XL的生态

0.7直接出1024分辨率图片   1024 * 1024  起步

    随之而来的就是对大显存的占用,但随着新的PR的提出,或将在4G的测试显存,并在一定的内存占用上解决!!!

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
A big improvement for dtype casting system with fp8 storage type and manual cast

一个很大的提升对于FP8的内存和手动转换

在 pytorch 2.1.0 之后,pytorch 添加了 2 个新的 dtype 作为存储类型:float8_e5m2、float8_e4m3fn。[1][2] 基于讨论使用 fp8 作为训练/使用 NN 模型的参数/梯度的论文。我认为值得对 fp8 格式进行一些优化。[3][4] 此外,一些扩展也已经支持这个功能[5]

速度提升

由于将 FP8 与 FP16 一起使用,因此计算需要一些额外的操作来强制转换 dtype。 它会降低速度(特别是对于较小的批量)

批量大小

768x768 标清1.x fp16

768x768 标清1.x fp8

1024x1024 SDXL fp16

1024x1024 SDXL fp8

1

8.27 秒/秒

7.85 秒/秒

3.84 秒/秒

3.67 秒/秒

4

3.19 秒/秒

3.08 秒/秒

1.51 秒/秒

1.45 秒/秒

会降低质量吗?几乎不会

什么是FP8  FP16?

Fp16:意味模型用16位浮点数存,相对于Fp32更小更快,但是无法用于CPU,因为有的半浮点精度运算在CPU上不支持。通常为了更快的运算,在GPU上我们也会将Fp32转换成Fp16,这个可以在设置里配置。那么随之而来的一个params是8个byte(字节),FP32就是4个byte,FP8就是一个Byte,FP或者BF16相对已经是比较好的出图质量了。

以下测试结果来自原PR作者琥珀青叶,如果你想要尝试,在源码中切换此PR即可

首先SD1的时候FP16存下来是2G,SDXL因为参数变多了FP16也要5G,这样很多显卡就hold不住了。 所以青叶做了个事情,就是load的时候用FP8放在显存里,这样SDXL存在显存是2.5G。但是在每一层运算的时候把对应的FP8转到FP16,所以整个计算流程看起来是是一致的。同时整个流程的显存占用也下来的。

正常启动测试

开启FP8并开启内存缓存优化

XYZ测试关闭前后对比

起初的静态内存占用为5.3

运行后稳定在6.4左右

开启前后对图片直连影响很小,有细微细节差距

搭配LCM测试

当前所有的PR审核已经通过,或将在测试后在1.7进行升级推出正式版本

我正在参与2023腾讯技术创作特训营第三期有奖征文,组队打卡瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
重大更新!!!4G显存就能跑SDXL ?SD1.7或将对F8优化merge
关于SDXL的生态目前还未完全稳定,但是不得不提到的就是SDXL的在VAE,CLIP,UNET三大组件的巨大提升,其101亿的参数量是原本SD的N倍,那么对于SDXL的生态介绍我们再次重复一遍。4G的显存都能跑SDXL意味着将来大模型Lora将降低其大小,炼丹炉压力更小~
疯狂的KK
2023/11/27
3.9K0
重大更新!!!4G显存就能跑SDXL ?SD1.7或将对F8优化merge
AI绘画专栏之statble diffusion SDXL 1.0 (五)
稳定扩散(Stable Diffusion)是一种用于图像生成的人工智能模型,它基于扩散过程。扩散过程是指,将一个图像经过多次迭代,逐渐变得模糊、扩散的过程。在这个过程中,图像的细节信息会逐渐消失,只保留下整体的结构信息。稳定扩散这个名字来源于这个过程的稳定性,即在扩散过程中,模型能够学习到图像的稳定特征,从而生成具有较高质量的图像。
疯狂的KK
2023/11/09
7590
AI绘画专栏之statble diffusion  SDXL 1.0 (五)
AI绘画专栏stablediffusion重大更新介绍SDXL Turbo:一种实时文本到图像生成模型(51)
SD目前最大的问题还是显存占用问题,特别是个别视频插件,包括最近出的Stability videoAI,更是将显存占到了极致,再加上4090的禁售,这对硬件玩家很不友好,那么对此我总结了市面上最具性价比的6种解决方式,让你在Tensor RT的基础上利用LCM再搭配FO,将你的硬件利用率拉满的同时体验SDXL!!!
疯狂的KK
2023/11/29
1.1K0
AI绘画专栏stablediffusion重大更新介绍SDXL Turbo:一种实时文本到图像生成模型(51)
AI绘画SDXL实用笔记
1 ControlNet SDXL1.0模型https://pan.quark.cn/s/8bff6e05dc96
疯狂的KK
2023/10/11
8700
AI绘画SDXL实用笔记
SD Controlnet模型终于全了 tile来了
以前一直在直播中吐槽说不建议大家用SDXL生态,即便已经出来了Turbo,即便出了SDXLLighting等等周边但是我们最最喜欢用的controlnet还是补全,即便是现在也不算完全意义的全,但是最起码我们今天呢能够带来第一个期待已久的tile模型,和隐藏款的QRmonsterXL(小声使用,别人还不知道)。为什么不介绍1.9更新?并没有大的改动
疯狂的KK
2024/04/18
1.8K0
SD Controlnet模型终于全了 tile来了
使用 Docker 快速上手 Stability AI 的 SDXL 1.0 正式版
本篇文章,我们聊聊如何使用 Docker 来本地部署使用 Stability AI 刚刚推出的 SDXL 1.0,新一代的开源图片生成模型,以及在当前如何高效的使用显卡进行推理。
soulteary
2023/09/04
8410
使用 Docker 快速上手 Stability AI 的 SDXL 1.0 正式版
使用 Docker 快速上手 Stability AI 的 SDXL 1.0 正式版
本篇文章,我们聊聊如何使用 Docker 来本地部署使用 Stability AI 刚刚推出的 SDXL 1.0,新一代的开源图片生成模型,以及在当前如何高效的使用显卡进行推理。
soulteary
2023/07/29
1K1
【人工智能】Transformers之Pipeline(八):文生图/图生图(text-to-image/image-to-image)
pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理(NLP)、多模态(Multimodal)等4大类,28小类任务(tasks)。共计覆盖32万个模型
LDG_AGI
2024/08/13
5300
【人工智能】Transformers之Pipeline(八):文生图/图生图(text-to-image/image-to-image)
使用Dreambooth LoRA微调SDXL 0.9
本文将介绍如何通过LoRA对Stable Diffusion XL 0.9进行Dreambooth微调。DreamBooth是一种仅使用几张图像(大约3-5张)来个性化文本到图像模型的方法。
deephub
2023/08/30
9430
使用Dreambooth LoRA微调SDXL 0.9
AI绘画专栏之statble diffusion SDXL 1.0 换脸roop easyphoto (24)
支持使用SDXL模型和一定的选项直接生成高清大图,不再需要上传模板,需要16GB显存
疯狂的KK
2023/11/15
3.3K0
AI绘画专栏之statble diffusion SDXL 1.0 换脸roop easyphoto (24)
AI绘画专栏之 SDXL Fooocus!让SD跟Midjourney一样简单易用!(37)
以下是在具有16GB系统RAM和6GB VRAM(Nvidia 3060笔记本电脑)的相对低端笔记本电脑上的测试。这台机器上的速度约为每次迭代 1.35 秒。令人印象深刻 - 如今,配备3060的笔记本电脑通常价格非常可以接受。
疯狂的KK
2023/11/18
1.2K0
AI绘画专栏之 SDXL Fooocus!让SD跟Midjourney一样简单易用!(37)
Stable Diffusion 硬核生存指南:WebUI 中的 VAE
本篇文章聊聊 Stable Diffusion 生态中呼声最高、也是最复杂的开源模型管理图形界面 “stable-diffusion-webui” 中和 VAE 相关的事情。
soulteary
2023/09/04
1.6K0
Stable Diffusion 硬核生存指南:WebUI 中的 VAE
Stable Diffusion XL1.0正式发布了,赶紧来尝鲜吧
之前使用AIGC生成图片,一般都是生成512*512的图,然后再进行放大,以达到高清出图的要求。但是这里有个问题是底模其实都是海量的512*512图片训练出来的,所以出图效果上经常不如人意,在细节上会差一些。这次SDXL1.0直接使用1024*1024的海量图片训练底模,而且分为了文生图用的base模型和图生图进行优化和放大的refiner模型,从而在开源免费的文生图软件上实现了不输于Midjourney的出图效果。
深蓝studyzy
2023/08/01
4.8K0
Stable Diffusion 硬核生存指南:WebUI 中的 VAE
本篇文章聊聊 Stable Diffusion 生态中呼声最高、也是最复杂的开源模型管理图形界面 “stable-diffusion-webui” 中和 VAE 相关的事情。
soulteary
2023/07/30
1.3K0
AI绘画专栏之HAI起来~Stablediffusion|文生视频|Controlnet|SDXL|Comfyui插件
Sora、StableForge、StableCasecade、Stable3.0、SDXLLighting、PlaygroundV2.5,Stable webui1.8等
疯狂的KK
2024/03/12
3.4K1
AI绘画专栏之HAI起来~Stablediffusion|文生视频|Controlnet|SDXL|Comfyui插件
AI绘画专栏stablediffusion重大更新介绍 LCM实现5秒钟出图(51)
我们提出了潜在一致性模型(LCM)来克服缓慢的迭代 潜在扩散模型 (LDM) 的采样过程,以最少的步骤实现快速推理 在任何预训练的 LDM(例如 Stable Diffusion)上。
疯狂的KK
2023/11/30
1.2K0
AI绘画专栏stablediffusion重大更新介绍 LCM实现5秒钟出图(51)
【腾讯云AI绘画】吊打SDXL最强模型Playground v2 它在生成效果上比SDXL强2.5倍
Playground v2和SDXL的架构和模型参数都是相同的,都是采用两个text encoder:OpenCLIP-ViT/G和CLIP-ViT/L。你可以直接使用diffusers库来使用
疯狂的KK
2023/12/07
4.3K0
【腾讯云AI绘画】吊打SDXL最强模型Playground v2 它在生成效果上比SDXL强2.5倍
Stable Diffusion XL Turbo 文生图和图生图实践
本篇文章聊聊,如何快速上手 Stable Diffusion XL Turbo 模型的文生图和图生图实战。
soulteary
2024/01/15
7790
Stable Diffusion XL Turbo 文生图和图生图实践
Stable Diffusion XL Turbo 文生图和图生图实践
本篇文章聊聊,如何快速上手 Stable Diffusion XL Turbo 模型的文生图和图生图实战。
soulteary
2024/01/13
1.1K0
Stable Diffusion XL Turbo 文生图和图生图实践
SDXL 1.0 介绍和优缺点总结
2023年7月26日:Stability. AI 发布SDXL 1.0,这是对其生成模型的又一次重大更新,带来了突破性的变化。
deephub
2023/08/30
7720
SDXL 1.0 介绍和优缺点总结
推荐阅读
相关推荐
重大更新!!!4G显存就能跑SDXL ?SD1.7或将对F8优化merge
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验