Stable Diffusion是2022年发布的深度学习文本到图像生成模型。
文本到图像生成模型是一种机器学习模型,一般以自然语言描述为输入,输出与该描述相匹配的图像。这种模型的开发始于2010年代中期,伴随深度神经网络技术的发展而进步。
在Github上由AUTOMATIC1111
维护了一个完整的项目,正在由全世界的开发者共同维护。由于完整版对网络有一些众所周知的需求,国内有多位开发者维护着一些不同版本的封装包。开源社区为SD的普及做出了难以磨灭的贡献。
原理详解推荐文章:
与Midjourny对比:
Stable diffusion
是一种非常常见的图像平滑算法,可以使图像变得更加平滑,同时保持边缘和细节。它基于偏微分方程,通过计算图像的梯度来控制图像中的信息流,从而减少噪声并平滑图像。与其他平滑算法相比,stable diffusion具有更好的平滑效果,不会破坏边缘和细节。
Midjourney
算法是一种基于双边滤波技术的去噪算法,它能够去除图像中的高频噪声并保留图像的细节和边缘,同时保持图像的平滑。这个算法通常会在图像处理的后期阶段应用,以进一步去除图像中的噪声并平滑图像。
功能 | Stable Diffusion | Midjourney |
---|---|---|
图片自定义程度 | 高 | 低 |
上手难度 | 难 | 中等 |
生成高质量图片的难度 | 低 | 中等 |
模型变种数目 | 1000个,什么风格都有 | 10个,插画,真实,艺术风格 |
输出方式 | 多 | 少 |
依赖于是否付费使用 | 否,免费 | 是,每月8-60美元 |
图像提示 | 是 | 否 |
内容过滤器 | 没有 | 有 |
“
”
Stable Diffusion Web-UI(SD-WEBUI)
:开源大神AUTOMATIC1111基于Stability AI算法制作的开源软件,能够展开浏览器,用图形界面操控SD。
秋叶包
:中国大神秋叶开发的整合包。由于WEBUI本身基于GitHub的特性,绝大多数时候的部署都需要极高的网络需求,以及Python环境的需求。使用秋叶整合包,内置了和电脑本身系统隔离的Python环境,以及内置了Git,不需要了解这两个软件就可以运行。可以几乎忽视这样的门槛,让更多人能够享受AI出图。
开源地址:https://github.com/Stability-AI/stablediffusion
Mac
下安装教程:
“https://zhuanlan.zhihu.com/p/620414079 ”
Windows
推荐用秋叶大佬的整合包。
“安装教程:https://zhuanlan.zhihu.com/p/622330006 ”
学习教程:
“基础:https://www.yuque.com/a-chao/sd/wpfsvcqkq0pgmmpg 进阶:https://vocus.cc/neversaysd/home 案例:https://www.yuque.com/longyuye/lmgcwy/goa36x ”
浏览器访问:http://127.0.0.1:7860/
stable diffsusion
界面如下,
1.c站:https://civitai.com/
2.LibLibAI:https://www.liblibai.com/#/
3.XTIMESAI:https://www.xtimesai.com
为主模型,主模型比较大。一般为2GB-7GB左右
微调模型:用来定制人物
让SD有了眼睛,能够基于现有图片得到诸如线条或景深的信息,再反推用于处理图片。
模型分类如下:
关于controlnet相关文档如下:
以下属于文生图过程。
实操跑出的图如下:
实操跑图
实操跑图:
实操跑图
实际跑图
模型推荐:
Openpose:
提示词内输入的东西就是你想要画的东西,反向提示词内输入的就是你不想要画的东西。
采样方法
采样步数
一般来说大部分时候采样部署只需要保持在20-30之间即可,更低的采样部署可能会导致图片没有计算完全,更高的采样步数的细节收益也并不高,只有非常微弱的证据表明高步数可以小概率修复肢体错误,所以只有想要出一张穷尽细节可能的图的时候才会使用更高的步数。
CFG很难去用语言去描述具体的作用,很笼统的来说,就是给你所有的正面和反面提示词都加上一个系数,所以一般CFG越低,画面越素,细节相对较少,CFG越高,画面越腻,细节相对较多。
一般来说大部分时候采样部署只需要保持在20~30之间即可,更低的采样步数可能会导致图片没有计算完全,更高的采样步数的细节收益也并不高,只有非常微弱的证据表明高步数可以小概率修复肢体错误,所以只有想要出一张穷尽细节可能的图的时候才会使用更高的步数。
随机种子可以锁定这张图的初始潜在空间状态,意思就是如果其他参数不变,同一个随机种子生成的图应该是完全相同的,可以通过锁定随机种子来观察各种参数对画面的影响,也可以用来复现自己和他人的画面结果
需要注意的是,即使包括随机种子在内的所有参数相同,也不能保证你生成的而图片和他人完全一致,随着显卡驱动,显卡型号,webui版本等其他因素的变动,同参数输出的图片结果都会可能会发生变动,这种变动可能是细微的细节区别,可能是彻底的构图变化
图生图可以通过图片生成近似图片:
这里通过控制重回幅度来控制两幅的近似度
“推荐文章:https://juejin.cn/post/7244466015999852599 https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features https://shade-skipjack-5e6.notion.site/Stable-Diffusion-4120cb1c0406418998f6772294a0615e ”
提示词网站:https://www.prompttool.com/NovelAI
如果没有好的想法,可以让chatgpt帮我们想。
一般描述为:质量词,媒介词,主体,主体描述,背景,背景描述,艺术风格和作者
正向词:
(masterpiece:1,2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG:1.2),
负向词:
bad face, bad anatomy, bad proportions, bad perspective, multiple views, concept art, reference sheet, mutated hands and fingers, interlocked fingers, twisted fingers, excessively bent fingers, more than five fingers, lowres, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, black and white
实际出图:
利用文生图,截取小说关键字段,生成插画图片。
推荐文章:https://blog.csdn.net/awschina/article/details/130818404
“2023年1月23日,美国三名漫画艺术家针对包括
Stability AI
在内的三家AIGC商业应用公司,在加州北区法院发起集体诉讼,指控Stability AI研发的Stable Diffusion模型以及三名被告各自推出的、基于上述模型开发的付费AI图像生成工具构成版权侵权。 2月15日《华尔街日报》记者弗朗西斯科·马可尼(Francesco Marconi)也公开指责,Open AI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练Chat GPT模型,但从未支付任何费用。 ”
目前关于 AI 版权归属问题主要有2 种看法:持保守观点的认为 AIGC 只是从海量数据库中选择元素进行拼接,初始的创意和付出都源自原艺术家,因此版权应该属于数据库中的原作者和开发 AI 技术的平台。而另一种观点认为,在 AI 作品生成过程中创作者也经过调试编辑,通过多次迭代才生成最终图像,所以AI 创作者同样持有作品的版权。
著名的 AI绘图工具Stable Diffusion
,它的模型训练数据源是包含了上亿图像的LAION-5B数据库,该数据库本身并不储存网络图像本体,而是作为各类版权作品的在线索引,在训练模型时需要先将作品下载到本地储存为副本,那这个下载过程本身就包含了对版权作品的使用。
考虑到前面对侵权行为的判定标准,未来我们在使用 AIGC 的过程中可以注意以下几点: