Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全网首发:Stable Diffusion 3 Medium SD3模型参见 附带Comfyui工作流

全网首发:Stable Diffusion 3 Medium SD3模型参见 附带Comfyui工作流

作者头像
疯狂的KK
发布于 2024-06-18 07:19:43
发布于 2024-06-18 07:19:43
9150
举报
文章被收录于专栏:Java项目实战Java项目实战

千呼万唤始出来,与Sora一致性的架构无关,就是单纯的Stable Diffusion(以下简称SD)最近大动作太少了,不管是StableCascade还是Playground V2.5,亦或是Stableforge更新,在SD3面前,还是存在感不够的,而现在它终于来了,这个收个开放的MMDIT世界文生图大模型。PS虽然只是一个Medium版本,优先推荐在Comfyui中使用。

Stable Diffusion 3 模型生成图像:

  • SD3 Medium - 20 亿参数模型
  • SD3 Large - 80亿参数模型
  • SD3 Large Turbo - 80 亿参数模型,推理时间更快

温馨提示公众号已开启留言功能哦

如果还没有申请到模型资格,后台回复【SD3】获取模型首发链接和申请链接,附带Comfyui工作流

性能对比

我们将稳定扩散 3 的输出图像与其他各种开放模型(包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及封闭源代码系统(如 DALL-E 3、Midjourney v6 和 Ideogram v1)进行了比较,以便根据人类反馈来评估性能。在这些测试中,人类评估员从每个模型中获得输出示例,并要求他们根据模型输出在多大程度上紧跟所给提示的上下文("紧跟提示")、在多大程度上根据提示渲染文本("排版")以及哪幅图像具有更高的美学质量("视觉美学")来选择最佳结果。

根据测试结果,我们发现 Stable Diffusion 3 在上述所有方面都与目前最先进的文本到图像生成系统相当,甚至更胜一筹。

在消费级硬件上进行的早期未优化推理测试中,我们最大的 8B 参数 SD3 模型适合 RTX 4090 的 24GB VRAM,使用 50 个采样步骤生成分辨率为 1024x1024 的图像需要 34 秒。此外,在最初发布时,稳定扩散 3 将有多种变体,从 800m 到 8B 参数模型不等,以进一步消除硬件障碍。

架构细节

对于文本到图像的生成,我们的模型必须同时考虑文本和图像两种模式。因此,我们称这种新架构为 MMDiT,意指其处理多种模式的能力。与之前版本的稳定扩散一样,我们使用预训练模型来推导合适的文本和图像表征。具体来说,我们使用三种不同的文本嵌入模型--两种 CLIP 模型和 T5--来编码文本表征,并使用改进的自动编码模型来编码图像标记。

SD3 架构基于扩散变换器("DiT",Peebles & Xie,2023 年)。由于文本嵌入和图像嵌入在概念上有很大不同,因此我们对两种模式使用两套不同的权重。如上图所示,这相当于为每种模态设置了两个独立的变换器,但将两种模态的序列结合起来进行注意力操作,从而使两种表征都能在各自的空间内工作,同时也将另一种空间考虑在内。

我们利用重新加权的整流公式和 MMDiT 骨干网对文本到图像的合成进行了扩展研究。我们训练的模型从带有 450M 个参数的 15 个图块到带有 8B 个参数的 38 个图块不等,并观察到验证损失随着模型大小和训练步骤的增加而平稳减少(上排)。为了检验这是否转化为模型输出的有意义改进,我们还评估了自动图像配准指标(GenEval)和人类偏好分数(ELO)(下行)。我们的结果表明,这些指标与验证损失之间存在很强的相关性,这表明后者可以很好地预测模型的整体性能。此外,缩放趋势没有显示出饱和的迹象,这让我们对未来继续提高模型性能持乐观态度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赵KK日常技术记录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
这个模型于两周前发布,采用了与 Sora 相同的 DiT(Diffusion Transformer)架构,一经发布就引起了不小的轰动。
机器之心
2024/03/07
3860
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
OpenAI Sora 1分钟视频生成 现实不存在了!
We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.
疯狂的KK
2024/03/11
7900
OpenAI Sora 1分钟视频生成 现实不存在了!
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
几天前,在Computex 2024大会上,Stability AI联合首席执行官Christian Laforte正式官宣:SD 3 Medium将在6月12日公开发布。
新智元
2024/06/17
2170
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
Stable Diffusion 3 真正来了
在人工智能应用领域,文生图(Text-to-Image)一直是一个重要的研究领域。通过将文本描述转换为对应的图像,广泛应用在艺术创作、广告设计、游戏开发等工作中。
云水木石
2024/06/26
2830
Stable Diffusion 3 真正来了
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
Stability AI在发布了Stable Diffusion 3之后,今天公布了详细的技术报告。
新智元
2024/03/13
1970
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
⚡[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
iResearch666
2024/06/14
3350
[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
大家好,我是猫头虎😺!今天要为大家介绍一款革命性的图像生成模型——Stable Diffusion 3 Medium。这款模型不仅提升了图像质量,还在排版和复杂提示理解方面表现出色,同时具备极高的资源效率。想了解更多关于这款模型的细节,请继续阅读下去!📖
猫头虎
2024/06/15
3540
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
所以,SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能,究竟怎么点亮的?
量子位
2024/03/07
3190
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
开源的Stable Diffusion 3 Medium效果如何?
在2月份的时候,Stable Diffusion 3曾经公布过其强大的能力,由于其在细节生成上更加可控,不少人就一直期待着这个模型的开源。
算法一只狗
2024/08/16
1450
开源的Stable Diffusion 3 Medium效果如何?
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
本文的共同一作为墨尔本大学的胡冬庭和香港科技大学的陈捷润和黄悉偈,完成于在 Snap 研究院 Creative Vision 团队实习期间。主要指导老师为任健、徐炎武和 Anil Kag,他们均来自 Snap Creative Vision 团队。该团队的主要研究方向包括 Efficient AI 和图像/视频/三维生成模型。
机器之心
2025/02/15
760
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
原来Stable Diffusion是这样工作的
stable diffusion是一种潜在扩散模型,可以从文本生成人工智能图像。为什么叫做潜在扩散模型呢?这是因为与在高维图像空间中操作不同,它首先将图像压缩到潜在空间中,然后再进行操作。
程序那些事
2024/06/06
2800
原来Stable Diffusion是这样工作的
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
这次的Stable Diffusion 3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。
新智元
2024/02/26
4390
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
AI图像生成利器:Stable Diffusion 3.5本地运行与远程出图操作流程
本篇文章将介绍如何在Windows系统电脑本地部署Stable Diffusion 3.5,并利用cpolar内网穿透工具实现公网环境下的远程访问,制作高质量的AI图片。无需复杂的公网IP配置或重复部署,让你的创作过程更加便捷高效。
YY的秘密代码小屋
2024/12/22
1.3K0
AI图像生成利器:Stable Diffusion 3.5本地运行与远程出图操作流程
全网最全AI绘画Stable Diffusion关键技术解析
很多人觉得AI绘画不稳定,对于以后是否替代插画师,摄影工作者,设计师,表示存疑,作为AI从业者本文从AI绘画关键技术分析,明白以前生产者肯定会被淘汰,现在没有到达黄金期。
Dlimeng
2023/12/29
6360
全网最全AI绘画Stable Diffusion关键技术解析
老电脑焕发第二春,玩转 Stable Diffusion 3
几年前,我头脑一热,配置了一台顶配级消费 PC(RTX 2080 Ti GPU + i9 CPU),打算用来学习 AI。然而,起初我并没有找到合适的切入点。深度学习早期阶段,消费级显卡根本无法承担训练大模型、微调大模型,甚至连运行大模型都很吃力。结果,这台电脑主要用来学习 TensorFlow、Python 编程等基础知识,但最后从入门到放弃。不过,当时配置的 CPU 和内存还不错,用来编译 Chromium 浏览器和 Android 系统也算是物尽其用,唯独显卡几乎闲置。随着 Nvidia 不断推出新显卡,RTX 2080 Ti 显得越来越落伍了。
云水木石
2024/06/26
6090
老电脑焕发第二春,玩转 Stable Diffusion 3
丹摩智算:SD3+ComfyUI文生图部署步骤详解
SD3,即Stable Diffusion 3,是由Stability AI开发的一款先进的文生图模型。它能够根据文本描述生成高质量的图像,代表了当前人工智能在图像合成领域的最新进展。
屿小夏
2024/09/26
2940
丹摩智算:SD3+ComfyUI文生图部署步骤详解
ComfyUI 知多少?回顾Stable Diffusion的发展历程
说起 AI 工具,相比大家现在可以说出来好多,什么 扣子、 Trae、Cursor、Manus、Stable Diffusion、ComfyUI等等。
萌萌哒草头将军
2025/03/12
2590
ComfyUI 知多少?回顾Stable Diffusion的发展历程
SD3 Medium 已经开放下载:中杯模型20亿参数,12G显存可用,还包括官方comfyUI工作流
Stability AI最近宣布开源其最新的文本到图像生成模型——Stable Diffusion 3 Medium(简称SD3 Medium),这是一款具有20亿参数的先进模型,旨在提升生成性AI的性能和可访问性。SD3 Medium模型的开发标志着在AI图像生成领域的一个重要进步,该模型设计精良,能在各种GPU上高效运行,尤其适合消费级和企业级使用。
deephub
2024/06/17
3330
SD3 Medium 已经开放下载:中杯模型20亿参数,12G显存可用,还包括官方comfyUI工作流
刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就是由 SD3 生成的图像。
HyperAI超神经
2024/06/17
5680
刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
当初SD3 API放出来的时候,他的公司Stability AI已经出现大大小小很多的裂缝了。
数字生命卡兹克
2025/04/14
570
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
推荐阅读
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
3860
OpenAI Sora 1分钟视频生成 现实不存在了!
7900
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
2170
Stable Diffusion 3 真正来了
2830
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
1970
[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
3350
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
3540
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
3190
开源的Stable Diffusion 3 Medium效果如何?
1450
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
760
原来Stable Diffusion是这样工作的
2800
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
4390
AI图像生成利器:Stable Diffusion 3.5本地运行与远程出图操作流程
1.3K0
全网最全AI绘画Stable Diffusion关键技术解析
6360
老电脑焕发第二春,玩转 Stable Diffusion 3
6090
丹摩智算:SD3+ComfyUI文生图部署步骤详解
2940
ComfyUI 知多少?回顾Stable Diffusion的发展历程
2590
SD3 Medium 已经开放下载:中杯模型20亿参数,12G显存可用,还包括官方comfyUI工作流
3330
刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
5680
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
570
相关推荐
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档