github:https://github.com/Stability-AI/stablediffusion
试用: https://clipdrop.co/stable-diffusion https://dreamstudio.ai/
近年来,深度生成建模在自然语言、音频和视觉媒体等各个数据领域取得了巨大的突破。本文将重点关注视觉媒体领域,并揭示了SDXL(Stable Diffusion的极大改进版本)的出现。Stable Diffusion是一种潜在的文本到图像扩散模型(DM),为3D分类、可控图像编辑、图像个性化、合成数据增强、图形用户界面原型设计等一系列最新进展提供了基础。令人惊讶的是,这些应用的范围非常广泛,涵盖了音乐生成和从fMRI脑部扫描中重建图像等领域。
用户研究表明,SDXL在性能上始终明显优于之前的Stable Diffusion版本(见图1)。
本文将介绍导致性能提升的设计选择,包括:i)相比之前的Stable Diffusion模型,UNet主干网络扩大了3倍);ii)引入了两种简单而有效的附加条件技术,无需任何额外的监督;iii)引入了一个基于扩散的精化模型,通过对SDXL生成的潜在空间进行噪声去噪处理,从而提高样本的视觉质量。
视觉媒体创作领域的一个主要关注点是,虽然黑盒模型通常被认为是最先进的,但其架构的不透明性阻碍了对其性能的准确评估和验证。这种缺乏透明度阻碍了可重复性,抑制了创新,并阻止了社区在这些模型的基础上进一步推动科学和艺术的进展。此外,这些闭源策略使得评估这些模型的偏见和局限性变得具有客观和公正的方式变得困难,而这对于它们的负责任和道德部署至关重要。通过发布SDXL,我们提供了一个开放的模型,其在图像生成方面达到了与黑盒图像生成模型相竞争的性能(见图10和图11)。
图1:左图:比较用户对SDXL和Stable Diffusion 1.5&2.1的偏好。尽管SDXL已经明显优于Stable Diffusion 1.5&2.1,但添加额外的精化阶段可以提高性能。右图:两阶段流程的可视化:我们使用SDXL生成大小为128×128的初始潜在空间。然后,我们利用专门的高分辨率精化模型,并使用相同的提示在第一步生成的潜在空间上应用SDEdit 。SDXL和精化模型使用相同的自动编码器。
以上是对论文《SDXL:改进高分辨率图像合成的潜在扩散模型》的简要介绍。该论文主要介绍了SDXL模型的改进和应用,以及其在图像生成领域的重要性。下面将进一步解读SDXL的改进内容以及未来的研究方向。
在这一部分中,我们将深入探讨SDXL模型中对稳定扩散架构所做的改进。这些改进显著提升了模型的性能,并为其在高分辨率图像合成方面赋予了竞争优势。
从Ho等人和Song等人的开创性工作开始,稳定扩散模型一直是图像合成中强大的生成模型。最初的稳定扩散模型采用了卷积UNet架构,但随着模型的发展,架构也在不断演进。SDXL模型引入了一个三倍大的UNet骨干网络,其中包含更多的注意力模块和更大的交叉注意力上下文。这使得SDXL能够更好地捕捉图像中的细节和语义信息,提高了合成图像的质量和逼真度。
SDXL模型还引入了改进的自编码器,用于提高样本的视觉质量。这个自编码器通过对SDXL生成的潜在空间进行噪声去噪处理,改善了样本的细节和背景质量。这一步骤是可选的,但对于生成具有复杂背景和人脸的图像样本的质量有所提升。
总结起来,SDXL模型通过架构和规模的改进、微调条件技术的引入、多方面训练的策略、改进的自编码器以及整合所有改进的方法,显著提升了稳定扩散模型的性能。这些改进使得SDXL能够生成高分辨率、逼真且多样性的图像样本,使其在图像合成领域具有竞争优势。
在这篇论文中,作者介绍了SDXL模型作为一种改进的潜在扩散模型,用于高分辨率图像合成。虽然SDXL模型在合成图像质量、生成样本的准确性和多样性方面取得了显著的改进,但仍然存在一些可以进一步改进的方面。在接下来的工作中,我们认为可以关注以下几个方面来进一步提升模型的性能:
通过关注上述方面的研究和改进,我们可以进一步提升SDXL模型的性能,并推动高分辨率图像合成领域的发展。