近年来,图像生成取得了显著的进步,使其在内容创作、虚拟现实等领域得到广泛应用。 作者提出了一种新颖的图像生成方法,使用自动回归(AR)模型,该方法利用“下一细节”预测策略,以提高逼真度和可扩展性。尽管AR模型在语言建模方面取得了突破性成功,但在视觉任务中复制这一成功,由于图像固有的空间依赖性,面临着独特的挑战。 作者的方法通过逐步将更精细的细节添加到图像的组合中,构建了一个层次组合的基和细节图像因子,以应对这些挑战。 这种策略比传统的“下一词”预测更有效,甚至超过了最先进的“下一级”预测方法。该方法的一个重要优势是其可扩展到更高分辨率,而无需对模型进行完全重训练,使其成为高分辨率图像生成的通用解决方案。
最近在图像合成和编辑方面的生成AI的进步,在研究和产业领域都引起了广泛关注。生成AI的常规方法,包括生成对抗网络(GANs)[13, 27]和变分自编码器(VAEs)[20, 37],通常旨在一次生成整个场景。然而,人类对视觉场景的感知和理解本质上具有组合性。例如,在创建场景时,艺术家通常遵循逐步迭代的过程,从粗糙的轮廓开始,逐步完善形状,并逐渐添加细节和阴影。一次性生成整个场景可能会排除这种逐步添加细节的过程,因此在扩展到高分辨率图像时面临挑战。
近期研究引入了逐步方法来解决图像生成问题,其中每一步都包含一组细节。例如,基于扩散的方法 [15, 38] 开始于一个噪声向量,并使用去噪模型逐步移除噪声,逐渐揭示出连贯的图像。同样,自回归(AR)模型 [14, 29, 35, 40] 采用分块方式解决图像生成问题,进一步支持了迭代图像生成方法。具体而言,图像生成的 AR 模型,如 VQGAN [12] 和 DALLE [32],旨在借鉴大型语言模型(LLMs)中基于 AR 的模型的成功经验。这些模型使用视觉分词器将连续图像转换为二维分词网格,使得 AR 模型可以学习下一个分词预测。
尽管在自然语言处理领域,增强学习方法取得了成功,但在计算机视觉领域复制类似的进展仍然具有挑战性。最近的研究表明,在增强学习中图像 Token 的顺序会对模型性能产生显著影响。
在本文中,作者介绍了一种新颖的自回归图像生成方法,该方法通过逐步组装场景构建高质量图像。该过程从创建平滑的基本图像开始,然后通过迭代添加更精细的细节进行增强,最终形成连贯的最终图像(参见图1)。这种方法非常接近人类创建图像的方法,即从基础草图开始,并随着细节层次的增加进行优化。作者的方法首先使用边缘感知平滑技术将训练图像分解为“基础”和“细节”组件。这些组件然后被编码为多尺度细节 Token 图。自回归过程从1x1 Token 开始,预测随后的 Token 图以构建图像的基础组件。一旦基础组件建立起来,模型就会转移到预测细节组件,逐步层叠它们以增强基础图像。这种结构化的、迭代的过程与图像形成的自然顺序相吻合,提高了生成过程的质量和可解释性。
本论文的贡献包括:
一种新方法,可实现图像的迭代组合,该方法与图像形成的自然顺序相协调。
一种将图像分解分为基础层和多个细节层的量化方法
高分辨率图像生成无需重新训练模型,展示出可伸缩性和对更高分辨率的自适应性。
过去十年,生成模型的图像合成技术发展迅速。图像生成可以无条件进行,也可以通过先验信息(如文本、类别标签等)进行条件化。变分自动编码器(VAEs)[20, 37]和生成对抗网络(GANs)[13, 27]在图像生成领域产生了革命性的影响。GANs 通过对抗训练生成器和判别器网络,这些模型能够在一次训练中生成逼真、高质量的图像。
近年来,基于连续去噪过程的扩散模型[15, 16, 38]逐渐成为主流。这些模型通过逐步将受噪声影响的图像转变为实际样本,通过反转预定义的噪声过程有效学习数据分布。这种方法使得扩散模型能够生成高质量图像和细微纹理,从而使其成为生成对抗网络(GANs)和其他生成方法的有力竞争者。扩散模型具有很高的灵活性,并已应用于图像合成之外的多种生成任务,包括文本到图像生成[46, 49],修复[9, 25, 43],超分辨率[23, 45],3D重建[3, 48]和广义图像编辑[5, 19]。然而,尽管它们具有优势,但扩散模型通常需要大量的迭代步骤来生成高质量图像,这可能导致长时间的生成时间,尤其是对于高分辨率图像。这种计算开销限制了它们在需要高效、实时合成的应用中的可扩展性。
自回归(AR)模型试图在序列的前缀条件下预测序列中的下一个 Token 。近年来,AR模型得到了发展。具体来说,生成型预测文本(GPT)[6, 31]使用 Transformer [42]学习大型语言模型(LLM),这导致在语言生成、预测和理解等任务上的显著性能提升。许多工作试图在计算机视觉(CV)应用中复制AR模型成功的范例,包括图像生成。DRAW [14]是第一个实现这一目标的工作,其中使用了顺序变分自编码框架[26],以循环神经网络(RNN)[26]作为构建模块。另一种在AR生成建模中预测图像像素的方式是采用光栅扫描法(Pixel CNN [35],Pixel RNN [40]和Image Transformer [29])。
然而,这些模型的限制在于预测具有数十亿像素的真实图像所需的计算复杂性。具有6.8亿参数的大型图像-GPT [8]模型只能预测一个96x96的图像。为了缓解这个问题,引入了向量量化变分自编码器(VQ-VAE)[41],其中编码器将图像压缩到低维潜在空间,然后进行量化将潜在空间离散化为 Token ,这些 Token 由AR模型预测。最近的工作[29]训练了基于 Transformer 的解码器,使用来自VQ-VAE的量化 Token 自回归地生成逼真的图像。在[39]中,作者指出在AR模型中进行图像生成的 Token 顺序至关重要,并提出了一种多尺度 Token 划分方法。作者没有使用标准的下一个 Token 预测方案,而是采用下一个尺度预测方案,其中在每个时间步预测更高分辨率的图像。
为了通过next-token预测进行自回归模型在图像上的应用,图像必须进行离散化。这通过使用类似于[41]的量化自动编码器实现。图像首先被转换为特征图。
接下来,特征图被转换为离散的 Token ,。
其中, 是量化器。量化器通常由可学习的词表 组成,其中 个向量。每个代码索引 映射到每个特征向量,如下所示:
查找的过程如下:对于每个,通过查找得到,这是对的近似值。然后,在解码器的帮助下,使用重建新的图像。
一种化合物损失, 最小化。
其中, 是一种感知损失,类似于 LPIPS [47], 是一种判别损失,如 StyleGAN 判别器损失 [18], 和 分别对应相应的损失权重。
穆姆夫-沙函数[28]提供了一种结合边缘平滑和边缘增强的正规化形式的统一方法。给定一个有界开集,向量形式的穆姆夫-沙问题可以表示为:
where 是具有 个通道的向量值输入图像。该模型通过一个在 上处处光滑,除可能存在一个 维跳跃集 外都连续的函数 来逼近,在 处 是不连续的。权重 控制了 的长度。当 时, 趋近于无穷大,在 外使得梯度为零,这被称为分段常数穆夫-沙模型。
其中最常用的解决Mumford-Shah图像函数问题的方法之一是Ambrosio-Tortorelli方法[2],该方法如下:
带一个小参数和附加变量的关键思想是将引入为边集指示器,即对于中的点,如果,则属于边集,否则属于平滑区域。变量和通过交替最小化得到。
作者提出了一种新颖的方法,该方法首先通过迭代添加细节对模型初始预测的平滑、分段常数基础图像进行优化。作者的训练方法包括三个关键步骤:
分解:每个训练图像被分解成n个层次化的基本细节因子,这些基本细节因子表示图像的逐步细节层。
编码与分词:使用一个向量量化的变分自动编码器(VQ-VAE),将因素编码到潜在空间中,同时保留关键特征并降低维度。
迭代预测:Transformer解码器架构被训练用于预测图像的连续细节因子(token-map),从而实现对细节的逐步增加和控制。
图像可以表示为多个因素图像的线性组合,每个因素捕捉图像的特定属性。在作者的框架中,作者将图像分解为一个基础因素和细节因素,分别表示为:
其中,表示训练集的一个图像,和分别表示基础因子和细节因子。基础因子通过使用Ambrosio-Tortorelli方法最小化Mumford-Shah函数来获得,具体见公式8。这个基础因子可以递归地分解为多个细节因子,从而得到如下的表达式:
其中,. 公式10定义了I的n阶分解。在此分解中,基础因子捕获了图像的整体结构、组成和全局特征,而细节因子则表示局部特征,这些特征有助于图像的细小细节。图3(a)展示了层次基础-细节分解过程。图3(b)描绘了如何将图像I表示为基和细节因子的向量形式。
在作者的方法中,每个图像都由Vector Quantized Variational Autoencoder(VQ-VAE)的潜在空间中的token映射{r1, r2, ..., rM}表示,而不是单个token。这种token映射表示保留了特征图的空间一致性,并强化了图像固有的空间结构。作者提出了一种token化方案,使得这些token映射表示基础和细节因子。具体而言,图像表示由B个基础token映射组成,即(r1, ..., rB),其中B<M且(M-B)个细节token映射,即(rB+1, ..., rM)。
基于基-细节分解,作者使用VAE将原始图像I与基因素{B_{k}}_{k=1}^{n}编码。
所有的。与先前的研究[39]一样,采用 Token 映射(token maps),而不是单个 Token ,通过在编码特征图上进行残差量化[22],量化深度为,得到基础因子 Token 映射。第个细节因子的编码表示可以表示为:
其中,是第k个基本因子的编码表示,。每个细节因子通过量化深度进行量化,从而得到剩余的 Token ,如图2a所示。从给定图像中提取 Token 映射的完整算法如算法1所示。
作者采用自回归方法预测连续的“下一个细节” Token 图。给定一组 Token {r1,r2,...,rM},自回归似然度定义为:
每个自回归单元是一个包含个 Token 映射的 Token 。
对于模型架构,作者采用了类似于GPT-2 [31]、VQ-GAN [12]和VAR [39]中的标准解码器唯一的Transformer架构。在每个自回归步骤中,Transformer解码器并行预测所有个 Token 的所有分布,如图2b所示。为了保证因果性,如[39]中所述,作者应用因果注意力 Mask ,确保每个 Token 映射只关注其前一个 Token。
为了获得训练图像的详细分解,作者使用了Mumford-Shah平滑操作,具体描述如下:在等式8中,,。每个训练图像迭代地分解,最终得到阶分解,即。作者使用了一个Vanilla VQ-VAE [41],并利用个额外的卷积实现基础-细节量化方案,如图1(a)所示,以及算法1。基础和细节因子都使用相同的代码书,其中。与[12, 39]中的方法类似,分词器在OpenImages [21]上使用组合损失(等式6)和空间下采样16倍进行训练。
首先,通过使用算法1得到的分词基础细节因素,然后用于训练一个Transformer解码器架构,该架构学习预测“下一个细节” Token 。类似于GPT-2 [31]和VQGAN [12],使用标准的解码器唯一的Transformer架构进行推理。在解码时,Transformer预测代码和VQ-VAE解码器,用于获得生成的图像。解码算法概述在算法2中。CART中 Transformer 的深度从16到30变化,以获得具有不同复杂度和学习能力模型。该模型以初始学习率进行训练。
提出的CART模型在ImageNet数据集[10]上以256×256(CART-256)和512×512(CART-512)的分辨率进行评估,以与图像生成领域的最新技术(SOTA)方法进行比较。比较结果呈现在表1和表2中。作者观察到,提出的CART模型超过了SOTA VAR方法[39],同时实现了FID低于ImageNet验证集,同时保持了可比的复杂性和步骤数量。与VAR不同,CART模型受益于基础-细节分解,允许它从局部细节中分离全局结构,这使得学习过程更容易,定义了更自然的 Token 顺序。图4显示了使用提出的CART方法生成的部分图像,图5显示了VAR[39]和CART生成的图像的比较。从图5可以看出,与VAR相比,CART生成的图像具有增强的细节和结构,而VAR没有使用“下一细节”预测方案。请注意,与自回归图像生成领域的Diffusion Transformer[1,30]以及SOTA VAR模型[39]相比,CART在自动回归图像生成中超越了两者。
采用了上述方法。
图像Net 用于评估CART模型在无需从头训练整个模型的情况下的高分辨率能力。表2总结了作者的模型与SOTA在ImageNet-上的性能。表2中的"CART-256"指的是上述的高分辨率图像生成(无需从头训练),而"CART-512"指的是使用训练图像从头训练的模型。
在表3中,作者评估了提出的CART模型的各个组成部分的影响。具体来说,作者观察到图4:使用CART-256生成的样本
图5:VAR-256(上)和CART-256(下)生成的样本对比。在基因子采用多尺度学习并最终在图像分辨率处添加细节时,最佳性能得以实现。
在表4中,作者比较了在不同的分解顺序下,使用提出的CART模型进行学习过程时的性能。0阶分解相当于没有进行细节分解,因此是VAR的特殊情况。作者观察到,当使用3阶Base-Detail分解时,性能最佳。当Base-Detail分解超过3阶时,基图像变得过于平滑,开始失去与全局结构相关的关键细节,导致学习效果不佳。
如图7所示,Base-Detail-VQ-VAE的重建能力显著高于基础VQ-VAE [41]以及MS-VQVAE [39],尤其是在VQ-VAE的较高深度处。
在这项工作中,作者提出了一种新颖的图像合成方法,通过一个自动回归(AR)框架实现,该框架融合了一种“下一细节”预测策略,从而在超分辨率图像生成方面提高了AR模型的能力。
通过利用结构化的基本细节分解,作者的方法实现了迭代优化,该优化过程与图像的自然层次结构相吻合,有效地将全局特征与局部特征分离。
作者的贡献包括一种健壮的分词方案,该方案分别对基本层和细节层进行量化,同时保持空间完整性,并实现有效的AR过程。
实验结果表明,作者的方法不仅在基于AR的图像生成方面达到了最先进的性能,而且还降低了通常与放大高分辨率输出相关的计算复杂性。此外,作者还解决了传统下一分词和下一级预测方法中出现的问题,实现了更准确和高效的生成过程。
[0]. CART: Compositional Auto-Regressive Transformer for Image Generation.