前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HiPrompt 在更高分辨率图像生成上的表现,超越 SOTA !

HiPrompt 在更高分辨率图像生成上的表现,超越 SOTA !

作者头像
AIGC 先锋科技
发布2024-09-20 14:34:17
900
发布2024-09-20 14:34:17
举报
文章被收录于专栏:AIGC 先锋科技

使用预训练的扩散模型实现更高分辨率图像生成的潜力巨大,然而,这些模型在扩展到4k分辨率及以上时,往往会在目标重复和结构缺陷问题上遇到挑战。作者发现问题的根源在于这一点,针对多个尺度的生成提供一个提示是不够有效的。 因此,作者提出HiPrompt,这是无需调整的一揽子解决方案,通过引入分层提示来解决以上问题。分层提示既能提供全局指导,也能提供局部指导。具体来说,全局指导来自于用户输入,它描述了整体内容,而局部指导则利用MLLM的 Patch 描述来自由指导区域结构和解纹理生成。 此外,在反噪声过程中,生成的噪声被分解为低频和高频空间成分。这些成分依赖于多个提示 Level ,包括详细的 Patch 描述和更宽的图像级提示,有助于在分层语义指导下实现提示引导的去噪。 这进一步使得生成过程更加关注局部空间区域,并确保生成的图像在保持高分辨率的同时保持一致的局部和全局语义、结构和纹理。 大量实验证明,HiPrompt在更高分辨率图像生成方面超过了最先进的工作,显著降低了目标重复并增强了结构质量。

Introduction

[14]稳定弥散(Stable Diffusion)引起了广泛关注,并推动了其在文本到图像(T2I)生成领域的广泛应用,尤其是在SDXL [13]的训练分辨率以上的图像生成领域。现有的工作研究了无训练图像生成的训练范式,以应对巨大的计算资源和时间的挑战。探索了一些基于块的文本到图像生成方法,这些方法将多个重叠的去噪路径融合在一起。然而,它们受到模式重复和结构伪影问题的困扰。例如,MultiDiffusion [15]由于将所有区域的所有控制集成到生成过程中,因此受到严重目标重复的影响。尽管DemoFusion [16]尝试通过在残差连接和膨胀采样中引入全局语义信息来保持准确的全球结构,但它仍然受到目标重复问题和错误局部结构的影响。作者发现目标重复问题是由于输入提示与局部块在其基于块的去噪过程中不匹配的语义之间的影响:输入提示倾向于描述整体内容,而块生成在更高的尺度上只包含局部目标。这促使作者提出层次化提示,以准确地在不同尺度上指导超分辨率图像生成。

最近,AccDiffusion [17]提出了基于块内容的提示和膨胀采样,但仍存在小目标重复问题,以及由于失去详细文本指导和模糊和无关内容生成而导致的模糊和无关性,如图2所示。AccDiffusion仍然显示小目标重复和局部模糊的问题。这主要是由于AccDiffusion依赖于注意力图来删除图像中的缺失词汇。然而,注意力图的不足以区分词响应导致了对重复词汇的不完全删除,从而导致文本描述的减少。

在这项工作中,作者提出了一个分层MLLM提示为基础的自由调节无需调试的弥散模型,这是一种创新且有效的方法,利用分层提示消除模式重复和技术伪影。具体而言,全局指导来自用户输入,描述整体内容,而局部指导则利用MLLM的块描述来详细指导局部结构和纹理生成。作者采用了不同的MLLM来验证HiPrompt的通用性和有效性。

为了增强图像的局部和全局方面的协调性,作者将噪声图像分解为低频和高频组分。这种分解便于并行去噪,并通过分层提示,每个元素通过弥散模型采样控制系统。具体而言,低频组分依赖于全局提示,而高频组分则受到通过MLLM生成的提示。这种方法旨在生成具有改进细节结构和结构完整性的高分辨率图像。如图1所示,HiPrompt在各种更高分辨率下生成高质量图像,并有效解决目标重复问题,同时保留细节和连贯的结构,即使在缩放时。

总之,作者的贡献如下。

  • 作者提出了层次化提示(HiPrompt)和分层语义分级指导,用于无调优的更高分辨率生成。HiPrompt通过纠正全局提示和局部块之间的不匹配语义,从而解决了前人工作中目标重复问题的问题。
  • 作者探索了图像分解为空间频率组分的方法,基于细粒度局部和广泛范围的全局提示,并并行去噪。HiPrompt便利了空间控制的提示,从而在更高分辨率图像生成中确保局部-全局结构和语义的一致性。
  • 作者为HiPrompt与现有最先进方法的比较提供了详细的定量和定性评估,证明了作者方法的有效性。

Related Work

在本文档中,作者将讨论与深度学习相关的重要主题,包括深度神经网络、卷积神经网络、生成对抗网络和循环神经网络等。作者将简要介绍这些主题的背景、概念和优势,并探讨这些主题在自然语言处理领域中的应用和挑战。作者将强调深度学习模型的黑盒性质,并探讨其在处理自然语言任务时可能出现的局限性。

深度学习模型是一种强大的机器学习模型,可以学习复杂的特征表示和高级的抽象概念。这些模型通常由多层神经网络组成,每层神经网络包含多个隐藏单元和激活函数。激活函数通常使用Sigmoid、ReLU、Tanh等函数,用于引入非线性和其他复杂特征。深度学习模型可以用于处理各种自然语言任务,例如文本分类、命名实体识别、语义角色标注、机器翻译等。

卷积神经网络(Convolutional Neural Networks, CNNs)是一种主要用于图像处理的神经网络,但也可用于自然语言处理。CNNs的架构与深度神经网络相似,但使用卷积操作来学习图像的特征表示。卷积操作可以帮助模型自动提取局部特征,这对于语言来说特别重要。在自然语言处理领域,CNNs通常用于文本分类、词向量嵌入和文本生成等任务。

生成对抗网络(Generative Adversarial Networks, GANs)是一种自博弈的神经网络,由生成器和判别器组成。生成器尝试生成与真实数据相似的样本,而判别器尝试将生成器生成的样本与真实数据区分开来。这种自博弈关系可以帮助生成器学会更加逼真的数据表示。在自然语言处理领域,GANs通常用于生成自然语言文本和问答系统等任务。

循环神经网络(Recurrent Neural Networks, RNNs)是一种处理序列数据的神经网络,可以记忆序列中之前的信息。RNNs通常由多个LSTM(Long Short-Term Memory)单元或GRU(Gated Recurrent Unit)单元组成。这些单元可以学习时序数据的复杂依赖关系,例如语言的上下文和韵律。在自然语言处理领域,RNNs通常用于语音识别、机器翻译和文本生成等任务。

深度学习在自然语言处理领域取得了巨大的成功。然而,深度学习模型的黑盒性质可能会出现一些局限性,例如缺乏解释性、泛化能力不足、稀疏表示等。未来的研究将继续探索深度学习的应用和改进,以更好地满足自然语言处理领域的需求。

Text-to-Image Synthesis

Ding等人(2021年)、Li等人和Geng等人(2024年)的文本到图像生成模型,由于与Song等人(2020年)、Ho等人(2020年)所示的去噪扩散概率模型显著的先进发展,取得了巨大的关注度。这些模型基于潜在扩散模型(LDMs)实现了高质量的图像生成。这些模型通过迭代优化噪声输入并通过去噪过程,以实现生成引导的详细和上下文准确的结果,从而提高图像保真度。

在这些进展的基础上,高分辨率图像生成的领域出现了几种创新方法。例如,Imagen Saharia等人和Stable Diffusion Rombach等人(2022年)引入了额外的超分辨率网络以提高图像分辨率。相反,最近的一些模型,如SDXL Podell等人(2023年)和PixArt- Chen等人(2023年),采用端到端方法直接生成高分辨率图像。然而,这些模型在处理超高清分辨率(例如4K)时仍然受到生成复杂度和缺乏足够大规模的超高清训练数据的影响。

Tuning-Free Higher-Resolution Generation

高分辨率图像合成面临的挑战在于,由于从高维数据中学习的高内在复杂性和扩展图像生成的计算资源的巨大需求,使得在训练后进行高分辨率生成的可能性变得十分渺茫。最近的许多研究表明,通过调整推理策略或网络架构,可以在不进行训练的情况下实现高分辨率生成。Bar-Tal等人(2023年)提出了一个多阶段的扩散过程,逐步优化生成的图像。基于块的方法Bar-Tal等人(2023年)通过引入逐步优化的扩散过程,逐步改进生成的图像。进一步改进这种方法的方法Du等人(2024年)引入了进度生成策略,将残差连接和扩张采样对齐。像黄等人(2024年)从频率角度引入了一个融合策略,但主要关注卷积内的操作。尽管如此,它们仍然存在局部重复和结构畸变问题。

Methodology

Preliminaries

潜在弥散模型

弥散模型通过逐步优化噪声样本生成数据。从高斯噪声开始,模型在个时间步长内迭代地去除噪声,最终在最后一个步骤生成一个干净的样本。在此过程中,噪声级由方差时间表控制,决定了每个中间时间步长的样本中的噪声量。

接下来,扩散和去噪两个弥散模型核心组件发生于潜在空间。给定一个已知的方差时间表,扩散过程可以表示为:

相反,去噪过程的目标是从中恢复更清晰的版本,通过估计噪声来实现,可以表示为:

其中和是通过估计过程确定的,代表去噪模型的参数量。

MultiDiffusion Bar-Tal等人在2023年提出了MultiDiffusion方法,通过将多个重叠的去噪路径集成起来,实现了高分辨率图像的生成。给定一个高分辨率图像的高层次表示,MultiDiffusion方法使用滑动窗口策略从中提取块。这导致了包含个块的块噪音集合,其中每个块且是块的总数。块级去噪然后得到。这些去噪块接着通过求平均覆盖重叠区域得到。最后,将解码后的分解为输出图像,得到高分辨率图像。

Overview

如图3所示,作者先引入了一个基于层次提示的分步弥散模型,该模型利用MLLM(如Liu等人(2024)的LLAVA和Chen等人(2023)的ShareCaptioner)生成的密集且局部化的描述来减轻重复模式并提高细节精度。然后,对于噪声图像,作者提出将其分解为低频和高频空间,分别对应全局和局部提示,以在反向降噪过程中并行去噪。由层次提示控制的噪声被合并为一个单次的联合预测。

Hierarchical Prompt Guidance

参考Demofusion Du等人(2024)的研究,作者采用SDXL Podell等人(2023)的方法,基于用户提示 创建低分辨率图像。该图像被上采样到目标分辨率,然后被分为 个重叠的块。作者不再仅仅依赖于低分辨率图像和全局提示作为生成指导,而引入了针对每个低分辨率图像块的分层提示,以提供更多详细和准确的分歧指导。

作者研究了一个源于MLLM(例如LLAVA和ShareCaptioner)的、以块为单位的提示集,其中 负责将特定条件注入相应的图像块。通过采用这种方法,作者可以为每个块生成更详细和细微的信息,从而增强生成图像的保真度和最小化提示和最终结果之间的语义差距。

在重捕过程中,LLAVA的 Query 遵循以下模板:“这是一个稳定扩散图像提示:具有[形容词] [主语] [材料],[色彩方案],[照片位置],详细的一张图片。[形容词],[名词],[材料],[形容词],[形容词],[名词],[介词],[地点],详细。用一句话回答。”同时,ShareCaptioner的指令是:“全面、详细地分析这张图片。”遵循这一指令,MLLM将为每个局部块生成更准确、更详细的提示。

如4图所示,LLAVA生成的提示准确地识别了背景元素,如“棕榈树”和“蓝天”,并适当排除了全局提示中提到的目标,如“柯基犬”或“沙滩椅”。与LLAVA相比,ShareCaptioner能够提供更详细、更准确的相对物体位置和视觉焦点的描述,有助于生成高质量的图像。

N-grams微调。 有时,当局部块无法识别时,预训练MLLM会生成与全局图像无关的描述。为了减小MLLM引入的噪声,作者使用从局部块提示生成的N-grams()生成文本 Query ,并基于图像块和密集描述之间的相似性分数排除无关标记。在将N-grams与块匹配之前,作者过滤出对局部块生成无机或语法错误标题的N-gram。这一过程涉及两个阶段:首先,删除仅包含无用词(例如_image_,_jpg_,_background_)的标题;其次,删除(例如_a_,_the_)和介词(例如_to_,_of_,_on_,_in_)的N-grams。然后,通过排除得分低于平均文本-块相似阈值的无关标记,来排除引入的信息,这些信息原来并未出现在原始用户提示中。

遵循微调后的指令,HiPrompt生成了更准确的结构和更丰富的局部描述,从而提高了视觉质量。### 图像噪声分解

根据图像块提示的N-gram()进行改进,消除与提示和文本块相关的噪声,进而增强生成图像的保真度和最小化提示和最终结果之间的语义差异。具体步骤如下:

  1. 删除表示图像(如_image_)、文件格式(如_jpg_)和背景(如_background_)的无用词语

为了在不同尺度上产生一致的语义和结构,作者进行一个嘈杂的图像分解,以实现同时去噪。在图像生成过程中,局部和全局描述控制高和低空间频率分量的控制。如图3下部所示,在进行逆去噪过程时,作者利用分级的提示来估计噪声,然后将噪声汇总以去噪图像。在作者基于分层提示的扩散 Pipeline 中,作者将嘈杂图像 分解为两个组件: 和 。

,其中 是一个低通滤波器,实现为标准的柯达模糊,方差为 。 作为 的高通部分。更高的标准差 对应于高通滤波器的更低截止频率,从而使高通提示在结果中更加突出。在作者的实验设置中, 设置为2。然后,作者可以将高频分量与经过修订、准确和密集的描述 对齐,而低频分量与全局用户描述相匹配。

并行去噪。 在逆去噪过程中,分层提示被用于同时去噪图像的多个条件。具体来说,使用两个与空间滤波函数 相关联的提示,每个提示都与一个适用低通和高通滤波器的噪声图像。给定向扩散模型 和部分去噪的图像 ,来自不同提示的噪声通过求和得到单一估计:

这里, 表示每个层次化提示 上估计的噪声条件。每个滤波器将噪声图像 转换,提供转换图像的噪声估计。这些噪声估计随后被汇总,生成组合估计,然后在其后的扩散采样过程中应用。作者的方法避免了转换到频域,而是直接在空间域控制,从而简化了计算并提供了更直接的途径。此外,作者还设计了一个噪声分解模块,从高频和低频两个角度改善解析度不一致性

Experiments

在本节中,作者报告了定性实验和定量实验以及消融实验。作者根据SDXL [14]验证了HiPrompt的方法性能。

Experimental Setup

作者将HiPrompt与以下几种竞争方法进行比较:(i) SDXL直接推理,(ii) MultiDiffusion [1],(iii) ScaleCrafter [1],以及(iv) DemoFusion [13]。作者在、和的分辨率的模型性能方面进行了全面的评估。此外,作者利用LLAVA-V1.6和InternLM-Xcomposer-7B基于ShareCaptioner [1]来生成低分辨率图像块的分级提示。

Quantitative Results

为了公平地评估模型的性能,作者在Laion-5B [1]数据集上进行定量实验,该数据集包含大量的图像-字幕对。作者以1k个字幕作为高分辨率图像生成的文本提示。作者采用以下四个指标,这是根据先前的研究[13]中提出的:Frechet Inception Distance (FID) [10],Kernel Inception Distance (KID) [15],Inception Score (IS) [14]和CLIP Score [1]。这些指标用于评估图像质量和图像特征与文本提示之间的语义相似度。FID,KID和IS用于衡量生成性能的整体水平。其中,FID和KID需要将测试图像调整到的大小,这可能会对高分辨率图像的评估结果产生影响。为了更合理的评估,作者遵循CLEAN-FID [11]来裁剪并调整一些局部区域以计算FID和KID,称为FID/KID。作者在三个不同分辨率下报告了定量结果。推理时间消耗是在单个NVIDIA R800 GPU上测量的。

如表1所示,HiPrompt在大多数指标上都优于现有方法。具体来说,HiPrompt通过利用层次提示和一种创新的嘈杂图像分解设计,在2048x4096分辨率下的FID和FID指标上分别优于先前最先进的工作[13]2.43和5.5。考虑到现有指标并没有完全捕捉到重复问题,作者在图5中提供了视觉比较以进一步说明这一点。

Qualitative Results

图4:从LLAVA[13]和ShareCaptioner[1]的层次提示进行比较。MLLM为每个局部块生成一个密集的局部提示 来描述其细节和纹理。

图5展示了HiPrompt与其他无需调整的高分辨率图像生成方法的视觉比较。每种模型在16倍分辨率()下产生输出,与原始的SDXL进行比较。在第一种场景中,HiPrompt在易于模式混淆的示例中表现出卓越的概念连贯性和微细细节,没有重复。相比之下,MultiDiffusion的生成存在严重的重复和扭曲。ScaleCrafter生成的视觉效果不佳的形状和大面积不规则纹理,严重降低了视觉质量。此外,DemoFusion由于其基于块的生成不足以及缺乏对局部内容的细粒度指导,出现了许多小狗重复和不合理的结构艺术效果。

同样,舞蹈演员案例的结果也进一步验证了作者的观察。HiPrompt有效地恢复了女孩清晰的面部特征,并精化了芭蕾鞋的复杂结构,使其在复杂的现实世界场景中更加精确、连贯和视觉上更具吸引力。相反,ScaleCrafter表现出较弱的结构保护以及混乱的细节,而DemoFusion不仅在背景中引入了多个重复元素,还创造了扭曲芭蕾鞋的合理副本,扭曲了人体结构。

Ablation Studies

在本节中,作者首先对联接模块中的HiPrompt和两个核心模块进行消融研究,然后讨论不同MLLM和N-grams微调模块的影响。

核心模块的影响。作者对联接模块中的两个组件:层次MLLM提示指导和噪声分解进行消融研究。如图6所示,如果缺少任何模块,则生成质量会降低。作者提出 Baseline 模型[24]的结果,展示了结构扭曲和重复模式。如果没有层次化的分块提示,得到的图像包含许多重复的小目标,强调了在防止生成重复元素时块-内容感知提示的重要性。此外,当作者引入噪声分解策略以并行消除噪声时,解决了结构扭曲的问题。这意味着这两个模块相互配合,有效地解决了重复目标问题,并提高了图像质量。总之,结合使用,它们各自的优势和功能,实现了惊人的生成效果。核心模块消融研究的定量结果见表2,所有结果均在2048x4096的分辨率下用LLAVA[19]执行。与基础模型(第一行)相比,加入层次MLLM提示指导导致了FID的1.21降低。此外,当引入两个层次MLLM提示指导和噪声分解(ND)模块时,HiPrompt在三个指标上超过了基础模型,其中FID可降低2.42(76.24->73.82)。

不同的MLLM的影响。作者研究了如LLAVA Liu等人(2024)和ShareCaptioner Chen等人(2023b)等不同MLLM的使用,以验证作者的层次提示基础流程的有效性。这些模型生成相应的密集和准确的局部提示,以减少重复。如表3所示,作者在4096^2的分辨率的层面,进行了消融实验,结果显示LLAVA和ShareCaptioner显著提高了高分辨率图像生成的质量。特别是,引入它们两者分别导致了2.5和5.52的FID降低,ShareCaptioner的效果优于LLAVA,因为ShareCaptioner本身生成更密集的描述。此外,表明HiPrompt与主流MLLM具有兼容性。

N-grams微调的影响。作者然后在2048^2的分辨率的图像生成上评估提出的N-grams微调策略的影响。如表4所示,第一行显示了联接LLAVA Liu等人(2024)的HiPrompt,而第二行显示了联接LLAVA和N-grams微调的HiPrompt。引入N-grams微调显著改善了图像质量,进一步证明了对于高分辨率图像生成,准确的描述的重要性。

Conclusion

在本文中提出了HiPrompt,这是一个有效的框架,用于基于来自多语言语言模型(MLLMs)的分层提示调整无自由的高分辨率图像生成。为了解决对象重复和结构扭曲问题,首先引入了一个基于分层提示的扩散模型,该模型利用来自MLLMs的逐块密集描述来精心指导局部结构和纹理生成,从根本上避免模式重复。

在逆去噪过程中,为了并行去噪基于分层提示的条件,我们将生成的噪声图像分解为低和高空间频率。然后将估计的预测汇总到与分层提示引导相符合的最终结果中。

此外,我们还探索了不同的MLLMs,并通过实证验证它们可以实现显著的性能提升。

广泛的定性和定量实验证明了我们方法在执行高质量的高分辨率图像生成方面的有效性。

参考

[1].HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Introduction
  • Related Work
  • Text-to-Image Synthesis
  • Tuning-Free Higher-Resolution Generation
  • Methodology
  • Preliminaries
  • Overview
  • Hierarchical Prompt Guidance
  • Experiments
  • Experimental Setup
  • Quantitative Results
  • Qualitative Results
  • Ablation Studies
  • Conclusion
  • 参考
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档