关注「AIWalker」并星标
从此AI不迷路
https://arxiv.org/abs/2311.16518 https://github.com/cswry/SeeSR
受益于由于强大的生成先验,预训练的文本到图像(T2I)扩散模型在解决现实世界图像超分辨率问题中变得越来越流行。然而,由于输入低分辨率(LR)图像质量严重下降,局部结构的破坏可能导致图像语义模糊,进而导致再现的高分辨率图像的内容可能具有语义错误,从而使超分辨率性能恶化。
为了解决这个问题,本文提出了一种语义感知方法,以更好地保留生成现实世界图像超分辨率的语义保真度。
实验表明,作者的方法可以再现更真实的图像细节并更好地保留语义。
为了释放预训练 T2I 模型的生成潜力,同时避免 Real-ISR 输出中的语义失真,作者研究了三种代表性语义提示样式的使用,包括分类样式、标题样式和标签样式。具体来说,作者分别使用分类样式、标题样式和标签样式提示。
作者在表 1 中总结了不同风格提示的特征。这激励作者,如果作者能够将标签风格提示调整为降级软件,那么它可以帮助 T2I 模型生成高质量的 Real-ISR 输出,同时保留正确的结果图像语义。
基于上述讨论,作者建议从 LR 图像中提取高质量的标签式提示来指导预训练的 T2I 模型以生成保留语义的 Real-ISR 结果。作者提出的方法的框架,即语义感知SR(SeeSR),如上图所示。SeeSR的训练经历两个阶段:
在推理过程中,只需要第二阶段来处理输入图像。图 2(c) 说明了图像分支、特征表示分支和文本提示分支在管理预训练 T2I 模型中的协作相互作用。
DAPE 是根据预训练的标签模型(即 RAM)进行微调的。如图2(a)所示,HR图像
通过冻结标签模型输出表示嵌入
和logits嵌入
作为锚点监督DAPE的培训。 LR 图像y 是通过对x应用随机降级获得的,并将它们馈送到可训练图像编码器和标记头中。为了使 DAPE 对图像退化具有鲁棒性,我们强制 LR 分支的表示嵌入和 logits 嵌入接近 HR 分支的表示嵌入和 logits 嵌入。
经过训练后,DAPE 就发挥着从 LR 图像中提取可靠语义提示的关键作用。提示可以分为两类:硬提示(即来自标记头的标签文本)和软提示(即来自图像编码器的表示嵌入)。如图所示。如图2(b)和2(c)所示,硬提示被直接传递到T2I模型内置的冻结文本编码器,以增强其本地理解能力。文本提示的丰富程度由预设阈值控制。如果阈值太高,预测类别的准确率会提高,但召回率会受到影响,反之亦然。因此,采用软标签提示来弥补硬提示的局限性,不受影响阈值的影响,避免硬类别提示带来的低信息熵问题。
图2(c)说明了受控T2I扩散模型的详细结构。鉴于 ControlNet在条件图像生成中的成功应用,我们将其用作用于 Real-ISR 目的的 T2I 模型的控制器。具体来说,
SD 等预训练 T2I 模型在训练阶段不会将图像完全转换为随机高斯噪声。然而,在推理过程中,大多数现有的基于SD的Real-ISR方法都以随机高斯噪声作为起点,导致训练和推理之间的噪声处理过程存在差异。
在 Real-ISR 任务中,我们观察到这种差异会使模型将退化感知为需要增强的内容,特别是在天空等平滑区域,如图 3 的顶行所示。为了解决这个问题,我们建议根据训练噪声调度器将 LR 潜伏直接嵌入到初始随机高斯噪声中。该策略适用于大多数基于 SD 的 Real-ISR 方法。如图 3 的底行所示,所提出的 LR 嵌入(LRE)策略大大缓解了训练和推理之间的不一致,为扩散模型提供了更忠实的起点,从而抑制了天空区域中的大量伪影。