前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2024 | 面向语义感知真实图像超分,港理工张磊团队提出了SeeSR,已开源

CVPR2024 | 面向语义感知真实图像超分,港理工张磊团队提出了SeeSR,已开源

作者头像
AIWalker
发布2024-03-07 16:26:26
7170
发布2024-03-07 16:26:26
举报
文章被收录于专栏:AIWalkerAIWalker

关注「AIWalker」并星标

从此AI不迷路

https://arxiv.org/abs/2311.16518 https://github.com/cswry/SeeSR

本文概要

受益于由于强大的生成先验,预训练的文本到图像(T2I)扩散模型在解决现实世界图像超分辨率问题中变得越来越流行。然而,由于输入低分辨率(LR)图像质量严重下降,局部结构的破坏可能导致图像语义模糊,进而导致再现的高分辨率图像的内容可能具有语义错误,从而使超分辨率性能恶化。

为了解决这个问题,本文提出了一种语义感知方法,以更好地保留生成现实世界图像超分辨率的语义保真度

  • 首先,作者训练一个退化感知提示提取器,即使在强烈退化的情况下,它也可以生成准确的软和硬语义提示。硬语义提示参考图像标签,旨在增强T2I模型的局部感知能力,而软语义提示则补偿硬语义提示,提供额外的表示信息。这些语义提示可以鼓励 T2I 模型生成详细且语义准确的结果。
  • 此外,在推理过程中,将 LR 图像集成到初始采样噪声中,以减轻扩散模型生成过多随机细节的倾向

实验表明,作者的方法可以再现更真实的图像细节并更好地保留语义。

本文出发点

为了释放预训练 T2I 模型的生成潜力,同时避免 Real-ISR 输出中的语义失真,作者研究了三种代表性语义提示样式的使用,包括分类样式、标题样式和标签样式。具体来说,作者分别使用分类样式、标题样式和标签样式提示。

  • 分类式提示仅为整个图像提供一个类别标签,由于其全局视图,因此对图像降级具有鲁棒性。然而,此类提示缺乏为本地对象提供语义支持的能力,特别是在包含多个实体的场景中。如图所示。如图1(b)和1(f)所示,通过使用从LR和HR图像中提取的分类式提示,Real-ISR结果与使用空提示获得的结果几乎没有区别(见图1(e) )。
  • 标题式提示提供了一个句子来描述相应的图像,与分类式提示相比,提供了更丰富的信息。然而,它仍然有两个缺点。首先,此类提示中的冗余介词和副词可能会将 T2I 模型的注意力分散到退化对象上。其次,由于LR图像退化的影响,容易出现语义错误。如图1(c)所示,由于从LR图像中提取的标题不正确,T2I模型错误地重建了一只鸟而不是一艘船。
  • 标签式提示提供图像中所有对象的类别信息,与标题式提示相比,提供更详细的实体描述。即使不提供对象位置信息,人们发现T2I模型由于其底层语义分割能力也可以将语义提示与图像中的相应区域对齐。不幸的是,与字幕模型类似,标记模型也容易受到图像质量下降的影响,从而导致重建结果中出现错误的语义线索和语义失真。如图1(d)所示,错误的语义提示“飞机”导致船舶的重建失真。

作者在表 1 中总结了不同风格提示的特征。这激励作者,如果作者能够将标签风格提示调整为降级软件,那么它可以帮助 T2I 模型生成高质量的 Real-ISR 输出,同时保留正确的结果图像语义

本文方案

基于上述讨论,作者建议从 LR 图像中提取高质量的标签式提示来指导预训练的 T2I 模型以生成保留语义的 Real-ISR 结果。作者提出的方法的框架,即语义感知SR(SeeSR),如上图所示。SeeSR的训练经历两个阶段:

  • 在第一阶段(图2(a)),作者设计了一个退化感知提示提取器(DAPE),它由图像编码器和标记头组成。期望通过使用原始标签模型,LR图像的特征表示和标签输出能够尽可能接近相应HR图像的特征表示和标签输出。
  • 学习到的 DAPE 被复制到第二阶段(图 2(b)),从输入 LR 图像中提取特征表示和标签(作为文本提示),这些特征表示和标签作为预训练 T2I 模型的控制信号,以生成视觉上令人愉悦的、语义上正确的 Real-ISR 结果。

在推理过程中,只需要第二阶段来处理输入图像。图 2(c) 说明了图像分支、特征表示分支和文本提示分支在管理预训练 T2I 模型中的协作相互作用。

退化提示器

DAPE 是根据预训练的标签模型(即 RAM)进行微调的。如图2(a)所示,HR图像

x

通过冻结标签模型输出表示嵌入

f_x^{rep}

和logits嵌入

f_x^{logits}

作为锚点监督DAPE的培训。 LR 图像y 是通过对x应用随机降级获得的,并将它们馈送到可训练图像编码器和标记头中。为了使 DAPE 对图像退化具有鲁棒性,我们强制 LR 分支的表示嵌入和 logits 嵌入接近 HR 分支的表示嵌入和 logits 嵌入。

\mathcal{L}_{DAPE} = \mathcal{L}_r(f_y^{rep}, f_x^{rep}) + \lambda \mathcal{L}_l(f_y^{logits}, f_x^{logits})

经过训练后,DAPE 就发挥着从 LR 图像中提取可靠语义提示的关键作用。提示可以分为两类:硬提示(即来自标记头的标签文本)和软提示(即来自图像编码器的表示嵌入)。如图所示。如图2(b)和2(c)所示,硬提示被直接传递到T2I模型内置的冻结文本编码器,以增强其本地理解能力。文本提示的丰富程度由预设阈值控制。如果阈值太高,预测类别的准确率会提高,但召回率会受到影响,反之亦然。因此,采用软标签提示来弥补硬提示的局限性,不受影响阈值的影响,避免硬类别提示带来的低信息熵问题。

SeeSR训练

图2(c)说明了受控T2I扩散模型的详细结构。鉴于 ControlNet在条件图像生成中的成功应用,我们将其用作用于 Real-ISR 目的的 T2I 模型的控制器。具体来说,

  • 我们将预训练的 SD 模型中的 Unet 编码器克隆为可训练副本来初始化 ControlNet。
  • 为了将软提示融入到扩散过程中,我们采用 PASD 中提出的交叉注意机制来学习语义引导。将表示交叉注意(RCA)模块添加到 Unet 中,并放置在文本交叉注意(TCA)模块之后。请注意,随机初始化的 RCA 模块与编码器同时克隆。
  • 除了文本分支和表示分支之外,图像分支也在重建所需的 HR 图像中发挥作用。我们将 LR 图像通过可训练的图像编码器,以获得 LR 潜在图像,并将其输入到 ControlNet。可训练图像编码器的结构与中的结构相同。

推理时LR嵌入

SD 等预训练 T2I 模型在训练阶段不会将图像完全转换为随机高斯噪声。然而,在推理过程中,大多数现有的基于SD的Real-ISR方法都以随机高斯噪声作为起点,导致训练和推理之间的噪声处理过程存在差异

在 Real-ISR 任务中,我们观察到这种差异会使模型将退化感知为需要增强的内容,特别是在天空等平滑区域,如图 3 的顶行所示。为了解决这个问题,我们建议根据训练噪声调度器将 LR 潜伏直接嵌入到初始随机高斯噪声中。该策略适用于大多数基于 SD 的 Real-ISR 方法。如图 3 的底行所示,所提出的 LR 嵌入(LRE)策略大大缓解了训练和推理之间的不一致,为扩散模型提供了更忠实的起点,从而抑制了天空区域中的大量伪影

本文实验

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 本文概要
  • 本文出发点
  • 本文方案
    • 退化提示器
      • SeeSR训练
        • 推理时LR嵌入
        • 本文实验
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档