单图像超分辨率(SISR)的任务是旨在从其低分辨率版本重建出高质量的图像。基于CNN的网络在性能方面取得了显著的成功。然而,CNN的归纳偏置限制了SISR模型捕获长距离依赖性的能力。它们的固有局限性源于参数依赖的感受野扩展和不同层中卷积算子的核大小,这可能会忽略图像中的非局部空间信息。
为了克服与基于CNN的网络相关的局限性,研究人员引入了基于Transformer的SISR网络,利用其建模长距离依赖性的能力,从而增强SISR性能。这种方法在各种基准测试中大大增强了超越传统基于CNN模型的能力。
论文认为,尽管基于SwinIR的网络架构通过移位窗口注意力机制显著扩大了感受野以解决CNN中的小感受野问题,但由于网络深度增加时空间信息的丢失,容易出现梯度瓶颈。这隐含地限制了模型的性能和潜力。为了解决由于网络层数增加导致的空间信息丢失问题,论文引入了Dense-residual-connected Transformer(DRCT),旨在通过提出的Swin-Dense-Residual-Connected Block(SDRCB)稳定前向传播过程并防止信息瓶颈。这种方法通过增强感受野,用更少的参数和简化的模型架构来提高性能。
该项目由国立成功大学先进计算机视觉实验室的Chih-Chung Hsu、Chia-Ming Lee和Yi-Shiuan Chou共同开发,并在CVPR NTIRE 2024会议上进行了口头报告。
在信息瓶颈原理中,数据 XX 被视为原始输入,而信息 YY 是网络试图预测的输出。例如,在SISR任务中,XX 可以是低分辨率(LR)图像,而 YY 是高分辨率(HR)图像。
当数据通过神经网络的连续层级时,可能会发生信息损失。这是因为每一层都在尝试从输入中提取对预测输出有用的信息,同时忽略那些对预测不太重要的信息。这种信息的压缩可以用以下不等式表示:
I(X,X)≥I(Y,X)≥I(Y,fθ(X))≥I(X,gϕ(fθ(X)))I(X,X)≥I(Y,X)≥I(Y,fθ(X))≥I(X,gϕ(fθ(X)))
其中 II 表示互信息,ff 和 gg 是转换函数,θθ 和 ϕϕ 是 ff 和 gg 的参数。fθ(⋅)fθ(⋅) 和 gϕ(⋅)gϕ(⋅) 分别代表神经网络中的两个连续层。
在深度神经网络中,随着网络层数的增加,信息流可能会减少,导致梯度消失问题。这会影响网络参数的优化和预测性能。信息瓶颈原理强调,在深度学习中,模型需要在保留对任务有用的信息和减少输入数据中的冗余信息之间找到平衡。这种平衡可以帮助模型避免过拟合,并提高泛化能力。
在使用基于Transformer的SISR模型对不同数据集进行推理时,论文观察到一个共同现象,如上图,特征图可视化从上到下展示了SwinIR、HAT以及DRCT,其中位置越靠右代表网络中越深的层。对于SwinIR和HAT,特征图的强度在较浅的层中很明显,但随着网络深度的增加而减弱。论文认为这种现象意味着空间信息的丢失,导致SISR任务中的局限性和信息瓶颈。而DRCT学习到的特征图逐渐且稳定地增强,没有明显的波动。这代表了前向传播过程中信息流的稳定性,从而在最后一层的输出中产生更高的强度。
随着网络深度的增加,特征图的强度分布发生了更显著的变化。这表明了模型学习到的空间信息和注意力强度。然而,通常在网络末端急剧下降至更小的范围。这种现象表明,这种急剧变化可能伴随着空间信息的丢失,表明存在信息瓶颈。
DRCT模型由三个主要部分组成:浅层特征提取、深层特征提取和图像重建模块。这些部分共同工作,以实现从低分辨率(LR)图像到高分辨率(HR)图像的高质量重建。
RDG的设计灵感来源于先前的研究,即RRDB-Net和RDN,使用残差密集块(RDB)作为基础单元。RDG通过在前向机制中重用特征图来增强感受野,从而允许更全面的跨尺度信息集成。
RDG通过在残差组内引入密集连接来稳定信息流,这有助于在深层网络中保持空间信息,减少信息丢失。RDG能够整合不同尺度的特征,从而允许更全面的跨尺度特征提取。
为了捕捉长距离依赖性,SDRCB利用Swin-Transformer Layer(STL)的移位窗口自注意力机制来获得自适应的感受野,补充了RRDB-Net,使其能够关注多级空间信息。
Zj=Htrans(STL([Z,…,Zj−1])),j=1,2,3,4,5Zj=Htrans(STL([Z,…,Zj−1])),j=1,2,3,4,5
SDRCB(Z)=α⋅Z5+ZSDRCB(Z)=α⋅Z5+Z
其中,[⋅][⋅] 表示前几层产生的多级特征图的连接。HtransHtrans 指的是带有LeakyReLU激活函数的卷积层,用于特征转换。αα 是残差缩放因子,用于稳定训练过程。
最后,通过聚合浅层特征 F0F0 和深层特征 FDFFDF 来重建超分辨率图像 ISRISR。
ISR=Hrec(F0+FDF)ISR=Hrec(F0+FDF)
其中 HrecHrec 是重建函数,负责将高频深层特征 FDFFDF 和低频特征 F0F0 结合起来,以获得最终的超分辨率结果。
SPTS是DRCT模型中提出的一种训练策略,通过逐步调整训练目标和损失函数,SPTS有助于模型参数收敛到更优的局部最小值,通过渐进式训练,模型能够更好地学习如何从低分辨率图像重建高分辨率图像。
SPTS通常包括以下几个阶段:
LL1=∥IHR−ISR∥1LL1=∥IHR−ISR∥1
其中 IHRIHR 是高分辨率图像,ISRISR 是模型重建的超分辨率图像。
SPTS允许模型在不同的训练阶段使用不同的损失函数,这提供了调整模型性能的灵活性。通过L1和L2损失函数的结合使用,模型能够学习到更鲁棒的特征表示,减少过拟合的风险。预训练阶段可以帮助模型更快地收敛,减少训练时间,提高训练效率。
DRCT模型在DF2K数据集上进行训练,该数据集由DIV2K和Flickr2K数据集合并而成。DIV2K包含800张图像,Flickr2K包含2650张图像。这些图像被用来生成不同尺度因子(2、3、4倍)的低分辨率(LR)版本,用于训练。为了评估模型的有效性,作者使用了多个知名的SISR基准数据集,包括Set5、Set14、BSD100、Urban100和Manga109。
作者将DRCT模型与其他最先进的方法(如EDSR、RCAN、SAN等)进行定量比较,如下表,使用峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标。结果表明DRCT在所有基准数据集上都取得了显著的性能提升。
作者通过展示Urban100数据集中的选定图像,DRCT在恢复结构方面表现出色,而其他方法则出现明显的模糊效果,具体效果如下图。
作者同时计算了DI来量化模型的注意力范围,DI越高表示模型在重建时考虑的像素范围越广。DRCT即使在参数更少的情况下也能达到更高的DI,这表明其能够有效利用长距离依赖性和非局部信息进行SISR。
接下来我们对论文进行了复现,我们使用的配置如下: PyTorch 1.11.0 Python 3.8 Ubuntu 20.04 Cuda 11.3 GPU RTX 3080x2(20GB) * 2
由于DIV2K和Flickr2K数据集较大,我们仅选取DIV2K进行模型的训练,以Set5、Set14数据集作为测试集对模型效果进行测试。
需要注意的是,模型需要多卡训练,分布式训练的环境配置较为耗时。
以Set5数据集为例,我们对超分辨率重建的图像进行展示和对比,原始数据如下:
五张图像的大小分别为126 ×× 126、72 ×× 72、63 ×× 63、69 ×× 69、57 ×× 84。重建后的图像将等比例放大四倍。
重建后的图像如下:
五张图像的大小分别为504 ×× 504、288 ×× 288、252 ×× 252、276 ×× 276、228 ×× 336。
在重建后的图像中,DRCT模型恢复了图像中的细节,如鸟类的羽毛细节和纹理,同时保持了图像的自然感和清晰度。
本文介绍了一种名为DRCT的新型图像超分辨率模型,旨在克服现有SISR模型在深层网络中常见的信息瓶颈问题。DRCT模型通过在残差块内引入密集连接和利用Swin Transformer的移位窗口自注意力机制,显著提升了模型对长距离依赖性的捕捉能力,并增强了感受野。这种设计不仅稳定了信息流,减少了空间信息的丢失,还提高了模型在深层网络中的性能。
实验结果表明,DRCT在多个标准数据集上的定量指标,如PSNR和SSIM上均超越了现有的最先进方法,同时在模型参数和计算复杂度方面保持了较高的效率。此外,DRCT在视觉比较中也展现出了优越的图像细节恢复能力,尤其是在处理具有复杂纹理和结构的图像时。
综上所述,DRCT模型不仅在理论上展示了其创新性,而且在实际应用中证明了其有效性和实用性,为未来SISR技术的发展提供了新的方向。