在图像超分辨率研究领域,基于Swin-transformer的模型因其全局空间建模和移位窗口自注意力机制而受到青睐。 然而,现有方法通常将自注意力限制在非重叠窗口上以节省成本,并忽视了跨通道存在的有用信息。为了解决这个问题,本文提出了一种新颖的模型,即混合注意力聚合Transformer(HAAT),旨在更好地利用特征信息。 HAAT通过将Swin-Dense-Residual-Connected Blocks(SDRCB)与混合网格注意力块(HGAB)相结合而构建。SDRCB在保持简洁架构的同时扩展了感受野,从而提高了性能。 HGAB集成了通道自注意力、稀疏自注意力和窗口自注意力,以提高非局部特征融合并实现更具有视觉吸引力的结果。实验评估表明,HAAT在基准数据集上超过了最先进的方法。
单图像超分辨率(SISR)旨在从低分辨率图像中重构高质量图像。随着其广泛应用,高效超分辨率算法的研发成为计算机视觉领域的一个关键研究领域。最近的研究将自注意力机制集成到计算机视觉挑战中 [1, 2]。
CNN为基础的技术对于单图像超分辨率(SISR)的图像纹理特征修复有了显著提高。SRCNN[3]是首个使用卷积神经网络解决超分辨率问题的模型。VDSR[4]实现了残差学习,以增强学习和成功解决深度网络中的梯度消失问题。在SRGAN[5]中,Christian Ledig等人采用生成对抗网络来改进超分辨率图像生成,通过生成器将低分辨率图像转换为高分辨率图像,并通过对抗训练提高质量。ESRGAN[6]包括Residual Dense Block(RRDB)作为基本网络组件,通过利用激活前特征先验信息减少感知损失,从而生成具有更真实纹理的图像。此外,研究行人仍在建议新的结构以在超分辨率图像中逐步获取更真实的信息。基于CNN的网络表现出显著的性能效果。然而,CNN固有的归纳偏差限制了SISR模型捕捉长程关系的能力。这些限制来自卷积运算符的核大小和感受野大小在多个层上的参数相关缩放,可能忽视了图像中的非局部空间信息。
为了增强图像中不同层次结构的联合建模,研究行人利用了自注意力机制在多尺度处理和长程依赖建模方面的优势。基于Transformer的SISR模型已经出现,以克服基于CNN网络的不足,通过利用它们模拟长程依赖并提高SISR性能。例如,SwinIR[1]利用了Swin Transformer[2],在超分辨率结果方面取得了显著提升。此外,通过结合重叠交叉注意力模块、窗口自注意力和通道注意力,使用hybrid attention transformer(HAT)[7]实现了最先进的结果。
尽管基于Transformer的方法在图像恢复问题上取得了成功,但仍存在改进空间。当前的基于窗口的Transformer网络将自注意力计算限制在一个集中的区域。这种方法显然导致了受限制的感知领域,并且无法充分利用原始图像的特征信息。本研究提出了一种混合多轴聚合网络(HAAT),以解决上述问题。HAAT通过将Swin-Dense-Residual-Connected Blocks(SDRCB)[8]与混合网格注意力块(HGAB)[9]相结合而构建。HGAB借鉴了GAB[9]的设计思想,将通道注意力、稀疏注意力和窗口注意力集成在一起,利用通道注意力的全局感知能力来弥补自注意力的不足。稀疏自注意力的使用可以增强全局特征交互,同时保持计算效率。同时,为了进一步挖掘模型的潜在性能。
图1说明了HAAT的综合结构。SDRCB将Swin Transformer层和转换层集成到每个Residual Deep特征提取组(RDG)中,通过使用更少的参数和更简洁的设计来增强感受野,从而实现卓越的性能。此外,作者提出了HGAB来描述跨区域的相似性,以增强图像重建。HGAB的架构如图2所示,包括一个Mix Attention Layer(MAL)和一个Multi-Layer Perceptron(MLP)层。HGAB使用稀疏自注意力来增强全局特征交互,同时控制计算复杂性,从而促进对相似图像的联合建模,实现更强大的图像重建。此外,所采用的通道注意力机制可以帮助模型在不同的通道之间提取更有效信息。
作者使用 Swin-Transformer Layer(STL)[1, 2] 的位移窗口自注意力机制来捕捉长程依赖性,通过自适应感受野。STL 根据全局内容调整模型的权重,从而增强特征提取。这种技术在网络加深时保持全局细节,扩大感受野而不会降低。将 STL 与稠密残差连接相结合,可以扩大感受野并提高对关键信息的重要性,从而在需要全面、敏感处理的 SISR 任务中提高性能。RDG 中输入特征图 的 SDRCB 如下所示。
其中 表示由前层产生的多级特征图的 ConCat 。 指的是具有 LeakyReLU 激活函数的卷积层,其负斜率为 0.2。LeakyReLU 的负斜率设置为 0.2。卷积 1 是一个 1x1 卷积层,用于自适应地融合具有不同 Level [10] 的特征。 表示残差缩放因子,用于稳定训练过程 [6],其设置为 0.2。
该GAB由一个Mix Attention Layer(MAL)和一个MLP层组成。关于MAL,作者首先将输入特征按通道分为两部分:和。此外,将输入传递到另一个分支,以执行通道注意力操作。接下来,作者再次将按通道分为两部分,并分别输入到W-MSA和SW-MSA中。同时,将输入到Grid-MSA [9]。MAL的计算过程如下:
在W-MSA、SW-MSA、Grid-MSA和CA中,、、和分别表示它们的输出特征。此外,作者还采用后正则化方法在GAB中增强网络训练稳定性。对于给定的输入特征,HGAB的计算过程如下:
作者的HAAT模型是在DF2K数据集上进行训练的,该数据集包括DIV2K[11]和Flickr2K[12]。DIV2K提供了800张图像用于训练,而Flickr2K提供了2650张图像。对于训练输入,作者通过应用缩放因子为2、3和4的bicubic降采样方法分别生成了这些图像的LR版本。为了评估作者的模型的有效性,作者使用了一些知名的SISR基准数据集,如Set5[13]和Set14[14]进行性能评估。
在DRCT架构中,深度和宽度配置与HAT相同。具体而言,两种模型都具有6个RDG和SDRCB单元,中间特征图有180个通道。对于基于窗口的多头自注意力(W-MSA),设置注意力头数为6,窗口大小为16。在HGAB块中,通道压缩因子为16,中间特征有180个通道。Grid MSA和(S)W-MSA分别使用3和2个注意力头。从HR图像中提取256×256像素的HR块,通过随机水平翻转和旋转进行数据增强。如表1所示,作者的方法在PSNR和SSIM方面都优于当前最先进的技术。
对于评估,作者使用了所有RGB通道,并排除了最外层的(2倍缩放)边角像素。采用了PSNR和SSIM指标进行评估。表1展示了作者的方法与最先进的算法(如EDSR[15],RCAN[16],SAN[17],IGN[18],HAN[19],NLSN[20],SwinIR[1],CATA[21],DAT[22]和CDRT[8])的定量比较。在作者的所有基准数据集上,作者的方法始终优于这些方法。尽管参数较少,计算需求较低,但HAAT实现了比其他最先进模型显著更好的结果。
这项工作介绍了一种独特的混合注意力聚合Transformer(HAAT),用于单图像超分辨率。
HAAT增强了DRCT架构,注重信息流的稳定性,并通过残差块中的密集连接扩展感受野,结合移位窗口注意力机制以自适应地获取全局信息。这使得模型能够强调全局地理信息,优化其能力并绕过信息 Bottleneck 。
此外,受图像的分层结构相似性启发,作者提供了HGAB来表示长程关系。该网络通过结合通道注意力、稀疏注意力和窗口注意力来改进多级结构相似性。
该模型在DF2K数据集上进行训练,并在Set5和Set14数据集上进行验证。实验结果表明,作者的策略在单图像超分辨率任务基准数据集上超过了最先进的技术。
[0]. HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution.
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有