这篇文章收录于TIP2020,作者团队来自南洋理工大学和西安电子科技大学。通过将金字塔结构和non-local结构结合起来在图像恢复、图像降噪、图像超分辨率等low-level的计算机视觉任务中都取得了较好的性能效果,说明该模块能够有效地捕获远距离的上下文信息,并很好地平衡计算量。
论文地址:http://xxx.itp.ac.cn/abs/2008.09742
现在,用于low-level图像处理任务的神经网络通常是通过堆叠卷积层来实现的,每个卷积层仅包含来自一个小范围的上下文信息。随着更多卷积层的堆叠,卷积神经网络可以探索更多的上下文特征。但是,要充分利用远距离依赖关系较困难并且需要较多的计算量。由此,本文提出了一种新颖的non-local模块:金字塔non-local模块,以建立每个像素与所有剩余像素之间的连接。所提出的模块能够有效利用不同尺度的低层特征之间的成对依赖性。具体而言,首先通过学习由具有全分辨率的查询特征图和具有缩减分辨率的参考特征图所构成的金字塔结构来捕获多尺度相关性,然后利用多尺度参考特征的相关性来增强像素级特征表示。整个计算过程在同时考虑了内存消耗和计算成本。基于所提出的模块,本文还设计了一个金字塔non-local增强网络用于图像恢复任务中边缘保留的图像平滑处理,在比较三种经典的图像平滑算法中达到了最先进的性能。另外,可以将金字塔non-local模块直接合并到卷积神经网络中,以进行其他图像恢复任务,并可以将其集成到用于图像去噪和单图像超分辨率的现有方法中,以实现性能的持续改善。
简介
随着卷积神经网络(CNN)的发展,low-level计算机视觉任务取得了令人印象深刻的进步。图像恢复边缘保留图像平滑(edge-preserving image smoothing),图像去噪(image denoising)和图像超分辨率(image super-resolution)。在本文中,提出了一种新颖的金字塔non-local模块,可有效地挖掘low-level图像处理任务中的长期依赖关系。
本质上,存在许多与自然图像相似度很高的纹理。有文献(《Texture synthesis by non-parametric sampling》)利用这种自相似性来合成逼真的纹理。另外还有文献设计了一些非局部算法来探索图像修复任务中相似纹理之间的依赖关系。在图像修复任务中,有几种非局部算法被设计用于探索相似纹理之间的依赖关系。它们主要集中在估计局部patch之间的相似性,每一个查询patch都是用相似的参考pacth来重建的,而这些参考patch可能与查询patch有距离。
捕获相似文本的依赖性对其他low-level图像处理任务也应该是有益的。例如,在边缘感知图像平滑化中,相似的纹理很可能在同一物体的表面上传播。非局部相关性有利于消除这种纹理和识别真实物体的边缘。在图像超分辨率中,可以利用结构的复制来恢复因空间尺寸小而导致的退化内容。
最近,卷积神经网络已广泛应用于像素级图像处理任务。典型的卷积层在较小的局部邻域上运行,而不考虑非局部上下文信息。捕获远距离依赖关系的一种常见做法是通过堆叠大量卷积层或空洞卷积层来扩大感受野。但是,很难以这种方式捕获远距离像素之间传递的信息。为了充分利用远距离依赖关系,一些文献提出了非局部算法(non-local),可以通过增强具有自相似性的特征表示并将其集成到深度模型中。原始的Non-local网络增强了每个位置的特征表示及其与所有剩余位置的相关性,用于视频分类。但是,non-local操作的计算成本和内存消耗随着输入特征图的空间大小的增加而平方增加。考虑到内存资源的限制,通常将non-local块放置在按比例缩小的高层特征图之后,这阻碍了它们适应low-level计算机视觉任务。文献《Non-local recurrent network for image restoration》提出了一种非局部递归网络(NLRN),它限制了计算成对相关性的邻域,并在图像复原中获得了出色的性能。使用限制邻域的一个缺点是仅探索了数十个像素内的相关信息,而忽略了来自遥远像素的宝贵的依赖关系。最后,相似的纹理像素由于其固有的物理特性而通常具有各种空间比例,充分挖掘上下文相关信息是一种至关重要的方法,它可以估算不同纹理像素空间比例之间的相似性。
为了在像素级图像处理任务中有效地探索非局部相关信息,本文提出了一种金字塔结构,命名为金字塔非局部块(PNB)。与原始的non-local一样,查询和参考特征图被用来设置不同位置之间的相关性,随后被用于增强像素级特征表示。首先,为了减轻非局部操作的计算负担,在保留查询特征图的分辨率的同时,采用了分辨率降低的参考特征图。 其次,构建了一个金字塔式的参考特征图来鲁棒地估计不同尺度的文本之间的相关性。 通过融入金字塔非局部块和空洞后的残差块,本文建立了一个新的深度模型,金字塔非局部non-local增强网络,用于图像恢复任务中边缘保留图像平滑,它在模仿各种经典图像平滑滤波器方面达到了最先进的性能。
此外,金字塔非局部块可以很容易地被纳入基于CNN的方法中,用于其他像素级图像处理任务。实验部分,在图像去噪和单幅图像超分辨率(SISR)这两个经典任务上展示了PNB的有效性。并采用RDN和MemNet这两个现有模型作为图像去噪和SISR的基线模型, 由于采用了PNB模块来捕获长距离的上下文依赖信息,性能一直比基线模型有所提高。
本文方法
在像素级图像处理任务中,纹素之间的非局部相关性可以帮助提供上下文信息并探索对其他相似纹素的依赖性。在本文中,提出了一种用于图像恢复边缘保留图像平滑(edge-preserving image smoothing)的深度金字塔非局部增强网络(PNEN)。它采用金字塔非局部块(PNB)来挖掘远距离相关信息,整体架构如图1所示。金字塔非局部块经过精心设计,可以与多尺度纹理元素进行关联。同时,在估计非局部相关性时可以确保高计算效率。并利用空洞残差块(DRB)从输入图像中提取完整的结构和纹理信息。
1、Entry and Exit Network
将输入彩色图像定义为X,尺寸为h×w×c。其中h、w、c分别代表输入图像的高度,宽度和通道。本文提出的PNEN使用一个卷积层作为入口网来提取像素级特征图F0(大小为h×w×d)。
随后,堆叠每个由金字塔非局部块和带空洞的残差块组成的M个块,以产生较深的特征,并将它们产生的特征定义为Fm。
受MemNet的启发,所有块{Fm | m = 1,...·,M}生成的特征被累积起来,以使用出口网络生成残差图像。Fm产生的图像定义为:
具体而言出口网络用一个卷积来实现。
2、Pyramid Non-local Block (PNB)
一般的Non-local操作的可以定义为:
其中,
以上两式,分别表示像素i和j之间的相似度矩阵计算和用于产生n维pixel-wise embedding的操作。同时上式中D(F)表示归一化操作。
嵌入函数Femb(F,W)通过参数W的卷积运算实现。具体将结果展平为二维张量,其中每一列代表一个嵌入通道。在计算M(F)时,分别使用卷积核Wθ和Wφ生成大小为hw×m的查询和参考特征。D(F)的对角线元素是通过计算M(F)的列求和而获得的,T(·)也通过参数Wψ的卷积运算来实现,所有卷积都使用1×1的核大小。
典型的non-local模块在图2(a)中展示。随着像素数量的增加,相关矩阵的计算复杂度和内存占用量成倍增加。为了减轻计算负担,以前的工作利用一个小的邻域来限制非局部运算的范围。相比之下,本文提出了一种新颖的金字塔非局部块来有效地减轻计算需求。
首先,使用一个卷积层产生一个查询特征Eθ= Femb(F,Wθ)。空间核大小和步长分别为1×1和1。然后,可以使用不同的内核大小和步长通过并行卷积生成多尺度参考特征和embedding 入特征,并设计了独立的分支来计算多比例的关键key和embedding 特征。为了提取具有较大比例的纹理的特征表示,使用较大的卷积核来计算高层特征图。卷积运算的步长随着卷积核大小的增加而增加,从而降低了特征图的分辨率。
增强的embedding 特征为:
最后,将增强的嵌入特征串联在一起,然后是一个1×1卷积层以生成F的残差值。形式上,金字塔非局部块的最终输出可以通过以下方式实现:
除了减轻非局部操作的计算负担外,金字塔非局部模块的具体设计可以增强多尺度自相似的特征表示能力。金字塔非局部块的一个特点是通过调整不同尺度的卷积核大小和步长,灵活地平衡精度和计算资源。
3、Dilated Residual Block (DRB)
在保留边缘的图像平滑任务中,高分辨率特征图有利于重建复杂的纹理细节,而较大的接感受野则有利于获取高层上下文信息的能力。考虑到上述问题,采用空洞卷积来快速增加感受野,而不会牺牲中间特征图的空间分辨率。如图3所示,级联了残差卷积块,形成了一个独立的体系结构,称为空洞残差块DRB。
总的来说,本文提出的金字塔非局部块的好处有三个方面:1)金字塔策略采用多次卷积来生成关键特征和embedding特征的金字塔,这有助于跨不同空间尺度的纹理进行相关估计。2)在low-level图像处理领域,大多数现有的基于非局部non-local模块的深度模型是通过连接特征图中的所有像素对或将非局部依赖项限制在恒定的邻域大小内来实现的。由于内存资源有限,前一种方法仅在分辨率低的高层特征映射后插入非局部模块。后一种方法不可避免地忽略了固定邻域之外像素的有价值的相关性。通过将输入特征嵌入具有全分辨率的查询特征图和具有缩减分辨率的多个参考特征图,可以巧妙地解决该问题。通过这种方式,可以在不降低特征表示的分辨率的情况下大大减轻计算负担。3)金字塔非局部块可以轻松地合并到为其他low-level图像处理任务中的现有的模型中(例如MemNet 和RDN)。
实验与结果
保留边缘的平滑(Edge-preserving smoothing)是图像处理中的基本主题。它应该保留主要的图像结构,而忽略无关紧要的细节,这在许多计算机视觉任务(例如图像分割和轮廓检测)中至关重要。
数据集:来自于文章《A benchmark for edge-preserving image smoothing》
评价指标:PSNR/SSIM
1、对比实验:
2、消融实验
3、迁移到其他任务中的实验
图像降噪任务对比
超分辨率任务对比
图像降噪任务定量比较
超分辨率任务定量比较
4、计算量比较
更多细节可参考论文原文。