如何有效探索雨纹的多尺度表示对于图像去雨至关重要。与现有主要依赖单一尺度雨纹外观的Transformer方法不同,作者开发了一种端到端的多尺度Transformer,利用不同尺度中潜在有用的特征来促进高质量图像重建。为了更好地探索来自空间变化雨纹的常见退化表示,作者在闭环设计中结合了基于像素坐标的内部尺度隐式神经表示与退化输入,使学习到的特征能够促进雨纹去除并提高模型在复杂场景中的鲁棒性。为了确保不同尺度之间更丰富的协作表示,作者在多尺度Transformer中嵌入了一个简单而有效的跨尺度双向反馈操作,通过粗到细和细到粗的信息交流来实现。大量实验表明,作者的方法(称为NeRD-Rain)在合成和真实世界的基准数据集上均优于最先进的方法。
为了更好地探索多尺度信息并建模复杂雨纹,作者精心开发了一种有效的双向多尺度Transformer,结合隐式神经表示(称为NeRD-Rain),包括一个内部尺度INR分支和一个跨尺度双向分支。前者学习来自不同雨图像的潜在退化表示,而后者实现不同尺度之间的更丰富协作表示。图2总结了NeRD-Rain的架构。
给定一个雨图像,其中表示输入图像的空间分辨率,作者的方法首先使用双线性插值将输入图像下采样为多尺度版本(即1/2和1/4)。从最粗到最细的图像尺度,作者将每个尺度的重采样图像分别指定为、和。与之前的多尺度方法不同,作者的方法在较细尺度上使用更深的架构来处理空间变化的雨纹。在每个尺度上,作者提出了不等的Transformer分支来执行深度特征提取并生成一组特定尺度的输出。具体来说,NeRD-Rain在每个尺度(从到)分别配备了1、2和3个UNet。每个UNet由一系列Transformer块组成。这些UNet共享相同的网络架构但具有独立的权重。
为了捕捉常见的雨退化特征,作者进一步在多尺度Transformer中集成了一个内部尺度INR分支,通过学习以下映射函数来训练一个多层感知器(MLP):
其中输入维度对应于每个像素的空间坐标,输出维度对应于像素的颜色通道。
具体来说,作者在相邻Transformer分支的输入之间插入INR,以同步实现雨纹重建。首先,输入图像被转换为一个特征图,具有像素和通道的空间分辨率。与使用单独编码器的INR不同,作者构建了一个共享编码器,与Transformer分支交互形成一个紧凑的闭环架构,其中这两种表示(即特定尺度和常见雨纹表示)可以相互补充。此外,来自空间变化雨纹的每个像素的位置记录在一个相对坐标集中,其中值“2”表示水平和垂直坐标。如建议的那样,作者还采用周期性空间编码将像素坐标投影到更高维空间,以更好地恢复高频细节。编码过程表述为:
其中表示空间编码函数,是的坐标值,并归一化到范围内。是一个确定维度值的超参数,作者在实验中设置。
随后,使用解码器通过结合和来预测输出图像的RGB值。解码器由三层MLP组成,每层具有256个隐藏维度。需要注意的是,拟合INR以重建图像需要为MLP 找到一组小尺寸的参数。因此,不同类型的雨纹产生不同的参数集,这意味着MLP对所有退化图像的共同特征具有自适应性。与类似,作者计算周围网格预测的加权平均值以获得最终重建图像的RGB值(),这可以被视为隐式神经插值过程。该过程表述为:
其中是一个特征向量,表示一个共享编码器,是围绕的四个最近(欧几里得距离)潜在代码的索引集,表示局部集成权重,满足。
在实验中,作者进一步发现这一过程可以自然地促进雨纹去除,而无需任何额外操作。同样,一些研究也指出INR中的低通滤波特性。由于雨纹效应引起的强烈反射,受雨影响的像素往往表现出高强度值,即白色雨纹。因此,作者将INR的去雨能力归因于一个基本事实,即受雨影响的像素的强度值往往超过其邻近非雨像素的强度值。
与在固定尺度上表示图像的INR不同,作者提出了一种级联尺度图像表示的INR。受启发,作者的网络训练了两个不同的MLP,即一个粗特征网格和一个细特征网格。通过这种顺序的粗到细训练,INR实现了更有效的信息传输,自然地在不同尺度之间共享信息。通过上述所有设计,作者的INR分支可以更好地学习常见雨退化特征,使学习到的特征对复杂和随机雨纹具有鲁棒性。这些设计在第5节中展示了性能提升。
尽管内部尺度INR分支从粗到细进行特征估计,但当较粗尺度的特征估计不正确时,它会影响后续尺度的特征估计。为了克服这个问题,作者在多尺度Transformer中引入了一个跨尺度双向分支,实现粗到细和细到粗的特征传播。具体来说,与使用复杂且耗时的LSTM不同,作者提出了一个简单而有效的双向反馈传播单元(BFPU),而无需增加太多成本。每个BFPU接收当前细尺度上两个UNet的瓶颈层特征(和)作为输入。BFPU的输出传递到前一个粗尺度UNet的瓶颈层。这样,提出的BFPU可以表述为:
其中是一个卷积层,表示Sigmoid函数,是元素级乘法,表示通道级连接。
通过这种设计,跨尺度双向分支具有三个优势:(1)它可以利用后续(较细)尺度的互补信息来帮助当前(较粗)尺度的图像恢复,(2)它可以在不等待前一尺度去雨结果的情况下提前进行特征传播流,(3)它对图像内容的变化(如尺度的变化)具有鲁棒性。作者将在第5节中展示其有效性。
为了在多尺度方式下联合学习基于UNet的传统表示和基于INR的连续表示,作者的网络通过混合损失函数进行端到端训练。遵循,作者采用Charbonnier损失、频率损失和边缘损失来约束特定尺度的学习。此外,作者还采用范数来避免INR预测RGB时的颜色偏移。基于一个粗特征网格和一个细特征网格,总的INR相关损失计算如下:
其中和分别表示INR的尺度重建图像和尺度目标真值图像。提出的损失函数定义为:
其中标量权重、和分别经验设置为、和。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。