论文信息
近年来,图像恢复领域取得了显著进展,主要归功于现代深度神经网络(如CNN和Transformer)的发展。然而,现有的恢复骨干网络在全局感受野和高效计算之间面临困境,限制了其在实际应用中的应用。最近,选择性结构化状态空间模型(尤其是改进版Mamba)在长程依赖建模方面展现出巨大潜力,具有线性复杂度,为解决上述困境提供了一种方法。然而,标准的Mamba在低级视觉任务中仍面临局部像素遗忘和通道冗余等挑战。在本文中,作者提出了一种简单但有效的基线模型,名为MambaIR,通过引入局部增强和通道注意力来改进原始Mamba。通过这种方式,MambaIR利用了局部像素相似性并减少了通道冗余。大量实验证明了作者方法的优越性,例如,MambaIR在图像超分辨率任务中比SwinIR高出0.45dB,且具有相似的计算成本但拥有全局感受野。
图像恢复, 状态空间模型, Mamba
如图2所示,MambaIR由三个阶段组成:浅层特征提取、深层特征提取和高质量重建。给定低质量(LQ)输入图像,作者首先使用卷积层从浅层特征提取中生成浅层特征,其中和表示输入图像的高度和宽度,是通道数。随后,浅层特征经过深层特征提取阶段以获取第层的深层特征,。该阶段由多个残差状态空间组(RSSG)堆叠而成,每个RSSG包含若干残差状态空间块(RSSB)。此外,在每个组末尾引入额外的卷积层以细化从RSSB提取的特征。最后,作者使用元素级求和来获得高质量重建阶段的输入,用于重建高质量(HQ)输出图像。
在之前的基于Transformer的恢复网络中,块设计主要遵循Norm Attention Norm MLP流程。尽管Attention和SSM都可以建模全局依赖性,但作者发现这两个模块的行为不同(详见补充材料),简单地将Attention替换为SSM只能获得次优结果。因此,为基于Mamba的恢复网络定制全新的块结构是有前景的。
为此,作者提出了残差状态空间块(RSSB)以适应SSM块用于恢复。如图2(a)所示,给定输入深层特征,作者首先使用LayerNorm(LN),然后使用视觉状态空间模块(VSSM)捕捉空间长期依赖性。此外,作者还使用可学习比例因子来控制跳跃连接的信息:
此外,由于SSM处理展平特征图作为1D token序列,序列中邻近像素的数量受到展平策略的极大影响。例如,当采用四向展开策略时,锚点像素只能感知四个最近的邻居(见图3(a)),即2D特征图中的某些空间接近像素在1D token序列中距离较远,这种过度距离可能导致局部像素遗忘。为此,作者在VSSM后引入额外的局部卷积以帮助恢复邻近相似性。具体来说,作者首先对进行LayerNorm归一化,然后使用卷积层补偿局部特征。为了保持效率,卷积层采用瓶颈结构,即通道首先通过因子压缩以获得形状为的特征,然后进行通道扩展以恢复原始形状。
此外,SSM通常引入较大的隐藏状态数量以记忆非常长程的依赖关系,作者在图3(b)中可视化了不同通道的激活结果,发现存在显著的通道冗余。为了促进不同通道的表达能力,作者在RSSB中引入了通道注意力(CA)。通过这种方式,SSM可以在后续通道注意力选择关键通道后,专注于学习多样化的通道表示,从而避免通道冗余。最后,另一个可调比例因子用于残差连接以获得RSSB的最终输出。上述过程可以表示为:
为了保持效率,基于Transformer的恢复网络通常将输入划分为小patch或采用移位窗口注意力,阻碍了整个图像级别的交互。受Mamba在长程建模中具有线性复杂度的成功启发,作者引入了视觉状态空间模块用于图像恢复。
视觉状态空间模块(VSSM)可以通过状态空间方程捕捉长程依赖性,VSSM的架构如图2(b)所示。遵循[44],输入特征将通过两个并行分支。在第一个分支中,特征通道通过线性层扩展到,其中是预定义的通道扩展因子,随后是深度卷积、SiLU激活函数、2D-SSM层和LayerNorm。在第二个分支中,特征通道也通过线性层扩展到,随后是SiLU激活函数。之后,两个分支的特征通过Hadamard积进行聚合。最后,通道数投影回以生成与输入形状相同的输出:
其中DWConv表示深度卷积,表示Hadamard积。
标准的Mamba以因果方式处理输入数据,因此只能捕捉扫描部分数据内的信息。这种特性非常适合涉及顺序性质的NLP任务,但在转移到非因果数据(如图像)时面临显著挑战。为了更好地利用2D空间信息,作者遵循[44]并引入了2D选择性扫描模块(2D-SSM)。如图2(c)所示,2D图像特征通过沿四个不同方向(左上到右下、右下到左上、右上到左下、左下到右上)扫描展平为1D序列。然后根据离散状态空间方程捕捉每个序列的长程依赖性。最后,所有序列通过求和操作合并,随后进行重塑操作以恢复2D结构。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有