超越SwinIR，Mamba入局图像复原，达成新SOTA

AIWalker

发布于 2024-02-29 07:31:33

1.1K0

文章被收录于专栏：AIWalkerAIWalker

https://arxiv.org/abs/2402.15648 https://github.com/csguoh/MambaIR

最近，选择性结构化状态空间模型（例如 Mamba）在具有线性复杂性的远程依赖关系建模方面表现出了巨大的潜力，但它在低级计算机视觉中仍处于探索之中。

在这项工作中，我们引入了一个简单但强大的基准模型，名为 MambaIR，用于图像恢复。具体来说，我们提出残差状态空间块作为核心组件，它采用卷积和通道注意力来增强普通曼巴的能力。通过这种方式，我们的 MambaIR 利用局部补丁重现先验以及通道交互来生成特定于恢复的特征表示。

大量实验证明了我们方法的优越性，例如，使用类似的计算成本但具有全局感受野，MambaIR 的性能比基于 Transformer 的基线 SwinIR 提高了 0.36dB。

第一个通过大量实验制定 MambaIR 来调整状态空间模型以进行低级图像恢复，MambaIR 是 CNN 和 Transformer 的简单但有效的替代方案。
提出了剩余状态空间块（RSSB），它可以通过局部空间先验和通道交互来增强原始Mamba 的能力。
对各种任务的广泛实验表明，所提MambaIR 优于基于 Transformer 的强大基线，可为图像恢复提供强大且有前途的骨干模型解决方案。

动机部分引自作者解析《性能超越SwinIR！MambaIR: 基于Mamba的图像复原基准模型》，链接为https://zhuanlan.zhihu.com/p/684248751

Transformer模型已经在底层视觉领域取得了十分瞩目的成果，例如IPT，SwinIR等等。最近随着先进的状态空间模型Mamba的出现以及其在NLP中的喜人表现，使用Mamba来做各类视觉任务变得十分有趣。

对于图像复原任务来说，我们总结出Mamba相较于之前的CNN和Transformer具有如下优势：

对于CNN来说，CNN具有静态权重以及局部感受野，这大大限制了模型利用更多像素的能力，正如HAT指出的那样。而Mamba则具有全局的感受野，可以以整个图像作为token序列作为输入。
对于Transformer来说，虽然标准的注意力机制具有全局感受野，但是在图像复原任务中使用这一机制将会带来无法接受的计算代价，因此为了折中，目前的工作大多使用了SwinTR的机制，但是这同样限制了感受野同时window的边缘也容易产生伪影。

下面是MambaIR与基于CNN的方法（EDSR，RCAN）和基于Transformer的方法（SwinIR，HAT）在有效感受野上的对比结果，可以看到MambaIR具有正幅图像范围的感受野，从而可以更加充分地利用图像块重复先验。