前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【他山之石】超越 CNN 与 Transformer ? MambaDepth 网络在自监督深度估计中表现卓越 !

【他山之石】超越 CNN 与 Transformer ? MambaDepth 网络在自监督深度估计中表现卓越 !

作者头像
马上科普尚尚
发布2024-06-21 16:40:57
1250
发布2024-06-21 16:40:57
举报

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!

在自监督深度估计领域,卷积神经网络(CNNs)和Transformer一直占据主导地位。然而,由于它们对局部焦点或计算需求的限制,这两种架构在有效处理长距离依赖方面存在困难。为了克服这一限制,作者提出了MambaDepth,一个为自监督深度估计量身定制的多功能网络。

作者从Mamba架构中获得灵感,Mamba以其在处理长序列方面的卓越能力和通过状态空间模型(SSM)高效捕捉全局上下文的能力而闻名,作者引入了MambaDepth。这种创新架构结合了U-Net在自监督深度估计中的有效性以及Mamba的高级能力。MambaDepth围绕一个纯粹基于Mamba的编码器-解码器框架构建,融入跳跃连接以在网络各个层级保持空间信息。

这种配置促进了广泛特征学习过程,使得能够在深度图中捕捉到细节和更广泛的上下文。

此外,作者开发了一种在Mamba块中的新型集成技术,以促进编码器和解码器组件之间无间断的连通性和信息流,从而提高深度准确性。

在公认的KITTI数据集上的全面测试表明,在自监督深度估计任务中,MambaDepth优于领先的CNN和Transformer基础模型,使其达到最先进的表现。

此外,MambaDepth在其他数据集如Make3D和Cityscapes上证明了其卓越的泛化能力。

MambaDepth的性能预示着在自监督深度估计中有效长距离依赖建模的新时代的到来。

代码可在https://github.com/ionut-grigore99/MambaDepth获取。

I Introduction

单图像精确深度估计是计算机重建和理解真实场景的一个活跃研究领域。它在自动驾驶、机器人、增强现实等多样化领域也有着广泛的应用。尽管监督式单目深度估计已取得成功,但它面临着获取真实数据的昂贵成本。此外,在稀疏监督下,监督式深度估计器常常面临优化挑战,并且在新的、未聚焦的场景中表现出有限的适应性。

近年来,自监督方法越来越受到重视。当前的策略主要集中于利用自蒸馏技术[45],融入深度提示[59],以及采用多帧推理[60, 11]。尽管有了这些进步,一个共同的不足是它们无法捕捉到详细场景的复杂性,如图1所示。挑战在于在自监督框架内有效且高效地学习这些细粒度的结构细节。

卷积神经网络(CNNs)[36]和 Transformer (Transformers)[56]是自监督深度估计领域的两种重要架构。像Monodepth2[17]和MiDaS[49]这样的CNN,在参数效率方面优于传统的全连接网络,擅长分层特征提取。它们的权重共享结构是识别平移不变性和局部模式的关键。相比之下,最初为自然语言处理开发的 Transformer ,已很好地适应了图像处理任务。例如,图像识别中的Vision Transformer(ViT)[8]和作为多功能视觉任务 Backbone 的SwinTransformer[40]。与CNNs不同, Transformer 不是将图像作为空间层次处理,而是作为 Patch 序列处理,从而增强了它们的全局信息捕捉能力。这一区别导致了结合CNNs和Transformers的混合架构的出现,如Depthformer[38],TransDepth[61]和DPT[48]。

尽管 Transformer 擅长处理长距离依赖,但由于自注意力机制的输入大小与二次方成正比,它带来了相当大的计算负担。这对于用于深度估计的高分辨率图像尤其具有挑战性。为了解决这个问题,状态空间序列模型(SSMs)[21, 25],尤其是结构化状态空间序列模型(S4)[24],已经显示出潜力。它们为深层网络构建提供了一种高效有效的方法,如在Mamba[22]中,通过选择机制和硬件感知设计优化S4。这些模型在语言、基因组学以及在图像[43]和视频分类[29]等视觉任务中显示出潜力。由于图像块和特征可以作为序列[40, 8]处理,这鼓励探索SSMs,特别是Mamba块,以增强U-Net的长距离建模能力。

作者的主要贡献如下:

  • 作者提出了MambaDepth,这是一个为自监督深度估计设计的多功能网络,它利用了一种新颖的基于SSM的结构,有效捕捉图像内部的局部细节和广泛依赖,从而获得了单幅图像的细粒度场景几何。据作者所知,这是首次将SSMs用于自监督深度估计。它通过提供线性特征尺寸缩放,避免了 Transformer 通常的二次复杂度,与传统的基于 Transformer 的模型区分开来。此外,作者开发了一种新的Mamba块整合技术,确保了编码器和解码器组件之间的无缝连接和信息流,从而提高了深度精度。
  • 作者在KITTI数据集上的广泛评估显示了MambaDepth的卓越性能,它在准确性和效率方面显著优于基于 Transformer 的网络和现有的自监督替代方案。此外,通过将KITTI预训练模型应用于包括Make3D和Cityscapes在内的多样化数据集,展示了MambaDepth增强的泛化能力。
  • 这一突破为未来网络设计奠定了基础,这些设计能够高效且有效地在自监督深度估计中处理长距离依赖。

II Related work

Supervised Depth Estimation

Eigen等同事[10]是采用基于学习策略的先驱,他们使用结合了多尺度卷积神经网络和尺度不变损失函数的方法,从单张图像估计深度。这一开创性的方法此后启发了一系列后续的研究方法。总的来说,这些技术可以分为两大类:一种将深度估计视为像素级的回归问题,如[10, 28, 48]和[66]中的工作所示;另一种方法将其视为像素级的分类挑战,如[12]和[7]的研究所示。虽然基于回归的方法能够预测连续的深度值,但它们通常存在优化上的挑战。另一方面,基于分类的方法虽然优化起来较为简单,但局限于预测离散的深度值。为了创新性地结合回归和分类的优点,一些研究,特别是[1, 31]中引用的研究,将深度估计重新定义为在像素 Level 上同时涉及分类和回归的双任务。这种方法首先对一系列深度箱进行回归,然后进行像素级分类,每个像素被分配到其对应的箱中。最终的深度值然后通过这些箱中心的线性组合得出,权重由它们各自的可能性给出。这种混合技术已经在准确性方面显示出显著的提升。

Self-supervised Depth Estimation

在缺乏直接真实数据的场景中,自监督模型通常是通过利用单目视频序列中的时间一致性,如研究[17, 67]中所探讨的,或者立体图像对中观察到的左右一致性,这一概念在参考文献[46, 14, 16]中被研究。

单目训练方法:这种方法从参考帧合成的场景视图与源帧的实际视图之间的相符性中获得监督。一个著名的例子是SfMLearner [46],它使用光度损失函数同步训练一个DepthNet和一个单独的PoseNet。在此基础上,提出了许多增强方法。这些包括鲁棒图像级重建损失[53, 20],特征级重建损失[53, 64],在训练过程中融入辅助信息[34, 59],策略处理破坏静态场景假设的动态目标[17, 20, 50, 57, 5, 2, 33, 37, 63],以及额外的约束[62, 63, 50, 4, 18, 26, 69]。

立体训练方法:这里使用同步的立体图像对,专注于预测视差图[52],这实际上是深度图的逆。在已知相对相机姿态的情况下,模型的任务简化为预测视差图。Garg等人[14]在这方面开创了先河,使用自监督的单目深度估计器,在立体对之间应用光度一致性损失。随后的改进包括实施左右一致性[16]和视频中的时间一致性[64]。Garg等人[13]通过允许预测连续视差值进一步改进了这一点。基于立体的方法已经发展到包括半监督数据[35, 41],使用辅助信息[59],指数概率体积[19],以及自蒸馏技术[47, 27, 45]。立体视图为监督提供了理想的参考,也可以在推导绝对深度尺度时起到关键作用。

然而,现有的自监督方法仍然难以生成高保真的深度图。当前技术主要依赖于直接的视觉特征,或者利用Transformer [8]增强的高级视觉表示,经常忽视像素级几何线索在显著提高模型性能和泛化能力方面的重要作用。

State Space Models

Mamba[22]代表了SSMs的进一步发展,特别是在离散数据建模方面,如文本和基因组序列。Mamba引入了两项重大改进。首先,它结合了一个与输入相关的选择机制,与传统的、不变SSMs不同。这种机制通过根据输入数据定制SSM参数,高效地过滤信息。其次,Mamba采用了一种硬件优化的算法,该算法与序列长度成线性扩展,并使用扫描过程进行循环计算,提高了现代硬件上的速度。Mamba的架构,将SSM块与线性层相结合,特别更加精简。它在包括语言和基因组在内的各种长序列领域中取得了顶级结果,在训练和推理阶段均展示了相当的计算效率。

III Method

以下是III方法部分的开始。

Self-supervised framework

在本节中,作者描述了作者的模型框架,并介绍了在模型训练过程中如何提供监督信号。从根本上说,作者的方法是一种运动结构(SfM)的形式,其中单眼相机在刚体环境中移动,以提供该场景的多个视图。作者的框架建立在Monodepth2 [17]之上。

作者的目标是训练两个CNN网络同时估计相机的姿态和场景的结构,分别如下:

自我监督的深度预测将学习任务重新定义为一种新颖的视图合成问题。具体来说,在训练过程中,作者让耦合网络从源帧的另一视点合成目标帧的光照一致性外观。作者将深度图视为一个中间变量,以约束网络完成图像合成任务。

作者的自监督框架概览。

MambaDepth

在本节中,作者详细阐述了MambaDepth核心组件的设计细节。

Mamba框架在处理各种离散数据方面表现出卓越的有效性。然而,其在图像数据处理方面的应用,特别是在自监督深度估计领域,尚未得到充分探索。[42]提出了一种结合CNN-SSM的混合架构U-Mamba,以处理生物医学图像分割中的长距离依赖关系,[68]构建了一个基于纯SSM的模型,该模型可作为通用的视觉主干网络,但它们在大规模下的效率尚未完全明了。图像本质上是连续信号离散采样,可以转换为扩展序列。这一特性表明,利用Mamba的线性扩展优势有望提升UNet架构在建模广泛范围依赖关系的能力。尽管使用Transformer进行图像处理(如ViT和SwinTransformer)已取得成功,但由于自注意力机制的二次复杂度,它们在大图像上的应用受到显著计算需求的限制。这一挑战提供了一个利用Mamba的线性扩展来增强UNet对长距离依赖建模能力的机会。

在自监督深度估计中,Monodepth2 [17]及其衍生产品因其在对称编码器-解码器结构方面表现突出。这种结构擅长通过卷积方法提取多级图像特征。然而,该设计在捕捉图像中的长距离依赖关系方面受到限制,因为卷积核关注的是局部区域。每个卷积层仅处理其有限感受野内的特征。尽管跳跃连接有助于合并详细和抽象特征,但它们主要增强的是局部特征组合,而不是广泛范围依赖的建模。

MambaDepth是一种新颖的设计,它融合了Monodepth2 [17]和Mamba [22]的优势,以全面理解自监督深度估计中的全局上下文。图3展示了MambaDepth的结构,其组成独特,包括嵌入层、编码器、解码器、视差头和简单的跳跃连接,与之前工作中常见的经典设计有所不同。

在此架构中,跳跃连接通过简单的加法操作实现,有意避免引入额外参数,从而保持模型的效率和简洁性。

MD block

MambaDepth的核心是MD(Mamba深度)模块,它是从VMamaba[39]改编而来的,如图5所示。这个模块首先对输入进行层归一化,然后分为两条不同的路径。第一条路径通过线性变换和激活阶段传递输入,而第二条路径则将输入经历一系列过程,包括线性变换、深度可分离卷积和激活,然后将其引导到2D-Selective-Scan(SS2D)组件进行高级特征提取。在此之后,提取的特征经过层归一化,然后通过元素乘法与第一条路径的输出合并,最后通过线性变换整合。这个过程通过残差连接进行增强,最终形成MD块的输出。在本研究中,激活函数一致使用了SiLU函数。

SS2D机制包含三个基本阶段:扩展扫描的操作、用于处理的S6块以及扫描合并操作。如图4所示,扩展阶段将输入图像沿四个方向(对角线和反对角线)展开成序列。这些序列随后由S6块进行细化,这个过程仔细地从所有方向扫描信息以提取全面范围的特征。在此之后,通过合并操作重新组合这些序列,确保输出图像恢复到原始尺寸。创新的S6块,从Mamba发展而来并在S4结构的基础上构建,引入了一个选择性滤波器,通过微调状态空间模型(SSM)的参数来动态调整以适应输入。这种调整使得系统能够有选择地关注并保留相关信息,同时丢弃不必要的内容。

Loss function

目标函数。

为了确保在缺乏纹理的区域进行适当的深度正则化,作者采用了边缘感知的平滑损失,以下列方式应用:

最终训练损失。 作者通过将作者的逐像素平滑损失与 Mask 光度损失相结合来制定最终的损失:

IV Experiments

作者使用公共数据集KITTI来评估MambaDepth的有效性。作者通过几种来自[9]的已建立指标来衡量模型的性能。

Datasets and Experimental Protocol

KITTI[15]数据集以其立体图像序列而闻名,被广泛应用于自监督的单目深度估计。作者采用了Eigen划分[9],包含大约26,000张图像用于训练,697张用于测试。作者的MambaDepth方法在KITTI上的训练条件极为有限:它仅使用自动 Mask [17],没有额外的立体图像对或辅助数据。在测试时,作者保持挑战性场景,只使用单帧作为输入,与其他可能使用多帧以增强准确性的方法形成对比。

Cityscapes[6]数据集因其复杂性和丰富的移动物体而著称,它作为评估MambaDepth适应性的测试平台。为此,作者在Cityscapes上进行了零样本评估,使用在KITTI上预训练的模型。重要的是要强调,与许多竞争方法不同,作者在评估中不使用运动 Mask 。在数据准备方面,作者遵循[67]中概述的预处理程序,这些程序也被其他 Baseline 采用,将图像序列转换为三元组。

Make3D[51]。为了评估MambaDepth在泛化到新的、未见过的图像方面的能力,作者在Make3D数据集上对最初在KITTI数据集上训练的模型进行了零样本评估。此外,还提供了深度图的补充可视化。

Implementation Details

KITTI Results

作者使用标准的KITTI Eigen分割[9]来评估作者的MambaDepth,该分割包括697张图片与原始激光雷达扫描配对。其中652张图片可获得改进的 GT 标签[55]。为了解决在视频序列上训练的深度模型中的单目尺度模糊问题,作者通过每张图片的中位数 GT 值[67]来缩放估计的深度。

表1展示了现有最先进的自监督框架的处理结果,这些框架处理低分辨率(640×192)或高分辨率(1024×320)的图片。MambaDepth在所有训练分辨率的所有指标上显著优于现有最先进的方法,其中一些方法仅基于立体视频[59, 45]进行训练,或者在使用双目视频的同时,MambaDepth完全基于单目视频进行训练。值得注意的是,MambaDepth在准确度上大幅超过MonoViT [65],Lite-Mono [71]和MT-SfMLearner [77],这些是目前尝试在自监督单目深度估计中使用Transformers或自注意力机制的最好方法。

表2展示了使用改进的 GT 标签计算的相同指标,这些指标针对640×192分辨率和1024×320分辨率的图片。再次,MambaDepth一致显示出更高的准确度。

图6将MambaDepth与一些竞争模型进行了比较,表明作者的模型显著降低了RMSE。这种比较突显了MambaDepth在建模物体间长距离关系方面相较于现有模型的卓越能力。

图7:关于在KITTI Eigen测试集上的绝对相对差异(Abs Rel)的模型参数与性能。作者的模型在计算成本方面更高效、更准确。

如图8所示,在计算成本方面,模型也更高效、更准确,作者针对KITTI Eigen测试集上的更多现有最先进方法,比较了绝对相对差异与每秒吉咖乘加计算量。至于参数比较,细节请见图7。### Cityscapes结果

为了评估MambaDepth的泛化能力,作者进行了零样本评估。为此,作者利用在KITTI上预训练的模型处理416×128分辨率的图片。如表3总结的结果所示,与表3中大多数使用单目视频和立体图像对组合进行训练的 Baseline 不同,完全基于单目视频训练的MambaDepth表现出色。值得注意的是,与著名的ManyDepth [60]相比,MambaDepth实现了1.75%的误差降低,ManyDepth使用两帧(上一帧和当前帧)作为输入。这些发现强调了MambaDepth卓越的泛化能力。

Make3D Results

为了进一步评估MambaDepth的泛化能力,作者使用了从KITTI预训练得到的权重,在Make3D数据集[51]上进行了零样本评估。遵循[16]中描述的评估协议,作者对一个宽高比为2:1的中心裁剪区域进行了测试。如表格IV和图9所示,MambaDepth优于 Baseline 方法,生成了更清晰且场景细节更精确的深度图。这些结果突显了作者模型的卓越零样本泛化能力。

Ablation study

在这里,作者探讨了使用KITTI数据集对MambaDepth进行初始化的影响。作者用和不用在ImageNet上预训练的权重来初始化MambaDepth。表5显示的结果表明,更强大的预训练权重显著提高了MambaDepth的后续有效性,突显了这些初始权重的重要作用。

V Conclusions

在作者的研究中,作者重新审视了自监督单目深度估计的挑战,并提出了一种新颖高效的方法,作者将其命名为MambaDepth。该方法旨在克服在捕获长距离依赖性方面的挑战,这是CNN的局部性质和Transformer的计算强度所限制的。

MambaDepth是一个纯粹基于Mamba块的U-Net风格网络,用于自监督单目深度估计。

它在KITTI数据集上取得了卓越的、最新的性能表现。

此外,作者还展示了作者的模型在各种设置中的增强泛化能力。作者的发现使MambaDepth成为未来高级自监督深度估计网络的领先竞争者。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related work
  • Supervised Depth Estimation
  • Self-supervised Depth Estimation
  • State Space Models
  • III Method
  • Self-supervised framework
  • MambaDepth
  • MD block
  • Loss function
  • IV Experiments
  • Datasets and Experimental Protocol
  • Implementation Details
  • KITTI Results
  • Make3D Results
  • Ablation study
  • V Conclusions
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档