前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !

PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !

作者头像
未来先知
发布2024-09-29 11:13:52
70
发布2024-09-29 11:13:52
举报
文章被收录于专栏:未来先知

语义分割是遥感领域(RS)的一个重要任务。然而,传统的卷积神经网络(CNN)和基于Transformer的模型在捕捉长期依赖关系方面存在局限,且通常计算密集。 最近,引入了一种高级状态空间模型(SSM),称为Mamba,它提供了线性计算复杂度,同时有效地建立了长时间依赖关系。 尽管它们具有优势,但基于Mamba的方法在保留局部语义信息方面面临挑战。为应对这些挑战,本文提出了一种新的网络,称为堆叠池化Mamba(PPMamba),该网络集成了CNN和Mamba,用于RS语义分割任务。 PPMamba的核心结构,即堆叠池化状态空间模型(PP-SSM)块,将局部辅助机制与可以从中选择扫描八个方向的全方向状态空间模型(OSS)结合,捕捉全面特征信息。 此外,辅助机制包括设计为提取多个尺度的特征金字塔状卷积分支。在两个广泛使用的数据集(ISPRS Vaihingen和LoveDA Urban)上的大量实验表明,与状态最先进的模型相比,PPMamba实现了有竞争力的性能。

I Introduction

遥感(RS)技术的快速发展极大地改变了作者对地球时间和空间尺度的认识。遥感技术在农业、林业、地质学、气象学、军事和环境保护等领域得到广泛应用,实现了系统性的分析、评估和预测。在这些应用中,语义分割在许多下游地质学任务中起着重要的作用,如土地覆盖分类和城市扩张监测等。

近年来,深度学习在RS语义分割方面的性能得到了显著提高,这主要得益于其从RS图像中提取抽象和层次结构特征的能力。卷积神经网络(CNN)和 Transformer 是最常用的技术,在最佳深度学习模型中。CNN基于的模型擅长捕捉局部信息,而 Transformer 基于的模型则利用自注意力机制来模拟远程依赖性。然而,这些方法在RS应用中仍存在局限性。基于CNN的模型受限于感受野,难以捕捉全局上下文,而 Transformer 虽然能够模拟远程依赖关系,但在处理高分辨率、大规模的RS数据时,面临显著的计算机挑战。

为了解决这些问题,Mamba,一种基于状态空间模型(SSM)的新型网络,被引入 [17],为有效捕捉RS图像语义分割的长程依赖性提供了一个有前途的解决方案,计算复杂度为线性。各种基于SSM的模型已经成功应用于不同领域,包括计算机视觉的Vamba [18]和Vision Mamba [19],以及RS领域的RS3Mamba [20]和RS2Mamba [21]。类似Mamba-in-Mamba [22]用于光谱图像分类,Pan-Mamba [23]和ChangeMamba [24]用于RS图像上/下采样和变化检测等创新也应运而生。尽管这些模型具有许多优点,但它们在描述局部细节方面仍然存在局限性,这对于精确RS图像分割至关重要。

本文提出了一种名为Pyramid Pooling Mamba (PPMamba)的新网络,旨在解决现有基于SSM的RS图像语义分割方法中局部信息丢失的问题。PPMamba由多个层的Pyramid Pooling-State Space Model(PP-SSM)块组成,每个块都构建了多分支基于卷积的模块,以帮助模型从图像块中捕获特征。此外,辅助的多分支卷积模块采用金字塔形状,以便从不同尺度捕捉特征。由于RS图像中的土地覆盖模式呈各种方向,模型具有全向状态空间(OSS)块,最大限度地建立远程依赖关系。PP-SSM结构只包含Mamba和卷积模块,这使得学习远程依赖关系具有线性计算复杂度。在两个广泛使用的数据集,ISPRS Vaihingen和LoveDA Urban上进行了大量实验,验证了PPMamba的有效性。结果表明,与最新模型相比,PPMamba在保持线性计算复杂度的条件下,性能更好,突显了其解决RS图像语义分割独特挑战的潜力。本文的主要贡献可以总结如下:

  1. 提出了一种新的基于Mamba的网络,PPMamba,可有效地在保持线性计算复杂度的条件下,模型局部和全局关系。通过集成基于CNN的卷积池和Mamba模型,PPMamba在平衡细致局部特征提取与全局上下文建模方面解决了现有方法的限制。
  2. PPMamba的核心结构,即PP-SSM块,引入了一种金字塔状的卷积模块与OSS。这种模块有效地将来自八个不同方向的八尺度局部特征与全局特征融合在一起,增强模型在RS图像中捕捉多样土地覆盖模式的能力。

其余部分如下: II 回顾与PPMamba相关的架构和技术的相关工作。在细节中,III 详细介绍了所提出的方法。 IV 呈现了实验结果和讨论,随后在V中给出了结论。

用符号表示:向量和矩阵分别用粗体字母表示。表示 的单位矩阵,而表示所包含的向量的转置。

II Related Work

人工智能(AI)已经引起了广泛关注,并成为计算机科学领域的一个重要研究方向。本文旨在对与本文相关的前人研究成果进行回顾和综述,以便为后续研究提供理论基础和指导。

关于人工智能的研究,最早可以追溯到20世纪50年代。早期的人工智能研究主要集中在符号主义学派,这一学派将人工智能定义为使机器能够像人类一样表现智慧和智能行为的系统。然而,在20世纪70年代,由于联机网络的出现,机器学习得到了前所未有的发展和关注。机器学习算法可以应用于许多领域,如模式识别、自然语言处理、图像识别等。

近年来,深度学习在计算能力和精度方面的优势得到了广泛认可。深度学习利用大量的神经网络层来对数据进行建模,并在图像识别、语音识别、自然语言处理等领域取得了显著的成果。此外,深度学习在计算机视觉领域中的应用也受到了密切关注,如图像分割、目标检测、场景理解等任务。

本文将详细讨论与本文主题密切相关的前人研究成果,包括最近的发展和未来趋势。最后,作者将讨论本研究的主要贡献和创新点,并展望未来的研究方向。

Remote Sensing Image Semantic Segmentation

早期的遥感图像语义分割方法主要依赖于传统图像处理技术和经典机器学习算法。像素级分类等方法被广泛采用,其中最大似然分类器(MLC)[27]和支持向量机(SVM)[28]因其简单有效而受欢迎。然而,这些方法通常难以捕捉空间信息,而且在处理高维复杂目标类别时表现不佳。

随着深度学习的出现,卷积神经网络(CNN)和 Transformer 基模型在遥感图像语义分割方面展现出巨大的潜力[29, 30, 31]。基于CNN的模型,如ResUNet-a[7],通过卷积层实现层次特征提取,并采用如残差连接和金字塔场景解析等技术进行增强。然而,CNN受限于局部感受野,难以捕捉长程依赖性。为解决这个问题, Transformer 基模型,如GLOTS[32],引入了自注意力机制以捕捉全局上下文。尽管它们具有优势,但由于计算密集性, Transformer 在处理高分辨率遥感图像时需要消耗大量资源。这些问题突显了需要新的架构以平衡分割准确性和计算效率的需求。

Mamba

Mamba架构作为 Transformer 的替代品,解决了其高计算复杂性的问题,同时捕捉了视觉数据中的远程依赖关系。Mamba基于结构状态空间模型(SSM),最初用于处理具有线性时间复杂度的连续数据[34]。从SSM转变为结构状态空间序列模型(S4)允许有效处理离散数据[34]。更具体地说,作者考虑一个将1D函数或序列通过隐状态映射的连续系统。

然而,S4模型在优化计算效率方面面临挑战,这导致了Selective Structured State Space Model(S6)的产生[17]。S6是Mamba的核心,引入了动态调整,以依赖于输入的、和,从而实现硬件感知的优化和信息选择性压缩。

近年来,许多基于SSM的模型应用于各个领域,包括计算机视觉和遥感。在计算机视觉中,Vmamba和Vision Mamba已经引入了利用SSM结构的创新方法。Vmamba保持线性复杂度,同时保留全局感受野,通过整合交叉扫描模块(CSM)来穿越空间域,并将非因果视觉图像转换为有序的纹理序列[18]。此外,Vision Mamba证明了自注意力不是视觉学习的必要条件,通过利用双向Mamba块和位置编码来对图像进行结构化和双向状态空间模型的压缩[19]。在远程传感中,RSMamba提出了一个创新的形象分类架构,引入了一个动态多路径激活机制,以增强Mamba在处理非因果数据方面的能力[20]。最近,Pan-Mamba通过整合通道交换和跨模态Mamba设计来实现跨模态信息交换,从而实现跨模态模式的有效融合[23]。

此外,Mamba-in-Mamba在超光谱图像分类方面表现出强大的性能,而ChangeMamba则开创了将Mamba架构应用于RS变化检测任务的先河[24]。尽管有了这些进展,但这些模型大多并不是专门为语义分割设计的。为了应对这个挑战,RS3Mamba被提出作为一种针对RS图像语义分割的专门设计[21]。之后,PyramidMamba引入了一个具有可适应解码器的金字塔池化设计,以捕捉多尺度语义特征[35]。但是,RS3Mamba复杂的架构给计算带来了重大负担,而PyramidMamba解码器中对金字塔池化的强调可能导致其encoder中多尺度语义特征提取不理想。

Spatial Pyramid Pooling

空间金字塔池化(SPP)的提出,是为了应对早期卷积神经网络(CNN)架构在输入尺寸上严格的限制,使得模型在没有损失关键空间信息的情况下,能够处理可变大小的输入尺寸 [36]。通过引入多级池化操作,SPP使得类似于AlexNet [37]和VGGNet [38]的模型可以保持空间层次结构,同时生成固定长度的输出向量。这一功能在高分辨图像任务中尤为重要,因为在进行缩放时,重要特征有可能被扭曲。在遥感图像分割中,SPP已广泛应用于多尺度特征提取,为适应遥感图像中的各种空间模式提供了灵活性。先进的架构,如Faster R-CNN [39]和YOLO [40]将SPP集成到它们的分割中,通过更好地捕捉不同尺度之间的上下文来提高分割精度。

尽管已经取得了这些进展,但现有的模型通常强调局部细节(如基于CNN的方法),或者全局上下文(如基于转变器的方法),这可能导致在需要对两者进行微妙理解的场景中,性能不佳。挑战在于开发一种能够有效整合多尺度局部和全局特征的架构,同时保持计算效率。

III Methodology

Proposed PPMamba

提出的PPMamba架构如图1所示。模型输入的图像尺寸为,通过一个类似于UNet的编码-解码框架进行处理。编码器在降低输入图像的空间分辨率的同时保留关键特征。

此外,解码器逐步将特征上采样到最终分割图。在编码器中,输入图像首先进行patch embedding操作,转换为特征图大小为,然后经过一系列patch merging操作和PP-SSM块的处理。这些patch merging操作依次将输入图像的空间分辨率从降低到,同时将通道数增加至16C。堆叠的PP-SSM块使得模型能够在保持计算效率的同时捕获局部和全局上下文信息。解码器包括四个上采样阶段。每个解码块将上采样的特征与相应的编码器特征和从前一个解码块中获取的特征融合在一起,实现详细空间信息的重建。输出是一个高分辨率分割图,尺寸为。

Proposed PP-SSM Block

相比之下,作者提出的PP-SSM块(如图2(b)所示),是作者在PPMamba模型中的核心结构,使用多分枝辅助方法对遥感图像语义分割具有重要作用。首先,输入在通道维度上被分成四个不同的部分,即和,如图2(b)所示。这种划分允许PP-SSM块使用四个SPP分支独立地捕捉局部特征。这些SPP分支通过堆叠具有不同核大小的一系列连续卷积层来捕捉局部特征,同时保持输入的分辨率与输出相同,从而保持局部空间信息的完整性。具体来说,和分别经过两层大小为3x3,5x5和7x7的卷积块,以及ReLU激活函数。最后,与一起输入到大小为1x1的卷积块中。

值得注意的是,使用各种核大小处理和可以形成金字塔结构,使模型能从一个更广泛的范围捕捉局部特征。金字塔形状的设计对于提取输入图像的全局特征至关重要,这对于准确的语义分割至关重要。卷积块的输出将经过ReLU激活,引入模型的非线性,并提高其学习输入数据复杂模式的能力。

在经过卷积层处理后,PP-SSM块将输出拼接在一起形成一个具有与原始输入相同通道数的统一特征图。然后,被输入到一个全方位状态空间块(OSS)[41]中,以捕捉RS图像的全局特征。OSS块在多个方向上进行选择性扫描,以从不同的角度捕获RS图像的全球依赖性和空间关系。OSS块的详细操作将在下一节中详细阐述。OSS块的输出首先进行归一化,然后被输入到一个MLP块中进行处理。归一化块可以加速训练过程,而MLP块可以调整输入的维度。

总之,PP-SSM块引入了具有各种核大小的四个基于卷积的分支来收集局部特征。此外,金字塔形状的核大小捕捉不同维度的特征。

Omnidirectional State Space Block (OSS)

如图3(a)所示,提出的OSS块的架构从层归一化阶段开始,以稳定训练过程。接下来,线性变换调整输入维度,然后数据经过深度卷积操作(DWConv)提取空间特征。主结构称为全方向选择扫描模块(OSSM)(图3(b)所示),在前向和后向四个不同角度(即八个扫描方向)上选择性地扫描特征。最后,输出经过线性变换,然后应用残差连接将输入特征与最终输出特征拼接。

OSS模块的操作如图4所示。作者用和分别表示OSS模块的输入和输出特征。扫描过程可以描述为以下:

\begin{split}\varphi_{in}^{n}&=expand(\varphi_{in}, n),\\ \varphi_{in}^{n}&=S6(\varphi_{in}^{n}),\\ \varphi_{out}&=merge(\varphi_{in}^{1},\varphi_{in}^{ 2},\varphi_{in}^{3},\varphi_{in}^{4},\varphi_{in}^{5},\varphi_{in}^{6},\varphi _{in}^{7},\varphi_{in}^{8}),\end{split} \tag{3} 其中表示八个不同的扫描方向。此外,和分别表示扫描扩展和合并操作,而是选择的扫描空间状态顺序模型[17]。

IV Experiments

Datasets

Iv-A1 ISPRS Vaihingen

瓦兴根数据集包含德国瓦兴根的高分辨率航空图像,作为德国摄影测量和遥感协会(DGPF)基准的一部分。该数据集包含16张真正的正摄影像,每张像具有分辨率像素。在作者的实验中,张正摄影像被用作训练集,剩下的张正摄影像被用于测试。训练集包括索引为和的图像,而测试集则包括索引为和的图像。每张正摄影像包含三个光谱波段:近红外(NIR)、红光和绿光(NIRRG)。地面采样距离为厘米,该数据集以五种前景类别、背景类别进行了标注:不透水表面、建筑、低植被、树木和汽车。

Iv-A2 LoveDA Urban

爱情数据集[25, 26]提供高分辨率的光栅扫描图像,包含我国南京、常州和武汉三个城市的5987个样本。本研究中,作者关注城市子集,包括1833张图像,每张图片的分辨率为1024×1024像素。该数据集分为1156张训练图像和677张测试图像。训练集的图片编号从1366到2521,测试集的图片编号从3514到4190。

图像包含三个通道:红、绿、蓝(RGB), Baseline 采样距离为30厘米。爱情城市数据集包括七个土地覆盖类别:背景、建筑物、道路、水域、荒漠土地、森林和农业。

Evaluation Metrics

平均交集与平均F1评分(mF1)用于评估模型的性能。此外,精确度和召回率用于计算F1评分。这些指标的定义和方程如下:

精确度(Precision)= TP / (TP + FP), Tag 4

召回率(Recall)= TP / (TP + FN), Tag 5

F1评分 = 2(Precision * Recall)/(Precision + Recall), Tag 6

mF1 = 1 / (k + 1) * Σi从0到k / 2(Precision * Recall)/(Precision + Recall), Tag 7

IoU = TP / (FN + FP + TP), Tag 8

mIoU = 1 / (k + 1) * Σi从0到k / TP / (FN + FP + TP), Tag 9

其中,k表示类别数,TP表示真正积极,FP表示假阳性,FN表示假阴性。

Implementation Details

随机梯度下降(SGD)被应用于所有模型的训练优化算法中。学习率、动量和衰减系数分别设置为0.01、0.9和0.0005。批量大小设置为10,而周期大小为50。在每个阶段,PP-SSM块的数量分别为[2,2,9,2]。为了验证PPMamba架构的有效性,未加载预训练策略。每个周期的评估指标计算两次。这些实验在一个运行Ubuntu 22.04.1操作系统的服务器节点上进行,配备有NVIDIA GeForce RTX 4090 GPU。这些实验所使用的框架是PyTorch 2.2.2。

Performance Comparison

为了评估PPMamba的有效性,作者对九种最先进的模型进行了比较实验, Baseline 模型为RS-Mamba [41]。比较模型包括基于CNN的方法,ABCNet [11],MANet [42]和CMTFNet [12],基于Transformer的方法,FTUNetFormer [43],混合CNN-Transformer模型,UNetFormer [43],HST_UNet [44]和TransUNet [14],以及其他基于Mamba的方法,RS3Mamba [21]。

Iv-D1 Performance comparison on ISPRS Vaihingen

表1显示,相比其 Baseline 模型RS-Mamba,PPMamba在各种评价指标上有显著提高。主要评估指标mIoU和mF1分别提高了6.83%和4.63%,证实了RS-Mamba在RS图像语义分割任务中存在局限性,而PPMamba有效地克服了这些限制。值得注意的是,PPMamba在所有五个前景类别的性能上都优于其他模型。对于不透水体类别,PPMamba的F1得分达到了91.86%,几乎比RS3Mamba高1.00%,这突显了它区分城市结构和其他土地覆盖类型能力的强大。在建筑类别中,PPMamba超出 Baseline 模型3.42%。这些优异的性能表明,PPMamba在捕捉复杂建筑形状和边界方面表现出色,这由于遮挡和阴影往往很难实现。在低植被类,PPMamba比ABCNet提高1.11%,比FTUNetFormer提高2.56%,强调了它识别和分割覆盖草、灌木和其他低矮植被区域的精确性。此外,PPMamba在树和车辆类别的F1评分和IoU最高,IoU达到80.03%,比其他模型至少高5%,比RS-Mamba高15.79%。这一改进反映了它在识别局部特征方面的增强能力,尤其是在检测汽车时,仅占据了Vaihingen图像的一小部分。这些结果已经证明了PPMamba在有效识别各种类别方面的潜力。

图5展示了在ISPRS Vaihingen数据集上分割结果的视觉比较,包括所有模型的输出、NIRRG图像和真实值。视觉结果表明,PPMamba提供了更准确、更详细的分割,特别是在建筑边界和树木、低矮植被区域。值得注意的是,只有PPMamba正确识别了图像下部的小建筑,周围是大面积的低矮植被和树木。此外,PPMamba在图像底部建筑区域(蓝色区域)的分割保持了连续准确的轮廓,建筑边界无缝地与树木和低矮植被的边界连接在一起。相比之下,其他比较模型,包括作者的 Baseline 模型RS-Mamba和ABCNet产生的蓝色区域,边缘模糊且参差不齐。PPMamba在区分低矮植被和树木类别时表现出色,而其他模型往往出现过度分割。

Iv-A2 Performance comparison on LoveDA Urban

如图6所示,所有模型在所有测试结果的视觉比较中。在右上角的角落,PPMamba清晰地划分出一个正方形红色区域,准确捕获了一个形状明确的正方形建筑,其轮廓清晰且连贯,没有显著错误。相比之下, Baseline 模型RS-Mamba和其他先进模型如CMTFNet和UNetFormer在处理这项任务时出现了困难。 Baseline 模型RS-Mamba无法清晰地描绘出正方形的形状,UNetFormer甚至将建筑的一部分错误地分类为道路。RS-Mamba也在图像下半部分检测黄色道路区域的困难,导致道路和建筑类之间的边界模糊,这导致一些道路区域被错误地分类为建筑物(红色)。相比之下,PPMamba为道路区域产生了连续且精确的边界,清晰地区分了它们与相邻类别。

综上所述,跨两种不同数据集的比较结果表明了PPMamba在RS图像语义分割中的显著潜力,这证实了PPMamba比 Baseline 模型和本研究中提到的其他先进模型更具竞争力和有效性。

Feature Capture Capability Comparison

图像特征提取方法在深度学习领域起着重要作用。然而,尽管Mamba在捕捉长期依赖关系方面表现出色,但在局部特征提取方面的能力却较差。本实验旨在通过热力图分析 Baseline 模型RS-Mamba和作者增强的模型PPMamba之间的局部特征提取差异。在图7中,(a)组子图片的红像素类别标记为"buildings",的子图片标记为"impervious surfaces"。这些 Heatmap 显示,红色表示预测指定类别的更高可能性,而蓝色表示几乎没有关联。图7的最后一两行和中,各和的特征图,具有大小,,和,从左到右排列。在ISPRS Vaihingen数据集中的NIRRG图像,通过一个固定步长,用一个窗口滑动图像,生成 Heatmap 中的NIRRG图像。

图7对比了RS-Mamba和PPMamba在两个选定场景下的特征提取能力。在子图片-中,RS-Mamba经常错误地分类建筑物和附近低矮植被或不可渗透表面为相似特征。因此,的子图片中散布着大量红色和黄色的大面积。与RS-Mamba相比,PPMamba展示了优越的局部特征提取能力。在子图片和中,PPMamba清晰地勾勒出了所有建筑物的轮廓,并用显眼的红色和黄色区域准确地标注了 GT 值。此外,PPMamba在子图片中准确识别出了建筑物的轮廓,而RS-Mamba无法检测到任何建筑物像素。在场景(b)中,RS-Mamba在区分不可渗透表面和建筑物方面存在困难。

在子图片中,错误覆盖了建筑物类别。另一方面,PPMamba在子图片-中的表现更优,不仅在最具体细节的特征图上准确地识别了不可渗透表面的形状,而且在最抽象的特征图上也没有出现错误。进一步分析表明,PPMamba在所有的最新模型中,建筑物和不可渗透表面类的F1得分最高。因此, Heatmap 比较表明,与 Baseline 模型RS-Mamba相比,PPMamba在局部特征提取方面提供了更有效的解决方案。

Ablation Study

为了验证所提多分支辅助架构及金字塔状卷积块的有效性,作者在ISPRS Vaihingen和 LoveDA Urban 数据集上进行了六次消融实验。表3中每组数据的第一行代表 Baseline 模型RS-Mamba,它不包括多分支卷积辅助架构。第二行对应的是具有四个卷积分枝的PPMamba版本,但所有分枝具有相同的核大小。最后一行代表完整的PPMamba模型,它将多分枝辅助结构和金字塔状核大小结合在卷积块中。

表3展示了所有三个配置的性能比较。具有四个相同分枝的PPMamba在Vaihingen上的mIoU提高了(在Urban上的mIoU提高了),在Vaihingen上的mF1提高了(在Urban上的mF1提高了)。这些显著的改进表明,引入多分支卷积结构显著增强了RS-Mamba的特征提取能力。此外,通过使用PPMamba金字塔池化操作中的不同核大小(,,和),PPMamba可以在RS图像中捕获不同尺度下的局部特征。这分别导致了Vaihingen(的mIoU,的mF1)和Urban(的mIoU,的mF1)的mIoU和mF1的增加。总体而言,四个分枝辅助架构和金字塔状卷积块的结合使得PPMamba在RS图像语义分割方面变得高效且有竞争力。

Model Complexity Analysis

Table IV 呈现了本文讨论的所有模型及其计算复杂性分析。FLOPs(浮点运算次数)、参数数量和内存使用分别用于全面评估PPMamba相对于其他最先进模型的复杂性。FLOPs 指运行一个网络模型所需的浮点运算次数,表示推理期间的计算负载。参数数量表示需要学习的模型参数数量,是衡量模型复杂性的重要指标。通常,参数数量更多的模型具有更大的表达能力。内存使用,即GPU内存消耗,受模型大小和批量大小的影响。在此分析中,批量大小固定为2,因此只有模型大小影响GPU内存使用。

从 Table IV 可以得出关于PPMamba复杂性的几点洞察。首先,PPMamba 需要 10.36 GFLOPs,使其在所选模型中具有竞争力。这表明PPMamba的时间复杂性与某些基于卷积的模型的复杂性相当,得益于Mamba架构的快速推理速度特性。这一优势使得PPMamba在计算效率方面超越了许多基于transformer的模型。在参数数量方面,PPMamba的数量稍微高于MANet(35.86亿)和CMTFNet(30.07亿),主要原因是使用了局部辅助机制,该机制采用四分支锥形结构。锥形卷积模块被设计为捕捉多个尺度下的局部特征,增加了模型的复杂性。尽管其参数数量高于MANet(35.86亿)和CMTFNet(30.07亿),但仍显着低于如FTUNetFormer(75.16亿)和TransUNet(311.93亿)等模型。鉴于其优秀的mIoU性能,PPMamba被认为是RS图像语义分割任务的优秀选择。

V Conclusion

本工作提出了一种新模型,名为PPMamba,将卷积神经网络(CNN)和Mamba相结合,用于处理RS图像语义分割任务。为了减轻局部信息损失的问题,PPMamba的核心架构,即PP-SSM块,被提出并集成到编码器中。

配备了OSS模型,PP-SSM块可选择性地扫描输入图像的八个不同方向的特征图,并使用金字塔形状的卷积辅助机制提取输入图像的局部和全局特征。这种创新的设计使得PPMamba既具备了出色的性能,又保持了线性计算复杂度。

为了验证PPMamba结构的有效性,已在两个广泛使用的RS数据集ISPRS Vaihingen和LoveDA Urban上进行了全面的实验。结果证实,提出的语义分割模型可显著优于传统模型。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related Work
  • Remote Sensing Image Semantic Segmentation
  • Mamba
  • Spatial Pyramid Pooling
  • III Methodology
  • Proposed PPMamba
  • Proposed PP-SSM Block
  • Omnidirectional State Space Block (OSS)
  • IV Experiments
  • Datasets
  • Iv-A1 ISPRS Vaihingen
  • Iv-A2 LoveDA Urban
  • Evaluation Metrics
  • Implementation Details
  • Performance Comparison
  • Iv-D1 Performance comparison on ISPRS Vaihingen
  • Iv-A2 Performance comparison on LoveDA Urban
  • Feature Capture Capability Comparison
  • Ablation Study
  • Model Complexity Analysis
  • V Conclusion
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档