前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MARNet架构 基于模型的多头注意残余展开网络 !

MARNet架构 基于模型的多头注意残余展开网络 !

作者头像
未来先知
发布2024-09-19 08:03:31
890
发布2024-09-19 08:03:31
举报
文章被收录于专栏:未来先知

本文的主要目标是将高分辨率的全色图像(PAN)与低分辨率的多光谱(MS)或多光谱立体像(HS)图像准确地组合起来。展开融合方法将深度学习的强大表示能力与基于模型的方法的可行性相结合。这些技术将优化策略的步骤展开为深度学习框架中的步骤,从而得到高效且具有良好解释性的架构。 在本文中,作者提出了一种基于模型的深度展开法来对卫星图像进行融合。作者的方法基于一个变分形式,其中包括了用于MS/HS数据的传统观测模型,基于PAN图像的高频注入约束,以及任意凸先验。 在展开阶段,作者引入了使用残差网络通过PAN图像编码几何信息的放大和缩小层。作者的方法的核心是一个多头自注意力残差网络(MARNet),它替换了优化方案中的接近运算符,并将多个头注意力与残差学习结合在一起,以便通过定义在块上的非局部算子利用图像自相似性。 此外,作者还采用了一种基于MARNet架构的输出处理模块,以进一步提高融合图像的质量。 在PRISMA,Quickbird和WorldView2数据集上的实验结果证明了作者的方法具有出色的性能,并且能够在不同的传感器配置和不同的空间和光谱分辨率下进行泛化。 源代码将在https://github.com/TAMI-UIB/MARNet。

1 Introduction

地球观测卫星广泛应用于各种领域,包括通信、天气预报、导航、环境监测、制图和监控等[1]。许多这些卫星,如Iconos、Landsat、WorldView、PRISMA和Pleiades使用被动遥感的传感器,这些传感器捕获由外部源产生的波的反射[2]。

由于与机载存储和带宽传输相关的技术限制,被动卫星通常配备有两种具有互补属性的传感器。一方面,多光谱(PAN)传感器生成一个包含多个波段反射数据的超分辨率图像,准确地代表场景的几何结构。另一方面,光谱传感器关注较窄的波段,提供有关物体化学-物理性质的详细信息。为了补偿特定波段中可用的能量有限,这些传感器通常在更大的空间区域内进行采样,导致图像分辨率较低。根据波段数量,光谱传感器称为多光谱(MS)或超光谱(HS)。MS传感器通常在可见光和红外光谱范围内捕获3到16个波段,而HS传感器捕获从数十到数百个波段覆盖的电磁光谱。

对高空间和光谱分辨率的图像对于许多应用至关重要,因此已经对卫星图像融合[3, 4, 5, 6]进行了大量研究。主要目标是将PAN图像的几何精度与MS/HS数据的光谱一致性集成到一个单一的高分辨率MS/HS图像中。这些融合过程被称为全色锐化[HS]和超级锐化[PHS],取决于涉及的波段数量。

经典融合方法通常采用组件替换, 多分辨率分析, 或变分优化 。这些方法具有即插即用的性质,并无需扩展训练数据集,尽管它们通常依赖于手工制作的先验知识。另一方面,最近的发展引入了众多深度学习方法,可以广泛归类为基于纯深度学习的技术 [18, 19, 20] 和基于模型的深度展开方法 。第一种在自然先验知识的学习上表现出色,但往往灵活性和可解释性不足。展开方法将基于模型的优化方案展开成深度学习框架的优化步骤,从而生成高效且可解释的架构。

在这篇论文中,作者提出了一种基于模型的深度展开方法,将全景图像(PAN)和多尺度/高斯图像(MS/HS)融合。作者将残差网络与多头注意力机制集成,从而通过非局部操作利用图像的自相似性。作者的主要贡献总结如下:

基于[24],作者提出了一种变分模型,该模型包括任意凸正则项、经典的MS/HS数据观测模型[15]和 high-frequency 注入约束。在这方面,最显著的创新在于,这一约束通过 范数进行惩罚,这更好地解决了插值引起的噪声相关性问题。接下来,作者使用[25]中的原-对偶 Chambolle-Pock 算法处理结果的非光滑能量,该算法提供了一种随后的展开优化方案。

受到残差[26]和非局部网络[27]的启发,作者在原-对偶方案中用一种结合多个头注意力的非局部残差架构替代了接近运算符。这些注意力机制被特别设计为通过在PAN和MS/HS数据之间计算相似性权重来捕获空间和频谱信息。重要的是,作者提出根据块计算权重,而不是单个像素。

作者引入了针对一般采样因数的上采样和下采样层,并利用PAN数据的 geometric 信息。作者还提出了一种新的后处理模块,用于图像增强,该模块采用作者提出的多头注意力残差架构进行非局部滤波。尽管这种模块用于图像融合,但它可以很容易地适应其他图像处理任务。

作者进行了深入的实验部分,测试了作者的方法的一般适用性以及许多最先进的融合技术。作者使用了来自 PRISMA、Quickbird 和 WorldView2 卫星的数据,每个卫星的传感器配置都不同。

表1包含了本文中使用的缩写和符号列表。

剩余部分的组织如下。在 Section 2 中,作者回顾了卫星图像融合的状态。在 Section 3 中,作者介绍了用于PSH和HSH的多基于模型深度展开方法,而 Section 4 提供了实现细节。在 Section 5 中,作者提供了在 PRISMA、Quickbird 和 WorldView-2 数据集上的广泛性能比较。在 Section 6 中,作者进行了一个删除研究,突出了选定的网络配置,并评估了作者的方法对采样因子和噪声变化的可变性。最后,作者在 Section 7 中得出结论。

2 Related Work

在文献中,已经提出了许多用于超分辨率增强和全角分辨率增强的方法。这些方法可以大致分为三类:经典方法、纯学习为基础的方法和基于模型的深度展开方法。

Classic methods

在经典的算法中,作者发现有组件替换算法、多分辨率分析方法和变量优化技术。组件替换方法的目标是用PAN图像中提取的相应组件替换MS/HS图像中的特定组件。为此,已经提出了几种方法,如主成分分析(PCA)[8, 9],Brovey[7],色相、亮度、饱和度(IHS)[8, 28],以及高斯-Schmidt(GS)[10]。

多分辨率分析方法通过从PAN图像的多尺度分解中注入空间细节到MS/HS数据。多尺度分解可以通过不同的技术实现。拉普拉斯金字塔[13, 14, 29],轮廓let变换[30],曲线let变换[31],离散小波变换[32, 33, 34, 11],以及高通调制[35, 36]是主要使用的技术。

作者还提出了结合组件替换和多分辨率机制的混合方法。

最后,变分优化方法通过最小化来源于观察模型和期望解先验知识的能量泛函来解决融合问题。这种最小化可以通过多种技术实现,如近端梯度[40],交替方向乘子法(ADMM)[41, 42],以及原-对偶算法[25]等。在这种环境下,可以根据不同的正则化和数据项找到关于像素重采样和超像素合并的许多工作。

Pure deep learning-based methods

在过去的十年里,文献中提出越来越多的基于深度学习的图像融合方法,并取得了有前景的结果。这些方法可以按照其架构进行分类。在本背景下,作者发现生成对抗网络[45]、但主要是残差连接[46, 47, 48, 18, 48]和注意力模块[49, 50]。

几种基于残差连接的图像融合方法的工作方式如下。PanNet [18] 通过对 MS 图像使用双立方插值,将从卷积神经网络(CNN)的输出的图像融合到 PAN 图像中。具体来说,CNN 接收 PAN 和 MS 图像,计算高通滤波器,并将结果经过一个残差网络。MSDCNN [46] 使用残差连接提取多尺度特征,以保留细结构和纹理细节。使用残差连接注入从将 PAN 和上采样 MS/HS 图像拼接在一起的模块中提取的细节。DiCNN [47] 使用由卷积层和 ReLU 激活函数组成的模块,将从一个拼接一起的 PAN 和上采样 MS/HS 图像中提取的细节注入到上采样 MS/HS 图像中。FusionNet [19] 估计几何细节,将残差块和 upsampled MS/HS 数据之间的差异用于产生 Query 和键,并通过这些残差块将它们注入到 upsampled MS/HS 图像中。SRPPNN [48] 超分辨率,将一个残差结构的超分辨率应用于全屏幕缩放,通过将 PAN 图像的系数以不同尺度整合并通过过程处理注入到处理过的超采样 MS/HS 数据。

受到非局部网络[27]、注意力模块[51]和利用图像自相似性的启发,自注意力模块和 Transformer 模块是transformers层的关键组成部分。在本背景下,HSIT [49] 引入了一种 Transformer 机制,用于超分辨率,提取HS和PAN图像的特征以生成 Query 和键。特征提取过程使用 VGG 类似的架构[52]。然后,使用不同尺度的 Transformer 模块,并在末尾添加一个融合模块。另一方面,PanFormer [50] 提出了一种双路径编码器,用于在自注意力块中实现对 MS 和 PAN 图像的模态特定特征提取。每个编码器都是这些模块堆叠组成,以产生输入的中间特征。然后,一个跨模态模块将光谱和空间特征合并。最后,通过最后一个模块增强的输出得到细化图像。

最后,AWFLN [20] 结合残差连接和自注意力机制。算法使用多尺度卷积块与自适应卷积相结合,估计融合图像并添加到 upsampled MS/HS 数据中的缺失空间详细信息。为了实现这一目标,作者将多尺度卷积块与自适应卷积相结合。这些卷积通过计算核权使用空间和光谱注意力机制进行调整。

Model-based deep unfolding methods

尽管使用观察模型可以使变分方法对扰动具有鲁棒性,但它们的性能受到严格的先验的限制。相反,纯粹的数据驱动学习方法可以适当地学习自然先验,但其灵活性和解释性不如基于模型的技术。深度展开法将两种范式的优势结合在一起。该方法的一般思想是将优化方案从一个能量泛函的最小化中得到的步骤,通常称为_阶段_,展开为一个深度学习框架,从而产生高效且可解释的架构。神经网络通常替换方案中的特定操作。可学习架构可以是预训练的或安排进行训练。近年来,在这种环境中已经提出了几种图像融合的工作[21, 22, 23, 53, 54, 55, 56]。

为了明确起见,作者回顾一下表1中引入的一些基本记号。作者用表示MS/HS图像,用表示PAN图像,用表示所需融合的图像。其中,是光谱带的数量,和分别表示低分辨率数据的宽度和高度,而和表示高分辨率图像的宽度和高度。这些记号如下表所示。

经典的观察模型[15]将融合图像与低分辨率MS/HS数据之间的关系表示为

其中B是一个低通滤波器,D是次下采样运算符,是低和高分辨率域之间的采样因子,是噪声实现。此外,通常假设PAN图像作为MS/HS光谱组件的线性组合[15],即

其中表示所需图像的第i个通道,而是依赖传感器光谱敏感性的混合系数。

MHF-net [21]基于(1)和(2)以及去混理论 [57]提出了一个能量保真度项。通过结合两种模型,他们得到一个关于高分辨率HS图像低秩表示的最小化问题。这是通过展开近端梯度算法[42]得到的最小化方案实现的。相关的运算符被替换为卷积神经网络。此外,作者引入了一种基于残差网络的新颖架构,其中上采样运算符受PAN图像的指导。

Xu等[22]引入了GPPNN,它也基于(1)和(2)。他们为每个数据项定义了一个能量函数,并具有自己的正则化。通过使用近端梯度算法[42]解决一个双级最小化问题来执行图像融合。迭代方案的步骤按顺序计算,其中一个步骤的输出作为下一个步骤的输入。近端和其他运算符被替换为卷积层。

MMNet [58]提出了一个能量公式,其中包含三个项:(1)经典观测模型,(2)引入的辐射度约束 pioneer Duran等恢复场景几何的项,和(3)一个正则项。辐射度约束确保了融合图像中每个光谱带的高频与PAN数据的对应。此外,HyFPan利用了高分辨率MS/HS图像的低秩表示(如[22]中提出)。最小化时,作者采用近端梯度算法[42],并用卷积神经网络替换所有涉及的运算符。

LGTEUN [56]将 Transformer 层与展开机制相结合,以解决源自(1)和(2)的能量的最小化问题。所提出的融合方法展开近端梯度迭代方案,并引入一个网络架构,该架构将轻量级卷积神经网络数据模块与 Transformer 模块相结合。为了有效地捕捉局部和全局依赖性,作者在 Transformer 模块内增添了两个分支:一个局部分支和一个全局分支。局部分支在空间窗口内使用多头自注意力来实现对局部特征的关注,而全局分支则利用傅里叶变换的性质在频域中提取全局上下文特征。

Ma等引入了UTERM模型。与MHF-net类似,作者们提出了一种通过低秩表示进行上变换的能量公式。作为创新点,他们提出了受CS、MRA和基于CNN的表示形式的细节注入的三个不同约束的评估。

与先前的深度 unfolding 方法不同,S2DBPN [55] 受到了反向传播方法 [59, 60] 的启发。这种方法基于一个假设,即通过最小化目标和观测数据之间的重构误差可以恢复图像。基于(1)和(2),作者们设计了两套并行的反向传播方案。在每一阶段,两个反向传播的结果都被求平均,并作为后续阶段的输入。最终,所有阶段的结果被组合,以产生最终的融合图像。

3 Proposed Method

从现在开始,P 将表示在所有光谱波段上的 PAN 图像副本,即 P ∈ R^{C×H×W},其中 P_{j}=P_{k},对于所有 j,k ∈ {1, ...,C}。

尽管观察模型 (1) 广泛使用,文献中提出了一些替代方案 (2),以将 PAN 图像的高频信息注入融合结果。作者采用 [ 24 ] 中引入的约束,该约束假设融合图像每个光谱波段的高频分量与 PAN 的高频分量成正比。

Variational formulation

为了估计(1)和(3)的融合图像,作者提出了以下变分模型:

其中是平衡参数,是任意凸正则化项,用于促进解的平滑性。注意,作者将(3)重新写为

(1)中的方括号范数基于噪声遵循高斯分布的假设。相反,涉及(5)的数据显示在降采样和双线性操作下各谱段之间存在噪声相关性。在这种情况下,范数提供了更大的鲁棒性。

由于(4)是一个凸但非光滑的最小化问题,作者使用Chambolle和Pock [25]提出的原-对偶算法高效地寻找全局最优解。为此,作者将(4)重写为一个鞍点问题,使用对偶变量和作为如下表达式:最小化,最大化,,,

(5)和(6)的区别在于,在(5)中表示的是图像的分辨率,而在(6)中则是为了实现原-对偶算法的解。

在(5)中是一个凸函数,在(6)中的是为了对偶,它的导数不存在,所以作者无法对它进行求导,也就无法实现原-对偶算法的解。

在此,作者假设。指示函数的定义如下:

主-对偶Chambolle-Pock算法使用近似算子,它扩展了实数域上的投影到凸集。对于一个恰当的凸函数,它定义为:

其中是步长,称为 Resolvent 算子 [40]。算法包括在对偶变量中进行的上升步和主变量中的下降步,随后是超松弛步骤,以确保收敛。对于(6)所求的结果是主-对偶优化方案,

以下是对文本(8)的翻译:

其中, 和 分别表示主、对偶步长参数。

Unfolded formulation

作者提出了一种将(8)展开,并用学习型网络替换所涉及运算符的方法。后续,作者将迭代方案中的每个步骤 称为一个_阶段。作者将 DB 用 替换, 用 替换,这些在3.3节中有详细说明。此外,(8)与正则化项相关的准确定位运算符被替换为3.4节中提出的多头自注意力残差网络,称为。这种框架避免了在[61,62,27]中的非局部操作中手工设计先验的需求,同时利用了自然图像中自相似性,并利用[61,62,27]。因此,原对偶方案 (8) 的展开形式如下:

, 和 在不同的阶段之间不共享权重。然而,超参数,,,和在所有阶段之间共享,并在训练阶段学习。

图1(a)说明了整个架构。图1(b)显示了单个阶段。图1(c)描绘了最后一个阶段之后的后处理。图1d说明了学习的辅助数据和的初始化模块(),这些数据涉及到辐射约束(5)[61,62,27]。在接下来的子节中,作者提供了所有网络和模块的更多详细信息。

Upsampling and downsampling operators

受到 [21] 的启发,对于给定的下采样因子 ,作者考虑其素数分解 ,其中 。作者分 个步骤进行操作,先在下采样时降序遍历素数,在上采样时升序遍历素数。

在下采样中,作者使用降采样率 以及 卷积 。因此,一步操作得到 ,下采样算子定义为递归函数 。

根据上采样和下采样之间的经典对偶关系,作者定义上采样算子为 ,其中添加了最终的卷积 。作者提出利用 PAN 数据的局部几何信息,根据对应的分辨率 Level 进行推理。为此,作者定义了序列 ,其中 ,且,对于 。因此,一个上采样步骤定义为 ,其中 是带有步长 的逆序 卷积, 是几何注入模块。该模块将输入与对应的 拼接,其中包含了给定分辨率下的几何准确描述,并应用了包含卷积和批标准化在内的三层模块。

参考图1,提出的方法总体架构分为四个部分:初始化模块、单步正负样本阶段、上采样处理器和几何注入模块。参考图2 给出了采样率分别为 4 和 12 的下采样处理器和上采样处理器结构。## 多头自注意力残差网络(MARNet)

(7)如果作者假设τ足够小,且f可微分,那么近似算子可以近似为[40]:

因此,近似算子通常非常接近于恒等函数,因此在展开时可以被替换为残差网络。

鉴于(11),作者提出了一种新颖的网络结构,该结构将残差网络与多头注意力模块集成在一起,旨在利用图像的自相似性。作者将作者的方法称为多头注意力残差网络(MARNet),其架构如图3所示。

如图所示,作者首先将多头注意力模块(MHA)应用于输入和PAN图像特征,然后依次使用三个残差块(ResBlocks)。每个区块都包含两个卷积层和残差连接。注意力和残差特征随后通过两个卷积层处理,将它们与输入数据相加。

多头注意力模块包括多个头注意力,每个头注意力都近似非局部均值滤波器[62]。也就是说:

其中 表示和之间的相似度,它们通常根据中心像素的块之间的欧几里得距离来计算:

其中是归一化因子,是过滤参数,用于衡量当块不相似时,权重衰减的速度。在Wang等人[27]提出的非局部网络中,块之间的欧几里得距离被替换为像素之间的点积,过滤参数通常通过卷积学习得到。结合这些思想,作者提出了一种计算相似度权重的方法:

其中和是可学习的卷积。此外,作者限制非零权重在一个大小为的中心窗口内,即当的坐标距离的坐标超过时,。

提出的多头注意力机制包括三个并行排列的注意力头。每个头在不同的辅助图像(输入、PAN图像以及两者的拼接)上计算权重(12)。这种设计使网络能够处理光谱信息、空间信息和组合信息,从而增强在展开过程中关注相关特征的能力。随后,使用多层感知机[63]集成所有头的信息。图2(b)说明了所提出的多头注意力模块,图2(c)描绘了单个头的架构。

Initialization and post-processing

在初始化阶段,使用运算符和产生H和P的低频,分别表示为和。接下来,根据(10)计算,并在(9)中的原变量和双变量中进行初始化。最终,初始化为:

作为后处理步骤,在完成固定数量N的阶段后,作者对应用MARNet层,以获得最终的融合图像.

4 Implementation Details

提出的深度展开网络在1000个周期内使用以下损失函数进行训练:

其中GT代表真实图像,MSE表示均方误差,固定为0.1。请注意,作者将最后融合图像U和真实图像之间的L1损失与每个阶段中的MSE相结合。作者使用Adam优化器[41, 42],该优化器在处理稀疏梯度和单独为每个参数调整学习率方面已知具有高效性,特别是在处理复杂和高维数据集方面。初始学习率设置为,固定主-从阶段数量为N=4。

在此之后,作者对模型进行微调,额外训练100个周期。在这个阶段中,初始模块和主-从阶段的权重保持固定,仅训练后处理阶段的参数。在这种情况下,作者使用输出和真实值之间的L1损失。

在训练阶段,在每个周期结束时,作者在验证集上评估模型。如果PSNR超过以前的最高值,则相应地更新权重。因此,最终权重对应于在验证集上获得的最高PSNR的参数。

5 Experimental Results

在本节中,作者通过分析数值和视觉效果来评估所提出的超分辨率方法性能。为确保全面评估,作者在多种数据集上进行实验,测试竞争技术的泛化能力。具体地,作者使用三个不同的数据集,分别对应地球观测卫星Prisma、QuickBird和WorldView 2。

作者将作者的方法与各种最先进的方法进行了比较:

双立方插值;经典的 Brovey [7]、IHS [8]、GSA [10]、小波 [12]、PCA [9] 和 CNMF [64] 方法;

纯深度学习基础的方法 PanNet [18]、MSDCNN [46]、DiCNN [47]、FusionNet [19]、SRPPNN [48]、HSIT [49]、Panformer [50] 和 AWFLN [20];

基于模型的深度展开方法 MHFNet [21]、GPPNN [22]、MMNet [53]、HyFPan [54]、S2DBPN [55]、LGTEUN [56] 和 UTeRM_CNN [23]。

经典方法的代码来自 Py_pansharpening 工具箱 [2],PanNet、MSDCNN、DiCNN 和 FusionNet 的代码来自 DLPan-工具箱 [3]。其余所有代码均从相应作者的网站下载。

参考

[1].Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
  • Classic methods
  • Pure deep learning-based methods
  • Model-based deep unfolding methods
  • 3 Proposed Method
  • Variational formulation
  • Unfolded formulation
  • Upsampling and downsampling operators
  • Initialization and post-processing
  • 4 Implementation Details
  • 5 Experimental Results
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档