作者:Meng Yu, Te Cui, Haoyang Lu, Yufeng Yue
编译:董亚微
链接:https://arxiv.org/pdf/2404.07790
本文研究了通过可见光与红外光的融合来去除图像中的雾霾。由于雾霾会散射光传播,影响成像过程并降低图像质量,因此去除雾霾是自动驾驶等领域中的一项重要任务。本文提出了一个端到端的可见光-红外光图像去雾网络(VIFNet),通过探索两种模态的深层结构特征并进行不匹配融合,以提高去雾性能。
02 提出的方法
本文提出了一种称为VIFNet的可见光-红外融合网络,用于图像去雾。VIFNet是一个端到端的可见光-红外融合去雾网络,由三个主要阶段组成:深层特征提取阶段、特征加权融合阶段和监督去雾阶段。
1)深层特征提取阶段:该阶段使用双分支网络分别从可见光和红外图像中提取特征。该模块主要包括以下几个部分:
特征连接:首先,将编码器和解码器输出的特征图进行级联,以获得更完整的上下文信息。具体来说,将第i个尺度的编码特征图FEni和解码特征图FDei进行拼接,得到第i个尺度的连接特征图FEdur_i。
通道像素注意力模块(CPAB):然后,使用CPAB模块调整每个通道的权重。CPAB模块通过学习每个通道的参数,以自适应地调整特征图的权重,从而提高特征表示的准确性。具体来说,CPAB模块通过考虑不同尺度特征图之间的相互作用,调整每个通道的权重,以优化特征表示。
多尺度特征融合:最后,通过卷积层和Sigmoid激活函数层获得第i个尺度的深度结构特征Strui_i。具体来说,将连接特征图FEdur_i通过卷积层,然后通过Sigmoid激活函数层,得到第i个尺度的深度结构特征Strui_i。
2)特征加权融合阶段:该阶段根据各模态的优势信息对提取的特征进行加权融合。该策略旨在根据可见光和红外图像之间的不一致性程度动态调整两种模态的特征融合权重,以生成多尺度多模态融合特征。
不一致性函数的设计:首先,作者设计了一个不一致性函数来计算可见光和红外图像在结构特征上的不一致性或差异程度。这个函数考虑了两种模态在多尺度深层结构特征上的差异,并量化了这种不一致性的程度。
计算不一致性权重:然后,使用不一致性函数计算每个尺度的红外结构特征的权重图。这些权重图反映了可见光和红外图像在结构特征上的不一致性,从而为融合过程提供了动态的权重调整。
融合多尺度多模态特征:最后,将原始可见图像与粗略可见特征进行元素级求和,再融合加权红外特征,生成多尺度多模态融合特征。这种融合策略强调了更可靠和一致的信息,有助于在去雾的同时保留图像的细节和结构信息。
3)监督去雾阶段:使用解码器根据全局损失函数恢复无雾图像。在每个上采样阶段,编码的多尺度融合特征与对应的解码特征进行跳跃连接。
为了在去雾过程中同时保留多尺度和精细的边界信息,作者采用了混合损失函数,包括L1损失、多尺度结构相似性指数(MS-SSIM)损失和Dice损失。
L1损失(L1 loss):L1损失是最广泛用于图像去雾任务的损失函数。给定真实图像Y和预测图像X,L1损失(L1)可以表示为:
其中,
表示真实图像和预测图像在位置
的像素值之差的绝对值。
MS-SSIM损失(MS-SSIM loss):为了增强多层结构的边界,作者应用了多尺度结构相似性指数(MS-SSIM)损失函数,以赋予模糊边界更高的权重。MS-SSIM损失(MS-SSIM)的定义为:
Dice损失(Dice loss):为了增强模糊边界的监督,作者引入了Dice损失。Dice损失的计算方式为:
其中,X和Y分别表示预测图像和真实图像的二值边缘图,由Sobel算子获得。
通过结合L1损失、MS-SSIM损失和Dice损失,作者开发了一个用于可见光-红外图像去雾的像素级-结构级混合损失函数,能够捕获多尺度和精细的结构信息。然后,在训练阶段,总损失函数(Loss)被定义为:
通过这种混合损失函数的设计,VIFNet能够在去雾过程中同时保留多尺度和精细的边界信息,从而提高图像去雾的性能。
本文在AirSim-VID数据集上验证了所提出方法的有效性。实验结果表明,VIFNet在不同的雾霾浓度下都优于其他方法。此外,本文还在NTIRE挑战数据集和M3FD数据集上进行了实验,结果同样证明了VIFNet的有效性。
本文通过可见光与红外光的融合,提出了一种新的图像去雾方法。实验结果表明,该方法在去除雾霾的同时,能够有效地保留图像细节和边缘信息。
未来,作者计划通过引入对齐机制来解决两种模态之间对齐的问题,以进一步提高去雾性能。