依旧是图像融合
将特征自适应的思想整合到红外和可见光图像融合中,提出了一种新的自监督特征自适应框架。提出了一种自监督的特征自适应策略,通过重构源图像避免了重要特征的丢失。 针对源图像中含有低质量信息的情况,在自适应提取特征的前提下,设计了一种新的红外和可见光图像融合增强方法。 我们对所提出的方法进行定性和定量评估。与现有的基于CNN和手工制作的特征方法相比,我们的方法实现了最先进的性能。
图像融合的代表方法如下
(ps:由于博主关注的主要是神经网络方面的图像融合方法,对其他的不是很了解,这里只是提一下)
Liu等人应用孪生卷积网络生成红外和可见光图像的权重图,然后在融合过程中采用多尺度图像金字塔和局部相似性度量,以获得更好的可见光感知。Li等人使用VGG网络进行深度特征提取,这些特征进一步用于通过多层融合策略生成权重图。Li等人[26]采用残差网络从源图像中提取深度特征,并且通过基于零相位分量分析(ZCA)对深度特征进行归一化来生成权重图。
解释下上面提到的几个名词
孪生卷积网络
VGG网络 在我的理解来看,VGG网络就是CNN网络和全连接网络的组合。例如VGG16,如下图
用于红外图像融合,网络的结构由编码器,融合层和解码器组成。 具体内容可以阅读原文==》https://arxiv.org/abs/1804.08361 或者可以参考博客讲解==》DenseFuse: A Fusion Approach to Infrared and Visible Images 阅读笔记
还没有了解过,这里就不描述了。
使用GAN的生成器和辨别器来进行对抗,辨别器判断图像属于融合图像还是可视图像,生成器生成融合图像,二者的损失函数促使辨别器辨别能力越来越好,同时由于生成器的损失函数包含了梯度信息,从而融合图像的梯度信息会越来越接近可视图像,再加上通过与辨别器的对抗,融合图像的纹理会越来越丰富。(纹理的丰富不仅仅依靠于梯度信息,通过GAN的对抗,也会使得其他因素的作用呈现到融合图像中,例如对比度,饱和度等信息)
具体内容可以阅读原文==》https://www.sciencedirect.com/science/article/pii/S1566253518301143 或者可以参考博客讲解==》FusionGAN: A generative adversarial network for infrared and visible image fusion 阅读笔记
还没有了解过,这里就不描述了。
但是,基于GAN的模型很难优化,这最终导致融合图像的透视形变。
透视形变参考该博客==》透视形变(perspective distortion)
论文中提到的方法包含两部分,分别是自监督特征自适应网络(SFANet)和红外和可见光图像增强融合网络(IVFENet)。结构如下,还是经典的编码器-解码器网络,包含一个特征提取的编码器和两个具有注意力机制块的解码器,以自监督方式来重建图像。提取的特征被输入到IVEFNet中用于图像的融合。
IVFENet的网络结构如上图所示,包含解码器块,注意力机制块和解码器块。
解码器块有五块,从第一块到第五块,卷积核的数目分别64,128,256,512,512,卷积核大小都是3*3
每块又有四层,分别是三层卷积层和一层池化层
注意力机制块由两个相同结构的SE分支组成
SE的结构如下(一种实现注意力的方式)
大致可以理解为编码器卷积的结果,经过Ftr(可以理解为一层卷积)变成了U,然后求出每个channel的平均值,就组成了图中没有颜色的11c的向量,经过全连接和激活后就变成了彩色的11c的向量,最后将该向量与U进行对应相乘,就得到了最终的输出。
通过这种机制,理论上可以放大所需的特征,抑制不需要的特征
这里的Fh就是编码器求出的特征,V就是在SE种求出的权重,与原有混合特征相乘后,从而得到放大的可视图像特征或则红外图像特征。
每个解码器网络包含五个块,每个块包含三个反卷积层和一个上采样层,卷积核的数量依次512,512,256,128和64,卷积核大小设置为3*3。
解码器是自监督方式进行训练,将源图像作为groud truth,这样强制编码器在特征自适应期间保留重要特征。
整个前向传播过程就很清晰了,如下
在进行反向传播时,就可以通过重建图像和源图像的差异来促使注意力块更倾向于放大我们所需的特征以及增强编码器的提取特征能力
该模块目标是利用从SFANet获得的具有自适应的重要特征来生成融合结果。网络结构图如上所示。
这里可能有点疑惑,为啥这么眼熟
好像前半部分和SFANet中的前半部分好像有点像,在读过论文之后,我觉得这两前半部分就是相同的。
后半部分才是融合的部分
融合模型由一系列反卷积层组成,具有3*3的核和512、512、512、512,512,256、256、128、128、64和64个通道,每个层都有一个上采样层。最后,进一步采用了一组卷积层,以与边缘细节和基于对比度的损失相协调来增强融合结果。
训练SFAnet的损失函数如下,I1,I2分别是红外图像和可视图像,Ir1,Ir2分别是重建后的红外图像和可视图像。
先训练SFANet,然后使用SFANet的固定的
这里相对复杂一点 (DeepFuse那里没看懂,这里好像稍微明白点了)
在SSIM中图像是由以下公式表示的
这里的Cn可以理解为图像像素与像素均值之间的差异,再求范数
Sn则是图像像素与像素均值之间的差异,再除Cn
期待的融合图像为上面二者相乘
这里的I的结果没有加上ln(亮度),在Deepfuse中有解释,但是没大看懂,这里贴一下原文
As the luminance comparison in the local patches is insignificant, the luminance component is discarded from above equation. Comparing luminance at lower spatial resolution does not reflect the global brightness consistency. Instead, performing this operation at multiple scales would effectively capture global luminance consistency in coarser scale and local structural changes in finer scales.
因为我们没有目标图像,用输入的红外图像和可视图像来表示目标图像,公式如下
将上面的两个值带入I的公式即可得到目标图像。
以上的篇幅只是在讲怎么获取目标图像,接下来才是损失函数,If代表融合出来的图像,
代表目标图像。
SSIM越大越好,即下面公式越小越好
到这里还没有结束,因为文章中还提到了设计了基于边缘细节和对比度的可见感知损失。
这里的G是高斯滤波,求出图像的对比度信息,但是MSE确实没有看懂。。。。。。希望评论区大佬解读下。
最终的损失函数如下
在这篇论文中学到了很多,虽然还是有不懂的地方,但是又学到了一个新的图像融合的方式。论文中让我印象最深的就是SE,注意力机制和上采样层,还有就是对SSIM这个损失函数的理解更清晰一点了。 遗憾的就是不知道最后一个损失函数的计算方式,还有就是没有源码。
[1] Self-supervised feature adaption for infrared and visible image fusion