非配对图像去雾(UID)具有重要的研究意义,因为获取具有相同背景的雾霾-清晰图像对存在挑战。本文提出了一种名为正交解耦对比正则化(ODCR)的新方法。该方法基于图像由雾霾相关特征(影响雾霾程度)和雾霾无关特征(如纹理和语义信息)组成的假设。ODCR旨在确保去雾结果中的雾霾相关特征与清晰图像的特征相似,而雾霾无关特征与输入的雾霾图像对齐。为了实现这一目标,作者提出了在Stiefel流形上几何优化的正交MLP,将图像特征投影到正交空间,从而减少不同特征之间的相关性。此外,作者提出了一种任务驱动的深度特征分类器(DWFC),该分类器根据每个通道特征在自监督方式下预测特征来源是雾霾还是清晰的贡献来分配权重。最后,作者引入了一种加权PatchNCE(WP-NCE)损失,以实现将输出图像中的雾霾相关特征拉向清晰图像的特征,同时将雾霾无关特征拉近输入雾霾图像的特征。大量实验证明了作者的ODCR方法在UID上的优越性能。
在训练过程中,给定两个非配对的清晰图像集和雾霾图像集,一对非配对图像被输入,作者的目标是训练一个生成器,使其能够输出一个清晰图像,该图像的雾霾程度趋近于清晰图像,并保持与的雾霾无关信息(如图像纹理和语义)一致。
在CUT类方法中,生成去雾图像中的查询块与输入雾霾图像中相同位置的对应块配对为正样本,而输入图像中的其他块作为负样本。然而,这种样本划分方法存在两个关键限制。首先,它忽略了清晰域的影响,这对于将输出中的雾霾程度恢复到清晰图像至关重要。其次,它在确定是否将的雾霾程度拉近到时存在内在冲突,当试图增加正样本对之间的互信息时。
为了克服上述限制,作者提出了一种改进的样本块划分策略。假设一个块的特征包含描述雾霾程度的雾霾相关特征和包含图像纹理、语义的雾霾无关特征。对于任何给定的块,其雾霾相关和无关成分在其各自的特征空间中分别被分类为正或负,如图1(b)所示。作者采用双下标系统来分类样本的性质。第一个下标表示雾霾无关特征的正负性:雾霾域中与查询块相同位置的块被视为正样本,而其他块为负样本。第二个下标表示雾霾或清晰的正负性:中的块为负样本,而清晰域中的块为正样本。这种方法导致不同块的符号表示如下:
在本小节中,作者介绍了ODCR如何实现正交解耦并解决第1节中提到的两个挑战。
正交MLP: 为了实现雾霾相关和无关特征的解耦,需要减少两种特征之间的相关性。因此,作者提出了一种具有正交约束的MLP,将图像特征投影到正交空间,从而减少特征之间的相关性:
其中,表示具有正交约束的MLP,表示其参数矩阵。表示生成器中第层编码器的特征。
为了解决具有正交约束的问题,一种方法是通过拉格朗日乘数将其转换为无约束问题。然而,该方法将问题视为“黑箱”,难以利用正交空间的优势。一些方法在损失函数中包含正交正则化,但这不能保证参数在正交空间中。因此,作者提出通过在Stiefel流形上进行几何优化,从而严格地对特征进行正交分解。
Stiefel流形上的几何优化: Stiefel流形是包含指定空间中所有正交矩阵的集合,即。其切空间在点处可以定义为:。对于正交分解问题,理想的方法是在Stiefel流形上找到的最优解。
假设是在欧几里得空间中定义的损失函数,是其欧几里得空间中的梯度,它不能直接使用SGD和ADAM等优化器进行优化,而是需要额外的两个过程。将Riemannian梯度定义为在切空间上点处的切向量梯度:
在将特征投影到正交空间后,尚不清楚哪些是雾霾相关特征,哪些是雾霾无关特征。为了解决这个问题,作者引入了一个深度特征分类器(DWFC)。DWFC将由提取的或的图像特征作为输入,预测特征来源是雾霾还是清晰图像。通过这种自监督方法,可以为每组输入特征获得一个通道热向量。
图4展示了DWFC的结构。给定一个正交特征,它被输入到深度编码器(DWE)并通过3个卷积块处理。处理后的特征通过全局平均池化(GAP)得到一维特征向量。特征向量被输入到全连接(FC)层以获得最终的分类预测概率。注意,作者使用深度卷积来避免通道之间的信息交换,以确保特征向量中的每个值仅与相应的通道相关。
由于特征的来源已知,作者将其作为标签,并使用交叉熵损失作为目标函数来优化DWFC:
其中,和表示特征来源的标签。如果输入特征的来源是雾霾图像,则且。和表示DWFC的全连接层(预测头)的权重,表示一维特征向量。因此,和表示特征来源是雾霾或清晰图像的预测。
受高层计算机视觉任务中的可视化方法启发,作者认为和(或)的逐元素乘积结果的绝对值反映了相应通道的特征在网络判断特征来源是雾霾(或清晰)时所起作用的大小。因此,描述雾霾(或清晰)相关性的热向量可以表示为:
其中,表示对输入向量中的所有元素取绝对值的函数,表示softmax函数。
例如,如果中的某个元素的绝对值较大,可以假设相应通道的特征提示(或抑制)网络判断特征来源是雾霾图像,即该通道的特征倾向于雾霾相关(或无关)特征。具体来说,对于来自雾霾(或清晰)图像的特征,作者为其分配(或)。
基于第3.1节中的样本划分和第3.2.2节中的热向量,作者提出了用于UID的加权PatchNCE(WPNCE)。WPNCE是一种基于特征之间互信息的损失函数,作者首先给出了两个特征向量的加权互信息的定义:
其中,是权重,是温度系数,和表示用于计算互信息的两个特征向量。对于WPNCE,希望最大化查询块与所有其他关键块的正样本成分之间的互信息,可以表示为:
并最小化与负样本成分的互信息:
其中,1是与或形状相同的向量,所有元素为1。最后,作者将其整合为一个InfoNCE形式的损失函数。
最终的目标函数如下:
其中,和表示CUT中的GAN损失和身份损失。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~