我们提出了一种用于任务无关图像翻译的ForkGAN,它可以在恶劣的天气条件下增强多个视觉任务。评估了图像定位/检索、语义图像分割和目标检测三项任务。关键的挑战是在没有任何明确监督或任务意识的情况下实现高质量的图像翻译。我们的创新是一种具有一个编码器和两个解码器的叉形生成器,可以解开域特定信息和域不变信息的纠缠。我们强制天气条件之间的循环转换通过公共编码空间,并确保编码特征不显示有关域的信息。实验结果表明,我们的算法产生了最先进的图像合成结果,并提高了三视觉任务在恶劣天气下的性能。
数据偏见是深度学习方法面临的一个众所周知的挑战。在一个数据集上训练的人工智能算法通常必须在不同的数据集中付出性能代价。以雨夜的图像识别为例。在白天数据集上训练的物体探测器可能会使雨夜图像的准确率下降30-50%。一种解决方案是在这些不利的天气条件下简单地收集更多的标记数据。这是昂贵的,而且从根本上讲并不能解决数据偏差问题。
领域自适应是解决这一数据偏差问题的通用方法。我们的工作与该方法的一个子分支有关,该分支专注于图像到图像的翻译技术,以明确地合成不常见领域中的图像。在昼夜领域变化的背景下,最近探索了两种策略:一种是昼夜方法[22],将带注释的白天数据转移到夜间,以便通过数据扩充重用注释;另一种[1]使用昼夜转换器来生成适合于在白天数据上训练的现有模型的图像。这两种策略都表明,精确的领域翻译方法可以促进其他视觉任务。在这篇论文中,我们研究了一个更具挑战性的雨夜案例。我们的实验表明,现有的方法在这种情况下表现不佳,特别是当我们在雨夜图像上没有监督的数据注释时。
根本的挑战是,让图像对人类来说好看的东西可能无法改进计算机视觉算法。计算机视觉算法可以很好地处理某些类型的光照变化,而人类看不见的微小伪影可能对视觉算法有害。
一种简单的方法是在新领域引入任务特定监督,以确保图像翻译具有任务意识。我们认为,任务感知方法只会将数据偏见问题转变为任务偏见问题。相反,我们问我们是否可以创建一种与任务无关的图像到图像翻译算法,在没有任何监督或任务信息的情况下改进计算机视觉算法。图1显示了我们的解决方案可以在三个未经训练的任务上实现这一目标:图像定位、语义分割和目标检测。
问题分析。不利条件(如夜间)和标准条件(如白天)之间的域转换本质上是一个具有挑战性的无监督或弱监督学习问题,因为对于存在大量运动物体的动态驾驶场景,不可能在不同的时间获得精确对准的地面实况图像对。许多物体(如车辆和路灯)在不同的天气条件下看起来完全不同。有全球场景级的纹理差异,如雨滴,也有区域变化,如汽车在潮湿道路上的反射。反域和正域在语义和几何层面上有着共同的相似性,也有着巨大的差异。在没有任何监督或任务知识的情况下,准确地解开不变和可变特征是我们的关键目标。
–我们提出了一个叉形循环生成模块,该模块可以在域翻译过程中解耦域不变内容和域特定风格。我们强制两个编码器通过公共编码空间,并明确使用抗对比度损失,以确保在解纠缠中产生必要的不变信息。 –我们在每个生成器阶段引入了一个Fork分支,以确保为两个领域的图像识别任务保留足够的信息。
–我们使用ForkGAN在不利条件下提高了定位、语义分割和目标检测的性能。
针对不成对的图像到图像转换任务,已经提出了许多模型,该任务旨在将图像从源域转换为目标域中相应的期望图像,而不需要相应的图像对进行训练。由朱等人介绍的CycleGAN是一种经典而优雅的非配对图像到图像翻译解决方案。循环一致性损失为图像翻译的正则化提供了一种自然而良好的方法,并已成为广泛使用的基础。然而,它并没有强制翻译后的图像与源图像共享相同的语义空间,因此其解纠缠能力相当弱。UNIT增加了一个共享的潜在空间假设,并强制两个生成器之间的权重共享。然而,权重共享并不总是保证网络将学会从不同的域中分离图像。为了提高生成结果的多样性,提出了MUNIT、DRIT等模型,以更好地将视觉信息分解为领域不变内容和领域特定风格。为了处理多个领域之间的翻译,StarGAN是通过结合额外的分类损失而开发的。这些模型的一个缺点是,用户将需要指定要从中采样的Etyle codeEor标签。对于自动驾驶中的应用,我们希望该模型在推断时间内无需任何人工指导即可将恶劣天气下的图像转换为适当的条件。
除了将图像从不利条件(例如,夜间域)转换为标准条件外,解决夜间能见度不足的另一种可能方法是使用微光图像增强模型。这些模型旨在通过控制图像的颜色、亮度和对比度来提高曝光不足照片的视觉质量。最近,人们提出了更多基于深度学习的模型来解决曝光不足问题。EnlightenGAN可以在没有配对训练数据的情况下进行微光增强。该模型增加了图像的亮度,同时保留了对象的纹理和结构。然而,EnlightenGAN没有强调前景对象,提供了有限的有助于驾驶目的的细节。与这些微光图像增强方法不同,我们的目标是将整个图像转换为白天,并在黑暗中增强微弱的物体信号。
不利的天气和不希望的照明条件对常见的视觉任务(如定位、语义分割和物体检测)提出了挑战。视觉定位和导航使车辆或机器人能够估计其在现实世界中的位置和方向。这项任务的一个有效方法是使用图像检索技术和特征匹配方法。然而,与标记数据库相比,当从不同的照明和天气条件对查询图像进行采样时,这些方法的性能会下降。ToDayGAN修改了图像翻译模型,以提高本地化任务的图像检索性能。Porav等人提出了一种将输入图像转换到所需域以优化特征匹配结果的系统。
对于语义分割,Porav等人提出了一种系统,该系统使用轻量级适配器将不同天气和照明条件的图像转换为训练现成计算机视觉模型的理想条件。为了训练适配器,他们在理想条件下选择了一系列参考图像,并使用CycleGAN[28]在不同天气下合成图像,同时保留参考图像的几何形状和结构。然后,他们训练适配器从特定领域转换图像,从而使用新图像可以在相关视觉任务中获得更好的性能。
尽管物体检测很重要,但在最近关于在恶劣天气下驾驶的工作中,它受到的关注较少。这方面的相关工作来自He等人[8],其中作者开发了一个用于驾驶场景中的域自适应对象检测的多对抗性更快R-CNN框架。它们的源域和目标域对涉及规则和雾蒙蒙的城市景观,来自两个天气条件相似的不同驾驶数据集的合成和真实数据。AugGAN[11]旨在结合图像解析网络,通过在合成数据集上进行昼夜翻译,提高夜间图像中的对象检测性能。然而,它需要成对的辅助注释(例如,语义分割图)来规范图像解析网络,这些注释有时是昂贵的或难以获取的。 我们的ForkGAN解决了在更具挑战性的天气条件下进行物体检测的问题——夜间驾驶场景,雨水甚至风暴产生的反射和噪音,而无需任何辅助注释。
我们的ForkGAN使用一种新颖的叉形架构对未配对的数据进行图像翻译。叉形模块包含一个编码器和两个解码器。以图2中的昼夜转换为例,2,首先我们将夜间图像
馈送到编码器
,并获得域不变表示
。然后,两个解码器
(重建解码器)和
(翻译解码器)具有相同的输入
。
旨在根据不变表示合成原始夜间图像
,并在
和
之间执行基于像素级
范数的重建损失
, 以生成看起来像夜间图像但在白天照明下的看似合理的图像。我们通过一个领域特定的鉴别器
利用对抗性训练,并计算对抗性损失
(与CycleGAN中的相同),其目的是区分随机真实夜间图像
和合成夜间图像
。然后
从
中提取域不变特征
。这里,我们在
和
之间执行感知损失
(将在3.2中详细说明),以迫使
和
具有相似的内容表示。最后,我们使用翻译解码器
获得重建的夜间图像
。在
和
之间计算循环一致性损失
。
注意,这里我们省略了重建解码器
,其用于基于域不变特征
重建日图像。此外,我们采用了一个额外的对抗性领域分类器
,它有两个分支输出:一个用于对抗性训练,另一个用于领域分类,以获得基于内容表示的交叉熵分类损失Lcls。ForkGAN的总损失是上述所有损失的加权总和:
并且我们在实验中设置
。在总损失的情况下,三个分量
被一起优化,使得学习的模型是无偏的,并且可以解开领域不变的内容和领域特定的风格。在推理过程中,我们的ForkGAN提供了一个两阶段的翻译过程,如图2所示。以昼夜转换为例,使用
将输入的夜间图像转换为白天图像,并将输出视为重建阶段的输入。
合成了更精确的翻译输出,这给出了我们ForkGAN的最终输出。
先前基于循环GAN的方法旨在通过间接像素级循环一致性损失来保持输入图像的外观,并通过利用翻译图像的对抗性损失来生成看似合理的翻译图像。然而,在翻译阶段,一些较弱但信息丰富的领域不变特征通常被忽略。有时,生成器F:X−→ Y可以欺骗鉴别器,并通过改变主导更多像素的全局条件来最大限度地减少对抗性损失,同时忽略汽车和行人等局部特征。这导致了一个琐碎的翻译解决方案,它会丢弃一些信息信号。在相反的方向上,G:Y−→ 在强像素级循环一致性损失的情况下,X具有将翻译后的图像重新映射到原始域的强大能力。在这两个阶段中,无法保证域不变量和域特定特征能够被解开。
1) E的目的是提取领域不变的内容并丢弃领域特定的风格。
目标分别重新加载源域和目标域的样式表示。三个组件具有相同的参数量,这确保了可比较的网络容量,从而在三个组件之间没有明显的偏差或依赖性。如果E太弱并且未能提取信息内容,则重建损失
较大。如果域不变表示zx仍然与域特定信息混合,则翻译解码器将无法生成合理的翻译输出。
(2)我们加入一个感知损失为:
这使得
在感知上类似于
(根据[4]中的感知损失设计)。这里,
表示ImageNet上预训练的VGG-19网络的第n级的特征提取器。超参数
在不同水平上控制感知损失的影响,这里我们将
设为1。与通常使用感知损失的方式(将图像数据馈送到VGG网络)不同,我们通过双线性插值重新排列
的特征图,以仅进入VGG的最后三层。这样的修改能够在特征级别上有效地检查
之间的感知一致性。如果
未能完全消除领域特定信息,则
之间的感知损失将很大。感知损失也有助于在翻译阶段保留内容信息。
3) 对抗性领域分类器的目标是区分真实/虚假分布并对内容表示进行分类。我们的目标是通过对抗性训练来匹配
的分布。具体而言,我们为
分配了一个相反的标签,以实现分类训练,从而获得
。我们使用
进行分类损失。如果分类器无法区分内容表示来自哪个领域,则表明提取的表示不携带任何特定领域的风格信息。基于上述原因,我们的模型和训练目标的设计可以提供强大的约束来实现解纠缠。
在叉形模块中,生成器有两个分支:平移分支和重构分支。我们使用自动编码器
和重建解码器
将额外的重建阶段应用于翻译输出。该对在解纠缠阶段进行训练,因此该算法不会引入新的参数。在此阶段,重建分支
可以通过从重建真实图像中学习的知识来重新定义伪输出(
),从而生成更真实的图像并增强弱信号。我们对域不变内容表示
采用了额外的逐像素高斯噪声扰动,以提高重建分支的鲁棒性,并降低其对输入的敏感性。我们还希望,即使错过了一些域不变的内容特征,重构的解码器也能从额外的噪声中生成互补信息。
考虑到在恶劣天气下拍摄的图像被遮挡和反射,很难识别对导航任务至关重要的物体(例如交通标志、车道和其他车辆)。一种可能的解决方案是采用大的接受野来缓解闭塞问题。为此,我们对具有较少参数的生成器使用扩张残差网络。扩张卷积可以帮助生成器的三个组件理解不同部分的关系。为了实现高分辨率的图像到图像转换,我们采用了多尺度鉴别器架构来提高区分假图像和真实图像的能力。所提出的体系结构可以融合来自多个尺度的信息,并产生更真实的输出。
数据集:
Alderley最初是为SeqSLAM算法[19]提出的,该算法两次收集同一路线的图像:一次在晴天,另一次在风雨交加的夜晚。数据集中的每个帧都带有GPS标记,因此每个夜间帧都有相应的日间帧。夜间采集的图像模糊不清,有很多反射,导致前方车辆、车道和交通标志难以识别。对于这个数据集,我们使用第一个连续的四英尺进行训练,其他用于评估。由于该数据集具有昼夜对应性,我们将其用于图像定位任务的定量评估。不幸的是,它没有为语义分割和对象检测提供基本事实注释,所以我们使用另一个数据集来完成这两项任务。BDD100K[27]是一个大规模的高分辨率自动驾驶数据集,在多个城市和各种条件下收集了10万个视频片段。对于每个视频, 它选择一个关键帧来提供详细的注释(如各种对象的边界框、密集像素注释、日间注释等)。我们根据注释对该数据集进行了重组,获得了27971张用于训练的夜间图像和3929张用于评估的夜间图像。我们获得了36728/5258 train/val的日图像分割。我们继承了BDD100K数据集的数据分割。我们在此数据集上执行语义分割和目标检测。
图像质量指标:
FID[9]评估真实样本分布和生成的样本分布之间的距离。FID分数越低表示图像生成质量越高。 愿景任务指标:
对于定位:
SIFT是确定两幅图像之间特征匹配点的好方法。我们通过SIFT兴趣点匹配来测量定位性能。 语义分割:
并集交集(IoU)是一种常用的语义分割度量。对于每个对象类,IoU是预测的分割图和地面实况之间的重叠,除以它们的并集。在多个类的情况下,我们取所有类的平均IoU(即mIoU)来表示模型的总体性能。目标检测:我们使用平均精度(mAP)来评估性能,并报告各个类别的平均精度分数,以便进行更全面的评估。
我们将我们提出的方法与其他最先进的图像翻译方法进行了比较,如UNIT、CycleGAN、MUNIT、DRIT、UGATIT和StarGAN。此外,我们还与EnlightenGAN和ToDayGAN等微光增强方法进行了比较。我们遵循这些方法的指示,并进行公平的比较。编码器E包含3个Conv-Ins-ReLU模块和4个扩展残差块,而重构解码器Gr和翻译解码器Gt都具有4个扩展的残差块和3个Decov-Ins-ReLU模块,后面跟着Tanh活动函数。所有领域特定鉴别器都采用多尺度鉴别器架构,我们将尺度数量设置为2。对于对抗性领域分类器,主干有4个Conv-Ins-ReLU块,对抗性分支有一个额外的卷积层来获得对抗性输出, 而分类分支又有一个完全连接的层,以获得域分类输出。我们采用了Adam优化器,并将学习率设置为0.0002。
我们的目标是在奥尔德利数据集上以极其困难的环境进行翻译。图3显示了定性翻译结果的比较。UNIT和MUNIT未能执行合理的翻译并生成看似合理的对象。DRIT在域转换后丢失了详细信息并丢失了一些对象。EnlightenGAN的结果未能提供有意义的视觉信息,只略微改变了照明。ToDayGAN和UGATIT获得了更好的翻译结果,并捕捉到了黑暗中的视觉对象。但它们不能很好地保存视觉对象(例如,交通标志和汽车)。相比之下,我们的方法具有更强的能力来捕捉这些弱信号并更好地保存它们。对于这个数据集,我们使用512*256分辨率进行实验。我们计算翻译的白天图像和相应的自然白天图像之间的SIFT匹配点的数量。表1报告了定量比较。 我们的ForkGAN通过精确的昼夜图像翻译获得最佳的SIFT结果。它还以最低的FID分数获得了最佳的图像生成质量。通过提高保持和增强SIFT匹配的能力,它可以有利于位置识别和视觉定位。
为消融研究设计了几个实验。首先,我们删除了生成器的Fork形状架构(表示为w/o Fork形状),并遵循Cycle GAN方法的设置来优化模型。香草生成器生成的结果在汽车上有伪影,因为无法保证域不变量和域特定信息之间的解纠缠。然后,我们只研究叉子形状生成器本身的有效性(名称为“叉子形状”)。注意,在此设置中,我们不计算
和对抗性领域分类损失
。由于重建损失,合成图像具有较少的伪像,所述伪像具有除叉子形状之外的所有伪像。基于此,我们旨在通过评估“叉形+DRB”来探索扩张残差块(简称DRB)的改进。 更大的感受场可以帮助发生器更好地捕捉黑暗中的物体。然后我们采用多尺度鉴别器架构(缩写MSD),这里我们设置n=2。如表2所示,MSD架构还可以改善FID和SIFT匹配(如“Fork shape+DRB+MSD”的结果所示)。在下一个实验中,我们使用我们所涵盖的所有内容来训练ForkGAN,并在我们使用它进行测试时排除重建阶段,该阶段用“w/o重建”表示。如图4和表2所示,在“Fork shape+DRB+MSD”中添加Lper和Lcls可以实现更好的解纠缠,从而获得更好的翻译输出。最后,我们在测试阶段将“ForkGAN”与修复阶段结合使用,并观察到修复可以极大地提高零件的详细生成。 最后但并非最不重要的是,我们还通过让同一域的翻译解码器和重建解码器(例如,Gty和Gry)共享相同的参数(基本上使用相同的解码器而不是两个不同的解码器)来评估ForkGAN的扭曲版本,并将其表示为“w/共享解码器”。如图所示,与没有共享解码器的“ForkGAN”相比,它导致性能显著下降。同一域的两个解码器看起来相似,但它们受到不同损耗的限制,因此具有不同的职责,这是相辅相成的。将负载放在单个解码器上会使实现目标变得更加困难,并导致较差的模型。表2中列出了上述不同设置的所有定量比较,图4中给出了定性比较。
此外,我们执行高分辨率(1024×512)的昼夜图像翻译,以提高语义分割性能。图5展示了各种方法的翻译结果和相应的分割输出。对于语义分割,我们在Cityscapes数据集上使用预先训练的Deeplab-v3模型4]。BDD100K数据集提供了137幅夜间图像的分割基本事实。因此,我们计算137幅翻译的日间图像的分割输出与相应的分割基本事实之间的IOU度量。定量比较如表3所示。由于Cityscapes数据集上没有夜间图像,因此夜间图像的分割性能急剧下降,如表3所示。 如果我们直接对真实的夜间图像进行语义分割,则mIoU仅为7.03%。昼夜翻译模型提供了一个强大的工具来提高分割性能,其中更强的翻译模型应该会带来更大的性能提升。如图所示,我们的ForkGAN在所有方法中实现了最高的mIoU,几乎是原始夜间图像分割结果的两倍。我们还观察到,一些比较翻译方法产生的合成日间图像比原始夜间图像获得更差的分割性能。MUNIT和DRIT方法都无法从具有挑战性的夜间图像中合成合理的输出,因此获得较差的mIoU分数。ToDayGAN在实现合理的昼夜翻译的同时,获得了比原始夜间图像更高的mIoU分数。 我们的ForkGAN在夜间到白天的图像翻译过程中保留了详细信息,尤其是小型交通标志和行人。因此,我们的方法可以通过保留和增强关键的细节信息来提高分割性能。为了定量比较翻译质量,我们还计算FID分数,以测量表3中生成的样本分布和真实图像分布之间的距离。
在自动驾驶中,在各种天气和照明条件下收集大量带有注释的数据以进行物体检测是很困难的,有时甚至很困难。大多数可用的数据集包含主要来自日间驾驶的图像。在这些数据集上训练的模型一旦在不同的领域(如夜间)进行测试,就会出现性能下降。一种可能的解决方案是通过域翻译用带注释的白天图像来增加夜间数据,这样我们就可以最大限度地利用可用的注释。我们的ForkGAN还可以进行昼夜翻译,以帮助货架检测模型适应不同的领域。 我们在两种设置中将我们的ForkGAN与BDD100K数据集上最相关的ToDayGAN进行了比较。在这两种设置中,我们都有来自昼夜域的未标记图像用于训练图像翻译网络,以及用于训练检测网络的日间图像的边界框注释,无论是真实图像还是翻译图像:
1) 仅限白天标签-训练时没有夜间标签图像可用:
我们使用ForkGAN将白天图像转换为夜间图像,并保留相应的边界框。然后,我们在这些翻译的夜间图像上训练对象检测网络。为了进行比较,我们还使用原始白天图像(Day Real)和ToDayGAN翻译的夜间图像来训练两个独立的检测网络。定量结果如表4所示。我们观察到ForkGAN可以提高夜间图像的检测性能。检测结果的可视化如图6所示。通过领域适应,在黑暗中检测小信号的能力得到了提高。
2) 日间+夜间标签-夜间和日间标签图像都可用于训练:
我们再次应用ForkGAN将日间图像转换为夜间图像,以进行数据增强。检测网络是在真实和翻译的夜间图像上进行训练的。我们还报告了仅在真实夜间图像(night-real)和ToDayGAN(night+ToDayGAN)的夜间图像增强上训练的检测网络的性能。图6和表4显示了视觉和定量比较。通过与翻译的夜间图像相结合,检测性能得到了提高,这表明检测任务可以从领域翻译中受益。
我们提出了一个新的框架ForkGAN来实现无偏的图像翻译,这有利于多种视觉任务:定位/检索、语义分割和不利条件下的物体检测。它通过叉形模块解开域不变和域特定信息,并通过对抗性域分类器和跨翻译感知损失来增强。大量实验证明了它的优越性和有效性。未来可能的工作包括设计一个多任务学习网络,以共享不同视觉任务的主干,并在域不变的内容空间中执行目标检测,这可能更紧凑、更高效。