前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Domain Adaptation for Structured Output viaDiscriminative Patch Representations

Domain Adaptation for Structured Output viaDiscriminative Patch Representations

作者头像
狼啸风云
发布2023-10-07 15:27:15
1730
发布2023-10-07 15:27:15
举报

摘要

 预测语义分割等结构化输出依赖于昂贵的每像素注释来学习卷积神经网络等监督模型。然而,在没有模型调整注释的情况下,在一个数据域上训练的模型可能无法很好地推广到其他域。为了避免注释的劳动密集型过程,我们开发了一种域自适应方法,将源数据自适应到未标记的目标域。我们建议通过构建聚类空间来发现逐片输出分布的多种模式,从而学习源域中补丁的判别特征表示。以这种表示为指导,我们使用对抗性学习方案来推动聚类空间中目标补丁的特征表示更接近源补丁的分布。此外,我们还表明,我们的框架是对现有领域自适应技术的补充,并在语义分割方面实现了一致的改进。广泛的消融和结果在各种设置的众多基准数据集上进行了演示,例如合成到真实和跨城市场景。

1、介绍

 随着大规模注释数据集[8]的可用性,深度学习对许多计算机视觉任务产生了重大影响,如对象识别、检测或语义分割。不幸的是,当在不同于标记的训练数据的测试域上进行评估时,学习的模型可能无法泛化。无监督域自适应(UDA)已被提出,以弥补源域和目标域之间的不匹配所带来的性能差距,其中标记数据可用。UDA通过仅利用来自目标域的未标记数据来规避昂贵的数据注释过程。沿着这条路线,已经开发了许多UDA方法,并成功应用于分类任务。

UDA对于像素级预测任务(如语义分割)更为关键,因为注释的成本高得令人望而却步。语义分割领域自适应的一个突出方法是对抗性学习的分布对齐,其中对齐可能发生在不同的表示层,如像素级[16,48]、特征级[16、17]或输出级[39]。尽管做出了这些努力,发现数据分布的所有模式是领域自适应的关键挑战[38],类似于生成任务也面临的困难[2,26]。

对抗性训练中的一个关键步骤是使用卷积鉴别器,将补丁分类为源域或目标域。然而,鉴别器没有被监督来捕捉数据分布中的几种模式,并且它最终可能只学习低级别的差异,例如跨域的色调或纹理。此外,对于语义分割任务,在高度结构化的输出空间中,捕获和调整高级模式是很重要的。

 在这项工作中,我们提出了一种无监督的领域自适应方法,该方法明确地发现语义分割的结构化输出空间中的许多模式,以在两个领域之间学习更好的鉴别器,最终实现更好的领域对齐。我们利用了源域中可用的像素级语义注释,但我们的自适应不是直接处理输出空间,而是分两个阶段进行。首先,我们从源域中提取补丁,使用它们的注释图来表示它们,并通过应用K-means聚类来发现主要模式,该聚类将补丁分组为K个聚类(图1中的步骤A)。现在可以将源域中的每个补丁分配给地面实况簇或模式索引。然后,我们引入了一个K-way分类器,该分类器预测每个补丁的聚类或模式索引,可以在源域中进行监督,但不能在目标域中进行。

其次,与输出空间对齐[39]不同,我们的方法,称为补丁级对齐(图1中的步骤B),在投影到已经发现各种补丁模式的聚类空间后,在K维概率向量空间上进行操作。这与在像素-[48]、特征-[16]或输出电平上操作的现有技术形成对比。聚类空间上的学习鉴别器可以通过聚类或模式索引分类器将梯度反向传播到语义分割网络。

在实验中,我们遵循的设置,进行像素级道路场景语义分割。我们在各种环境下进行实验,包括合成到真实(GTA5,SYNTHIA到城市景观)和跨城市(城市景观到牛津RobotCar)的适应。我们提供了广泛的消融研究,以验证拟议框架中的每个组件。我们的方法也是对现有领域自适应技术的补充,我们通过结合输出空间自适应、像素级自适应和伪标签再训练来证明这一点。我们的结果表明,学习的表示一致地改进了分割结果,并实现了最先进的性能。

我们的贡献总结如下。首先,我们提出了一种用于结构化预测的对抗性自适应框架,该框架明确地试图发现和预测输出补丁的模式。第二,我们通过整合到三种现有的领域自适应方法中来证明我们的方法的互补性,这三种方法都可以从中受益。第三,我们广泛分析了我们的方法,并展示了用于语义分割的各种领域自适应基准的最新结果。

2、相关工作

我们讨论了用于图像分类和像素级结构化预测任务的无监督域自适应方法,并致力于学习解纠缠表示。

用于图像分类的UDA

UDA方法是通过调整源域和目标域之间的特征分布来进行分类的。传统的方法使用手工制作的特征[9,12]来最小化域之间的差异,而最近的算法使用深度架构[10,40]来学习域不变特征。一种常见的做法是采用对抗性学习[10]或最小化最大平均差异[23]。通过设计不同的分类器[24]和损失函数[40,41],以及远程度量学习[36,37],已经开发了几种变体。此外,最近的其他工作旨在通过像素级转移[1]和最大类差异[33]来增强特征表示。 用于语义分割的UDA 根据图像分类的实践,研究了像素级预测的域自适应。[16] 介绍了通过对齐全局特征表示来适应合成图像,从而解决道路场景图像的语义分割问题。此外,从源域中提取类别特定先验,例如对象大小和类分布,并将其作为约束转移到目标分布。[46]没有设计这样的约束,而是应用SVM分类器来捕捉超像素上的标签分布,作为训练自适应模型的属性。类似地,[6]提出了一种通过向目标数据分配伪标签的类域对抗性对齐。 最近,提出了许多方法来改进自适应分割,并且可以分类如下:

1) 输出空间[39]和空间感知[5]适应旨在跨域对齐全局结构(例如,场景布局);2) 像素级自适应合成目标样本[15,27,43,47],以减少训练分割模型期间的域间隙;3) 伪标签重新训练[34,50]生成目标图像的伪地面实况,以对在源域上训练的模型进行网络调整。虽然与我们最相关的方法来自第一类,但它们不处理相机姿势等固有的领域间隙。相反,所提出的补丁级别对准能够跨域匹配不同图像位置的补丁。我们还注意到,其他两类或其他技术,如鲁棒损失函数设计[49],与这项工作的贡献正交。在第4.3节中,我们展示了我们的补丁级表示可以与其他领域自适应方法集成,以进一步提高性能。 学习混乱的表象

学习潜在的解开空间可以更好地理解许多任务,如面部识别[29]、图像生成[4,28]和视图合成。这些方法使用预先定义的因素来学习图像的可解释表示。[22]提出学习关于各种图像变换(例如,姿势和照明)的图形代码,以渲染3D图像。类似地,[44]通过编码器-解码器架构从单个图像合成3D对象,该架构基于旋转因子学习潜在表示。最近,AC-GAN[28]开发了一种生成对抗性网络(GAN),该网络具有以图像标签和属性等给定因素为条件的辅助分类器。 尽管这些方法在使用特定因素和学习解纠缠空间以帮助目标任务方面取得了有希望的结果,但它们侧重于处理单个领域中的数据。受这一研究方向的启发,我们建议学习补丁的判别表示,以帮助完成领域自适应任务。为此,我们利用了可用的标签分布,并自然地将其作为一个解开的因素,在这个因素中,我们的框架不需要像传统方法那样预先定义任何因素。

3、结构输出的适配

 在本节中,我们描述了我们预测结构化输出的框架:一种对抗性学习方案,通过使用补丁的判别性输出表示来调整跨领域的分布。

3.1、算法概览

 给定源图像和目标图像

,其中只有源数据用每像素语义类别

Y_s
Y_s

进行注释,我们试图学习一种在这两个域上都有效的语义分割模型G。由于目标域未标记,我们的目标是将目标数据的预测输出分布

O_s
O_s

与源分布

O_t
O_t

对齐,这与[39]类似。然而,这种分布不知道补丁中的局部差异,因此无法在对抗性学习期间发现一组不同的模式。为了解决这个问题,与[39]相反,我们将补丁的类别分布投影到集群空间,该集群空间已经基于源域中的注释发现了各种补丁模式(即K个集群)。对于目标数据,我们随后采用对抗性学习来对齐K维空间中跨域的补丁级别分布。

3.2、Patch级的对齐

 如图2所示,我们寻求在集群空间中对齐补丁的方法,该集群空间提供了一组不同的补丁模式。还可以将该过程视为通过对来自源域的地面实况分割注释进行聚类来学习补丁的原型输出表示。在接下来的内容中,我们将介绍如何构建聚类空间并学习判别性补丁表示。然后,我们使用学习的补丁表示来描述对抗性对齐。详细的体系结构如图3所示。

Patch模式发现

 为了发现模式并学习判别特征空间,通常提供类标签或预定义因子作为监督信号。然而,将类成员身份分配给图像的各个补丁是非常重要的。人们可以应用图像补丁的无监督聚类,但尚不清楚所构建的聚类是否会以语义上有意义的方式分离补丁。在这项工作中,我们利用源域中可用的每像素注释来构建语义补丁表示的空间。为了实现这一点,我们对补丁使用标签直方图。我们首先从源图像中随机采样补丁,在补丁上使用2×2网格来提取空间标签直方图,并将它们连接起来以获得2×2×C维向量。其次,我们在这些直方图上应用K-means聚类,从而为每个地面实况标签补丁分配唯一的聚类索引。我们将确定地面实况标签图Ys中每个补丁的聚类成员身份的过程定义为

  为了结合这个聚类空间来训练源数据上的分割网络G,我们在预测的输出

O_s
O_s

上添加了一个分类模块H,它试图预测所有位置的聚类成员

。我们通过softmax函数将学习的表示表示表示为

,其中K是簇的数量。这里,空间映射

F_s
F_s

上的每个数据点对应于输入图像的一个补丁,并且我们通过

获得每个补丁的群标签。然后,构建聚类空间的学习过程可以公式化为交叉熵损失:

对抗对齐 接下来的任务是将目标补丁的表示与在源域中构建的聚类空间对齐,理想地与

K
K

个模式之一对齐。为此,我们利用

F_s
F_s

F_t
F_t

之间的对抗性损失,其中

F_t
F_t

以与上述相同的方式生成。请注意,补丁级特征

F
F

现在从类别分布

O
O

转换到由K维向量定义的聚类空间。然后,我们在对抗性目标中制定补丁分布对齐:

其中D是用于对特征表示F是来自源域还是来自目标域进行分类的鉴别器。

学习目标

我们将(1)和(2)集成到最小-最大问题中(为了清楚起见,我们将除优化变量外的所有自变量都丢弃为损失):

其中,

是用于学习源数据上的结构化预测(例如,语义分割)的监督交叉熵损失,

\lambda
\lambda

是不同损失的权重。

3.3、网络优化

为了解决等式中的优化问题,我们遵循训练GAN的过程,并交替两个步骤:

1) 更新鉴别器D,以及2)在确定鉴别器的同时更新网络G和H。 更新鉴别器 我们训练鉴别器D来分类特征表示F是来自源(标记为1)还是来自目标域(标记为0)。(3)中关于D的最大化问题等价于最小化二进制交叉熵损失:

更新网络G和H

该步骤的目标是使用优化的D使目标分布更接近源分布,同时使用G和H在主要任务上保持良好的性能。因此,(3)中的最小化问题是两个监督损失函数与对抗性损失的组合,其可以表示为将源标签分配给目标分布的二进制交叉熵函数:

我们注意到,更新H也通过反向传播影响G,因此在G中增强了特征表示。此外,我们只在训练阶段需要H,因此与输出空间自适应方法相比,推理的运行时间不受影响。

3.4、实现细节

网络体系结构 生成器由具有分类模块H的网络G组成。为了进行公平的比较,我们遵循中使用的框架,该框架采用了具有ResNet-101架构的DeepLab-v2作为我们的基线网络G。为了在输出预测O上添加模块H,我们首先使用自适应平均池化层来生成空间图,其中地图上的每个数据点都有一个与提取的斑块大小相对应的期望感受场。然后,将该合并图馈送到两个卷积层中,并生成具有信道号K的特征图F。图3说明了所提出的架构的主要组件。对于鉴别器D,输入数据是K维向量,并且我们使用类似于[41]的全连接层,具有泄漏的ReLU激活和信道号{256,512,1}。 实施细节 我们使用PyTorch工具箱在一个具有12GB内存的Titan X GPU上实现了所提出的框架。为了训练鉴别器,我们使用Adam优化器[20],初始学习率为10e−4,动量设置为0.9和0.99。为了学习生成器,我们使用随机梯度下降(SGD)求解器,其中动量为0.9,权重衰减为5×10e−4,初始学习率为2.5×10e–4。对于所有网络,我们使用0.9次方的多项式衰减来降低学习率,如[3]中所述。在训练过程中,我们为所有实验选择

和K=50。请注意,我们首先仅使用10K迭代的损失Ls来训练模型,以避免最初的噪声预测,然后使用所有损失函数来训练网络。在补充材料中提供了诸如图像和补丁大小之类的超参数的更多细节。

4、实验结果

我们评估了所提出的基于语义分割的领域自适应框架。我们首先进行了广泛的消融研究,以验证我们算法的关键组件。其次,我们证明了所提出的方法可以与各种领域自适应技术相结合,包括输出空间自适应[39]、像素级自适应[15]和伪标签重新训练[50]。这表明,我们学习的补丁级表示是对广泛的领域适应策略的补充,并提供了额外的好处。最后,我们提出了一个混合模型,该模型在众多基准数据集和设置上与最先进的方法相比表现良好。

4.1、评估数据集和指标

我们评估了我们在各种环境下的语义分割领域自适应方法,包括合成到真实和跨城市。首先,我们将合成的GTA5数据集改编为包含真实道路场景图像的Cityscapes数据集。类似地,我们使用SYNTHIA数据集,该数据集与城市景观图像有较大的域差距。对于这些实验,我们按照[16]将数据划分为训练集和测试集。作为另一个具有高度实际影响的例子,我们将我们的方法应用于在不同城市和天气条件下捕获的数据,方法是将带有阳光图像的城市景观改编为包含降雨场景的Oxford RobotCar[25]数据集。我们在Oxford RobotCar数据集中手动选择标记为“下雨”的10个序列,并将其随机分为7个序列进行训练和3个序列进行测试。我们依次采样895幅图像进行训练,并用每像素语义分割的基本事实作为评估的测试集对271幅图像进行注释。注释后的基本事实在项目页面上公开。对于所有实验,交集与并集(IoU)比率被用作评估度量。

4.2、消融研究与分析

在表1中,我们对GTA5到Cityscapes场景中拟议的补丁级别对齐进行了消融研究和分析,以了解我们框架中不同损失函数和设计选择的影响。

损失函数

在表1中,我们展示了所提出方法的不同步骤,包括使用判别性补丁特征和最终补丁级别对齐的无自适应模型。有趣的是,我们发现添加没有任何对齐的判别性补丁表示(Ls+Ld)已经提高了性能(从36.6%提高到38.8%),这表明学习的特征表示增强了判别和泛化能力。最后,所提出的补丁级对抗性对齐将mIoU提高了4.7%。 学习集群空间的影响

K-means提供附加信号以分离不同的贴片图案,同时在该聚类空间中执行对准。如果没有聚集损失Ld,则很难在两个域之间对齐补丁模式。为了验证这一点,我们只使用了Ls和Ladv,但去除了Ld,与我们的方法(41.3%)相比,性能降低了1.9%。这表明了学习K-means过程监督的聚类空间的重要性。 簇数K的影响 在图5中,我们研究了用于构建补丁表示的簇数K的影响,表明性能对K是鲁棒的。然而,当K太大时,例如,大于300时,会导致补丁模式之间的混淆,并增加训练难度。为了保持效率和准确性,我们在整个实验中使用K=50。

特征表示的可视化 在图4中,我们显示了我们方法的聚类空间中的补丁级特征的t-SNE可视化[42],并与没有补丁级自适应的方法进行了比较。结果表明,通过在聚类空间中进行自适应,特征被嵌入到组中,并且源/目标表示很好地重叠。此外,我们还提供了具有高度相似性的示例源/目标补丁。

4.3、领域自适应方法的改进

通过所提出的补丁对齐学习的补丁表示增强了特征表示,并补充了各种DA方法,我们通过结合输出空间自适应(Ou)、像素级自适应(Pi)和伪标签重新训练(Ps)来证明这些方法。我们的结果显示,在所有情况下都有持续的改善,例如,如表2所示,GTA5到Cityscapes的改善率为1.8%到2.7%。 输出空间自适应 我们首先考虑如[5,39]中所述的跨领域调整全球布局的方法。我们提出的聚类预测网络H和相应的损失Ladv可以简单地添加到[39]中。由于这些方法只对齐全局结构,添加我们的方法有助于更好地找出局部细节,并提高分割质量。 像素级自适应 我们使用CyCADA作为像素级自适应算法,并从源图像中生成目标域中的合成图像。为了训练我们的模型,我们使用所提出的补丁级别对齐将合成样本添加到标记的训练集中。请注意,由于合成样本与源数据共享相同的像素级注释,因此在我们的聚类过程和(3)中的优化中也可以考虑它们。

伪标签再训练 

在领域自适应[50]或半监督学习[18]中,伪标签重新训练是提高分割质量的自然方法。端到端可训练框架[18]使用对抗性方案来识别自学习区域,这使其成为集成我们的补丁级对抗性损失的理想候选者。 结果和讨论 表2和表3分别显示了GTA5与城市景观和SYNTHIA与城市景观的拟议斑块水平对齐与上述三种DA方法相结合的结果。我们可以观察到,添加补丁级别的对齐在所有情况下都会得到改善。作为参考,我们还展示了在平面分割网络中添加补丁级对齐(无自适应)的增益。即使将所有三种DA方法(即Fusion(Fu))相结合,所提出的贴片对准也能显著改善结果(≥2.0%)。请注意,包括贴片对准在内的所有DA方法(如Fu+贴片对准)的组合在这两种情况下都能获得最佳性能。

作为比较点,我们还尝试将像素级自适应与输出空间对齐(Pi+Ou)相结合,但性能比我们的Pi+Patch对齐差0.7%,显示了采用补丁级对齐的优势。关于表3中的SYNTHIA到Cityscapes,我们发现Pi和Ps的效果不如Ou,这可能是由于源域中输入数据的质量较差,这也解释了组合模型(Fu)性能较低的原因。这也表明,直接组合不同的DA方法可能不会逐渐提高性能。然而,添加所提出的补丁对齐可以在所有设置中一致地改进结果。

4.4、与最先进方法的比较

 我们已经验证了所提出的补丁级对齐是对现有的语义分割领域自适应方法的补充。在下文中,我们将我们的最终模型(Fu+补丁对齐)与各种场景下的最先进算法进行了比较,包括合成到真实和跨城市的情况。 合成真实案例

我们首先在表4中给出了GTA5适应城市景观的实验结果。我们使用了两种不同的架构,即VGG-16和ResNet-101,并通过特征自适应[16,46]、像素级自适应[15]、伪标签重新训练[50]和输出空间对齐[5,39]与最先进的方法进行了比较。我们表明,对于两种架构,所提出的框架的平均IoU分别比现有方法提高了2.5%和5.1%。在表5中,我们给出了SYNTHIA适应城市景观的结果,与现有技术相比,观察到了类似的改进。此外,我们在图6中显示了视觉比较,补充材料中提供了更多结果。 跨城市案例 在不同城市和条件下的真实图像之间进行自适应是实际应用的重要场景。我们选择了一个具有挑战性的情况,即两个城市的天气条件不同(即晴天与雨天),通过将城市景观调整为Oxford RobotCar。所提出的框架在9个类别上实现了平均72.0%的平均IoU,将未经调整的模型显著提高了10.1%。与输出空间调整方法[39]相比,我们运行了作者发布的代码,获得了69.5%的平均IoU,比所提出的方法低2.5%。补充材料中提供了进一步的结果和比较。

5、讨论

 在本文中,我们提出了一种通过补丁级对齐的结构化输出的域自适应方法。我们建议通过构建源补丁的聚类空间来学习补丁的判别表示,并采用对抗性学习方案来使目标补丁分布更接近源补丁分布。对于补丁级别的对齐,我们的方法是对各种领域自适应方法的补充,并提供了额外的改进。我们进行了广泛的消融研究和实验,以验证所提出的方法在语义分割的众多挑战下的有效性,包括合成到真实和跨城市场景,并表明我们的方法与以前的方法相比表现良好。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
  • 3、结构输出的适配
    • 3.1、算法概览
      • 3.2、Patch级的对齐
        • Patch模式发现
      • 3.3、网络优化
        • 3.4、实现细节
        • 4、实验结果
          • 4.1、评估数据集和指标
            • 4.2、消融研究与分析
          • 4.3、领域自适应方法的改进
            • 4.4、与最先进方法的比较
            • 5、讨论
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档