领域自适应目标检测旨在使检测模型适应那些无法获得标注数据的环境。现有的方法已经提出使用半监督的学生-教师框架来解决领域差异。 然而,一个基本问题源于标记训练集中的类别不平衡,可能导致伪标签不准确。类别之间的关系,尤其是当一个类别占多数而另一个占少数时,对类别偏见有很大影响。 作者提出了一个名为Class-Aware Teacher(类感知教师,简称CAT)的方法,以解决领域适应设置中的类别偏见问题。在作者的工作中,作者使用作者的Inter-Class Relation模块(ICRm)来近似类别关系,并利用它来减少模型内的偏见。 通过这种方式,作者能够对高度相关的类别应用增强,包括领域内和领域间的,以提升少数类别的性能,同时对多数类别的影响最小。作者进一步通过为作者的分类损失实施类别关系权重来减少偏见。 在各种数据集上进行的实验和消融研究表明,作者的方法能够处理领域适应设置中的类别偏见。在Cityscapes
Foggy Cityscapes数据集上,作者获得了52.5 mAP,相比于最先进方法的51.2 mAP,这是一个显著的提升。
域自适应目标检测(DAOD)已被提出作为在无法获取标注数据域中进行目标检测的解决方案。这种需求源于与标注紧密相关数据的增加,这在具有挑战性的领域中既成本高昂又可能不准确。随着对抗学习[5, 33, 43, 48],风格迁移[50, 51],特别是学生-教师框架[1, 8, 16, 24, 26, 29, 37, 49]的引入,DAOD已经取得了进展。然而,这些方法忽略了类不平衡这一关键问题,这在许多现实生活场景中都是一个难题,如自动驾驶。例如,在Cityscapes数据集[7]中,'car'类在数据集中占据了主导地位,有26,963个实例,而像'train'这样的类别仅包含168个实例。
在DAOD中减轻类别不平衡的前期工作采用了特定类别的判别器[48]来对齐不同域中的类别。此外,还提出了类别权重的方法,在对齐域特征的同时提升少数类别[3]。近来,许多DAOD方法采用了学生-教师框架,从而提高了性能。尽管这些方法有效,但这些学生-教师方法受到类别不平衡问题的影响,导致少数类别性能不佳。
图1:类意识教师(CAT)的性能表现。 AT [29](左上角),采用类间损失,ICL,(右上角),采用类关系增强,CRA,(左下角),以及CAT(右下角)。CAT能够解决少数类别(如‘火车’)的误分类和假阳性问题,分别用蓝色和红色框标出。ICL和CRA的结合进一步提升了性能,减少了显示为粉红色框的假阳性数量。
在学生-教师框架中,已经提出了针对特定类别的阈值放宽方法,以提供对某些类别的更大宽容度。然而,这种方法并未解决根本的类别不平衡问题。即使有完全准确的伪标签指导学生,模型的偏见最多也只能与数据集中的偏见保持一致,而不是提供一个无偏见的视角。此外,类间动态在解决类别不平衡方面起着关键作用,特别是在少数类与多数类高度相似时,增加了误分类的可能性。
为了应对这些挑战,在本文中,作者引入了作者的类感知教师(Class-Aware Teacher,简称CAT),特别设计用于解决DAOD设置中的类别不平衡问题。CAT实现了一个类间关系模块(Inter-Class Relation module,ICRm),它近似于模型现有的类别偏差以及类间动态。利用这些偏差的知识,CAT对训练图像应用类别关系增强(Class-Relation Augmentation,CRA)。CRA通过在实例 Level 将少数类与相似度高的多数类混合,增加了少数类的表示。为了辅助这种增强,使用了一个Cropbank[46]来存储一系列裁剪实例的集合。此外,这种增强不仅限于源域,也应用于跨域。通过允许跨域增强,作者能够更全面地解决域差距问题。为了进一步解决类间偏差,作者提出了一个类间损失(Inter-Class Loss,ICL)。ICL利用来自ICRm的洞察,优先使模型的注意力指向少数类。这种优先性特别关注于少数类容易误分为多数类的情况。
通过整合这些方法,作者的结果显示在少数类别的预测准确性方面有所提升,在诸如Cityscapes
Foggy Cityscapes的基准测试中,性能有了量化的提高,增加了+1.3 mAP。图1展示了作者方法的表现。本文的贡献总结如下:
作者提出了作者的类感知教师(Class-Aware Teacher, CAT)模型,该模型得到了作者的跨类关系模块(inter-class relation module, ICRm)的支持,它能够映射模型现有的类偏差。
作者提出了类别关系增强(Class-Relation Augmentation),它强调在不同领域间相关类别之间的增强,并结合了类别间损失(Inter-Class Loss),以进一步优先提升少数类别的性能。
彻底的实验分析确认了CAT的能力。作者的实验表明,与DAOD基准测试中的现有最佳方法相比,性能有显著提升。
目标检测的UDA(无监督领域适应)旨在将一个在标记源域上训练的模型适配到 未标注 的目标域。在目标检测任务中,结合领域分类器的对抗性训练方法[5, 33, 43, 48]被广泛用于培养领域不变图像特征表示。其他策略,如图像到图像的翻译,使用生成模型[50, 51]或基于频率的方法[44]来弥合不同领域之间的差距。近期的研究方法将平均教师(MT)框架[1, 8, 16, 24, 26, 29, 37],最初设计用于半监督学习,应用到了UDA挑战中。例如,UMT[8]利用CycleGAN生成的图像来训练学生-教师模型,旨在减少领域偏见。AT[29]采用强-弱图像增强,故意降低学生的输入质量与教师的相比,并融入对抗性训练以进一步减少领域差距。2PCNet[24]采用两阶段方法,通过领域特定增强提供更多样化的伪标签。尽管这些方法相较于其前身有了显著的改进,但它们常常忽视了基准数据集中普遍存在的类别不平衡问题。这种疏忽可能导致对少数类别的性能不佳,其中一些类别的出现频率可能比多数类别低20倍[7]。
类不平衡目标检测问题在很大程度上源于预测中背景类对前景类的过度表示[31]。然而,作者的研究解决了前景类本身之间的不平衡问题,这在数据集中往往因频率不均而受到影响。
这里的挑战是过度拟合到少数类的风险,尤其是当这些类的实例稀疏时[14]。从分类任务中借鉴的少数类过采样策略,也已经被适应用于目标检测[46]。在师生框架中,用于生成伪标签的静态硬阈值已经演变为动态的、类特定的阈值,以减轻教师偏见[23, 27]。尽管这种方法可以提高伪标签的质量,但它并不一定能平衡多数类和少数类之间的样本分布。在DAOD中,提出了诸如类特定判别器[48]和加权损失[3]等方法来处理类不平衡与域适应问题。一个关键的方面仍然是探索不足的,特别是具有相似特征的多数类和少数类之间的类间关系。在本文中,作者旨在探索类间动态,以有效地解决类不平衡问题。
问题定义
在本文中,作者提出了一种用于类别平衡的域自适应目标检测方法,该方法使用了标记好的源数据集
和 未标注 的目标数据集
。
和
分别表示图像及其对应的真实标签,这些标签包括边界框和类别信息,分别用
和
表示。
作者采用了平均教师(Mean Teacher)框架,该框架包括一个学生网络和一个教师网络,两者具有相同的结构和网络参数。教师的网络参数,表示为
,并不是通过反向传播来更新,而是使用学生参数
的指数移动平均(Exponential Moving Average, EMA)来进行更新,如下所示:
其中
是控制更新动量的衰减率。
教师网络从弱增强 未标注 图像生成伪标签,
。这些伪标签被学生网络用于结合强增强输入计算无监督损失。学生的输入故意比教师的输入质量下降,以进一步挑战学生网络。监督损失与Faster R-CNN框架[32]一致,而无监督损失表述为:
显著地,在无监督的背景下排除了回归损失。作者在教师模型生成的分类分数上实施一个硬阈值
,以确保只有高置信度的伪标签被学生网络所利用,从而促进更可靠的学习成果。按照[29]的做法,添加了一个判别器以鼓励具有相关损失
的领域不变特征表示。
作者的方法,类意识教师(CAT),如图2.a所示,建立在平均教师框架之上。CAT的核心是作者的类间关系模块(ICRm),旨在量化模型中固有的类偏差。与在广义上处理类偏差的传统方法不同,ICRm映射了类之间的动态关系。它特别关注那些被不成比例地错误分类为占主导地位的多数类的少数类。这种映射是通过为每个批次构建一个混淆矩阵来实现的,该矩阵与 GT 情况进行标准化,允许实时偏差估计。一个全局矩阵,随着批处理 Level 数据的持续更新,作为模型类偏差的稳健表示。ICRm是作者方法中不可或缺的一部分,支撑着两个组成部分:类关系增强和类间损失。
图2:(a)类别感知教师(CAT)包括:学生-教师网络;类别间关系模块(ICRm),它估计类别间的偏见;类别关系增强,它通过混合相关类别的裁剪实例来减少类别间的偏见;以及类别间损失,它在高度误分类的少数类别上强调损失。(b)在多数类(汽车)和少数类(公交车)上展示类别关系增强。
类关系增强在图像 Level 上解决类不平衡问题。使用ICRm识别与图像中多数类具有高相似度的少数类。MixUp [47]方法,已被证明能够解决不平衡的类问题[6, 11],随后被用来合并相关的少数类和多数类,从而增加这些少数类的代表性。作者的流程不仅增加了少数类的样本数量,还鼓励模型区分密切相关的类别,如图2.b所示。
此外,ICRm 通知作者在Inter-Class Loss中的权重分布。这个加权损失函数强调少数类的损失,尤其是那些经常被错误标记为多数类的情况。通过这样做,作者对模型的习得偏见进行了制衡,引导模型朝向更加平衡的分类性能。
先前研究在领域自适应中处理类别不平衡的问题[17, 21, 36]显著提升了不平衡类别的性能。然而,这些方法常常忽略了类别间的相互关系及其对类别不平衡的影响。作者的实验观察表明,少数类与多数类之间的误分类可能性严重受到它们之间相似性的影响。例如,由于固有的相似性,少数车辆类别更容易被错误地分类为多数类中的'汽车',而不是另一个多数类'人'。
作者的方法旨在通过类间关系模块(ICRm)利用这些观察到的关系。与一般的类别偏见不同,类间动态不能直接从数据集中推理出来,而必须在训练过程中从模型中引申出来。作者通过在每次训练批次生成一个混淆矩阵来实现这一点,该矩阵将真实标签与模型的预测进行交叉参考。这个矩阵相对于真实情况进行了归一化,以估计类别之间的偏见。
随后,作者采用指数移动平均(EMA)来迭代更新一个全局矩阵,该矩阵更加稳定且全面地近似了模型的类别偏差。EMA的应用不仅限于平滑处理;它还消除了每个批次中对每个类别存在的需求,简化了训练过程。构建此矩阵的过程在算法1中有所概述。对于源图像和目标图像,ICRm都是分别制定的,源图像参考真实的 GT 标签,而目标图像则利用伪标签来反映 GT 情况。
在分类任务中,过采样是一种常见的对抗类别不平衡的技术,通过增加少数图像的存在感。然而,在目标检测中,这种方法带来了挑战,因为图像通常包含多种目标类别的混合。作者对Cityscapes [7] 数据集的分析表明,大多数图像至少包含一个多数类的实例,这使得图像 Level 的重采样无效。这种复杂性要求目标检测需要更细致的增强策略。
类似于张等人[46]的做法,作者采用了实例 Level 的过采样。通过使用边界框标注从图像中裁剪出实例,然后策略性地将它们插入到其他图像中。
图像是从每个批次中随机选择的,通过使用ICRm,作者根据它们正确分类的可能性将类别分为多数类或少数类。然后作者推导出平均概率:
在公式中,
代表类的数量。具有概率
高于和低于平均概率的类分别被指定为多数类和少数类。
作者的方法不是采用其他先前方法所采用的随机叠加,而是匹配高度相关的少数实例和多数实例,并使用MixUp [47] 混合它们,这使得模型能对少数类别有更好的泛化能力。
作者通过将图像中的每个基本实例与通过加权随机抽样选择的采样实例配对来实现这一点,使用ICRm类概率作为权重。对于大多数基本实例,作者使用ICRm中的相应列,即
,通过将
设置为零来排除类自身的概率,以避免自我增强。这使作者能够选择那些经常被错误分类为多数类的类别。相反,对于少数基本实例,作者使用ICRm中的相应行作为权重,而不将
设置为零,允许自我增强的可能性,这对于少数类可能是有益的。这一点在图2.b中进行了演示。
采样实例会被调整大小以匹配基础实例的维度,以保证边界框的一致性。然后按照以下公式应用MixUp增强,其中贝塔分布决定了混合比例:
在这里,
和
分别代表基础实例和混合实例的裁剪图像,而
表示生成的增强图像。同样,
和
指的是基础实例和混合实例的类别,而
表示增强实例的类别向量。
对于源域图像,作者结合了两个域的实例,以利用准确的源标签,并辅助使用目标域样本进行域适应。而对于目标域图像,作者优先考虑目标实例,仅在特定类别没有可用的目标实例时才使用源实例。这确保了更多的关注放在目标域上,以实现更强大的域适应。此外,作者不针对目标域中的少数基础实例应用增强,以保持其完整性。这确保了模型能够专注于目标域,并不会漂移到一个中间域。
为了实施类关系增强,作者从每个批次中存储特定于类的实例裁剪,作者将其称为裁剪库[46]。这些裁剪是从标记源图像和伪标记目标图像的边界框标注中提取的。分别为源数据集和目标数据集维护单独的裁剪库,以便进行更有针对性的增强。为了确保样本的多样性,作者基于先进先出原则更新类实例。这对于目标裁剪库尤其有益,因为较早的样本可能由于早期伪标签的鲁棒性而准确性较低。
为了进一步减轻类别偏差,作者在分类损失中引入了一个加权参数,该参数由前景类别的互类别关系模块(ICRm)提供信息。这种加权方法优先考虑那些经常被错误分类为多数类别的类别,使模型能够集中精力提升这些类别的性能。为了强调对表现不佳类别的关注,作者在ICRm值上应用了一种非线性变换:
在哪里,
是
中的第
个权重,而
和
分别是第
个真实类别和预测类别。当
时,作者在对角线上进行标准化,因为作者的主要目标是优先考虑表现不佳的类别。为了防止对背景类别产生偏见,背景类别的权重统一设置为1。为了调和前景类别和背景类别权重之间的差异,前景实例的权重被标准化,使其平均值等于背景类别权重:
在这里,
表示前景实例权重的集合。此外,作者在所有类别关系权重上加入了一个额外的正则化项
,以防止极端权重值扭曲损失:
这种正则化确保了对分类损失产生适度、平衡的影响,现在分类损失定义为:
其中
是实例的数量,
是交叉熵损失。
整体损失于是为:
其中
和
分别代表无监督损失和判别器损失权重。
作者评估了类感知教师(CAT)在域自适应目标检测(DAOD)基准上的性能,遵循先前的工作[29]。
Cityscapes
雾天Cityscapes:Cityscapes数据集[7]是一个以道路为中心的数据集,包含来自晴朗天气下各种城市环境的2,975张训练图像和500张验证图像,标注分为8类。雾天Cityscapes[34]是在Cityscapes上生成的合成数据集,用以模拟雾天天气,使用了相同的基准图像和标注。作者在最严重的雾度 Level (0.02)上进行实验,其中雾天Cityscapes作为目标域使用。
Pascal Voc
Clipart1K:作者使用PASCAL VOC 2012[10]数据集进行训练,该数据集包含20个类别的11,540张真实世界图像。Clipart1k数据集[20]包括20个相应的剪贴画目标类别。按照[29]的方法,作者将Clipart1k分为500张训练图像和500张测试图像。
Sim10K [22]到Cityscapes和KITTI [12]到Cityscapes的基准测试被排除在作者的评估之外。尽管它们在DAOD研究中很受欢迎,但它们只关注“汽车”这一类别,这与作者的类别不平衡设置不符。
在DAOD的先前研究基础上,作者采用了以VGG-16 [35] 和 ResNet-101 [15] 作为 Backbone 网络的Faster R-CNN目标检测器作为作者的检测模型。作者的超参数设置如下:指数移动平均(EMA)衰减率
,beta分布超参数 [0.5,0.5],对抗性损失权重
,无监督损失权重
,以及正则化项
。作者在伪标签中使用了一个硬阈值
为0.8。弱-强增强 [30] 应用于源域和目标域的图像。作者在带有标签的源数据上训练作者的学生模型20,000次迭代。学生的参数被复制到教师模型中,然后在每个迭代中通过学生的EMA进行更新。作者继续用带有标签的源数据和未标签的目标数据进行60,000次迭代训练。作者的框架是在公开发布的Detectron2 [41] 基础上开发的。实验使用批量大小为8个源图像和8个目标图像,分布在4个NVIDIA RTX3090 GPU上。关于作者实验设置的额外细节将在补充材料中提供。
作者将在DAOD领域内将作者的方法与现有最佳技术进行比较,并报告一个仅基于源域的FCOS/Def DETR/Faster RCNN作为基准对比。此外,作者还加入了一个最优的上界(oracle upper bound),该上界仅在与目标域及其真实标注上进行训练。
雾天适应
当目标检测器在现实世界场景中部署时,在次优条件下(例如恶劣天气),其性能可能会显著下降。这是因为恶劣天气条件下的样本并未在模型的训练中出现,导致域偏移。域适应任务旨在克服正常条件与恶劣条件之间的这种差距。为了说明这一点,作者在常用的Cityscapes
雾化城市场景基准上进行了实验。
表1:在Foggy Cityscapes测试集上的目标检测结果,针对 Cityscapes
Foggy Cityscapes (0.02) 域适应。作者根据它们的检测器框架(FCOS/Def DETR/FRCNN)对方法进行分组,并突出表现最佳的方法。CAT能够超越之前的最先进技术MRT,高出1.3 mAP,并且在AT上提高了3.2 mAP。所有类别的.50 IoU平均精度(mAP)都有报告。
为了公平起见,在Foggy Cityscapes (0.02)上使用公开可获得的代码重现了AT的性能。
作者的结果展示在表1中。可以观察到,采用学生-教师框架的方法(HT,UMT,TDD,PT,AT,CMT,MILA,MRT)相较于非学生-教师框架的方法有着显著的优势。基于现有SOTA均值教师框架构建的CAT,在52.5 mAP上显著提升了性能。此外,作者的方法能够提升少数类别的同时,不对多数类别产生影响。
真实到艺术风格的适配
由于真实领域与艺术领域之间存在显著差异,将目标检测从真实领域适配到艺术领域尤为具有挑战性。在作者的实验中,如表格2所详述,作者观察到CAT实现了49.1的mAP,比之前最佳的表现高出2.1 mAP,比AT高出3.4 mAP。
值得注意的是,CAT在少数类别上显示出显著的改进,例如“摩托车”,在Clipart1k训练集中仅包含7张图像。这项实验的结果证明了CAT在解决不同领域中的类别不平衡问题上的有效性。
为了验证作者贡献的重要性,作者进行了一项消融研究。本研究中的所有实验都是在Cityscapes
Foggy Cityscapes基准上使用VGG16 Backbone 网络进行的。
定量消融研究
表3定量展示了作者框架中每个贡献的有效性。在集成作者的模块之前,基础框架对应于文献[29]中描述的AT模型。由于作者的类间关系模块(ICRm)对于类关系增强和损失都至关重要,因此在所有实验变化中都是恒定的。为了强调作者方法在解决类别不平衡方面的能力,作者引入了
。这个值表示不同类别mAP的标准差,并作为类别间性能公平性的指标。
包含作者的类间损失(ICL)使得模型在基础AT模型上显著提高了2.3 mAP,并降低了
,表明在各类之间的性能更加均衡。类别关系增强(CRA)也对AT有所帮助,尽管在mAP方面不如ICL那么显著。值得注意的是,CRA显著缩小了少数类和多数类之间的性能差距,这体现在
减少了8.8。同时使用ICL和CRA不仅提高了整体性能,而且与基础模型相比,实现了更低的
,这加强了作者的方法在处理类别不平衡方面的有效性。
表4:随机选择类别实例与通过CRA选择的比较。括号内的值指的是实例被增强的可能性。
表2: 在Clipart1k测试集上针对PASCAL VOC
Clipart1k领域适应的目标检测结果。CAT相较于之前的最先进技术CMT,提高了2.1 mAP,达到了新的最佳水平49.1 mAP。所有类别的.50 IoU(mAP)均值平均精度都有报告。‡ AT性能是按照[1]复现的。
表3:对CAT组件的消融研究。 在所有研究中均包含ICRm,因为它构成了CRA和ICL的基础。作者报告了在.50 IoU下的平均平均精度(mAP)以及类别mAP的标准差(
)。作者的贡献不包括在基础框架(AT)中。
增强的影响作者在比例和选择标准方面展示了增强的影响。图像增强是作者方法的关键部分,通过增加少数类的额外表现来丰富数据集。然而,如果图像过度增强,模型可能无法学习到准确的特征表示。为了保持平衡,作者选择性地增强部分随机选取的图像。此外,类实例的配对方式是提高增强质量的关键。与随机选择类对相比,CRA 能够优先配对高度相关的少数类和多数类实例。这确保了Mixup输出对少数类的性能更有意义。
这种方法的实验结果在表4中给出。作者比较了在不同值下为MixUp随机选择类别实例与作者的类关系增强(CRA)。这些值代表了基础图像中实例被增强的可能性。随机应用MixUp可以提高整体性能0.2 mAP。然而,通过使用CRA,作者可以进一步将性能提升0.9 mAP。这表明,为MixUp配对高度相关的类别可以加强少数类的性能,同时对多数类的影响最小。此外,作者的实验还表明,过多的增强可能会对模型的性能产生负面影响。
类别损失加权策略作者引入了一种加权分类损失,以提高等式5中少数类别的性能。类别级损失是解决数据集中类别不平衡的常见策略[18, 40]。作者将作者的类间损失(ICL)与之前类别级损失的一个变体进行了比较,其中只使用了类间关系模块的对角线。对角线对应于准确分类的真实类别可能性。相比之下,ICL使用将真实类别分类为预测类别的可能性来影响其损失。作者在表5中显示,通过使用这种类间关系,作者能够将性能提高+0.5 mAP。然而,可能存在ICL过度惩罚表现良好的类别的情况。通过应用等式7中看到的正则化项来解决此问题。作者可以看到,如果移除这个正则化项,性能会显著下降,因为在训练期间某些类别的权重会变得太小。
定性结果
图3展示了作者方法的定性结果,其中顶部和底部行分别显示了来自AT和CAT的预测。
CAT能够纠正由蓝色框表示的误分类。此外,CAT还能减少由粉红色和红色框表示的假阳性和假阴性,展示了在不同尺度和类别上检测准确性的提高。
图3:CAT的定性结果。 作者分别在顶部和底部展示了AT和CAT的结果。CAT能够解决误分类(第1、2、4列)、假阴性(第1、3列)和假阳性(第1、3、4列)的问题。框的颜色表示:绿色
真阳性,蓝色
误分类,红色
假阴性,粉红色
假阳性。
表5:类别损失加权策略。仅类别 Level 使用作者ICRm的对角线值以及正则化,ICL指的是作者的类间损失。
在本文中,作者提出了针对领域自适应目标检测的Class-Aware Teacher(CAT)方法。作者证明,通过利用作者的类间关系模块,CAT有效地近似并减轻了类别偏差,从而使各类别之间的性能更加均衡。此外,类关系增强和类间损失被证实可以有效提升少数类的表示。在Cityscapes
Foggy Cityscapes和PASCAL VOC
Clipart1K上的实验结果证明了作者方法的有效性,分别达到了52.5 mAP和49.1 mAP的SOTA性能。根据作者的发现,作者认为在DAOD设置中进一步研究类间动态是解决类别不平衡问题的有前景的方向。## 7 关于方法的额外细节
作者进一步描述了作者类关系增强(CRA)方法的细节如下。CRA根据源增强和目标增强比例,增强批量中的随机图像。对于每个选定的图像,作者分别使用源图像和目标图像的标签或伪标签来识别类实例,这些实例被称为“基础实例”。
遵循第4.2节中概述的方法,作者选择了与基础实例具有强烈关系的“混合实例”,这是由作者的类间关系模块(ICRm)确定的。然后从预定义的裁剪库中随机选择一个“混合实例”。为了减轻上采样退化的影响,作者确保混合实例的大小至少为基础实例的0.25。
作者将混合实例调整到基础实例的尺寸,允许混合实例的宽高比进行调整。这种尺寸调整使得增强后可以用一个边界框同时表示基础实例和混合实例。表1所示的实验结果表明,这种调整尺寸的策略不仅保持了模型性能,相比于保持混合实例宽高比,甚至还提升了模型性能。这是因为当使用两个边界框进行标注时,尤其是在应用mixup时,标注的歧义性变得复杂。
一旦混合实例被调整了大小,接着就应用mixup [47] 方法将两个实例及其标签结合起来。鉴于不同的类别表示,作者采用独热编码来支持多类别标记。这个过程在选定的图像中的所有目标上重复进行。
在本节中,作者提供了实验设置的额外细节。与自适应目标检测领域的先前研究一致,作者的实验是使用Faster R-CNN检测框架进行的。根据所用的基准,作者的检测模型使用VGG-16 [35] 和 ResNet-101 [15] 作为 Backbone 网。PASCAL VOC
Cliapart1K 使用 ResNet-101 Backbone 网。而 Cityscapes
Foggy Cityscapes 和 Cityscapes
BDD100K 则使用 VGG-16 Backbone 网。
在所有实验中,作者保持了相同的超参数设置,具体细节在表2中详细列出。
作者的数据集中的类别分布在训练过程中起着重要作用。少数类别往往表现不佳,特别是在训练数据集和验证数据集之间存在分布偏移时。为了验证作者的方法的有效性,作者展示了评估数据集的类别分布以及作者的方法如何能够解决少数类别的性能问题。
图4展示了Cityscapes
Foggy Cityscapes任务中的类别分布。在这个任务中使用的数据集中,汽车和行人占大多数,而卡车、公交车和火车则为少数。这是可以预料的,因为数据集来自同一来源,因此会有类似的分布。这构成了一个较简单的任务,因为作者无需在测试期间考虑分布偏移。作者的方法在卡车和公交车类别上与现有技术水平(SOTA)持平或更优,同时,在所有三个少数类别上,作者的表现也明显优于作者基础方法[29]。
PASCAL VOC
Cliapart1k任务的类别分布如图5所示。PASCAL VOC数据集相当均衡,唯一的异常是行人类别。这确保了初始训练对特定类别的偏见较小,然而,Cliapart1k显示出更强的类别不平衡。这导致在无监督训练和评估期间出现分布偏移,可能导致次优性能。CAT能够在摩托车少数类别上表现出强大的性能,并且在公交车类别上能够超越其基准。
表6:在CRA过程中保持和忽略长宽比时的Class-Aware Teacher(CAT)性能表现。作者可以看到,在调整大小时忽略长宽比可以提高性能,同时这一策略在调整大小方面更为简单。
城市景观
BDD100K(白天)任务包含了两个以道路为中心的数据集,这些数据集在不同的地点采集,可能导致数据不平衡以及如图6所示的分布偏移。这将是一个更困难的任务,因为一个数据集中的少数类别可能不是另一个数据集中的相同少数类别。例如,卡车和公交车是城市景观中的少数类别,而摩托车和自行车是BDD100K中的少数类别。CAT能够超越SOTA(当前最佳技术水平)在卡车、公交车和自行车上的表现,并且在摩托车少数类别上仅比SOTA低0.1 mAP。### 城市景观
BDD100K
除了在本文主体第5.3节中进行的实验外,作者还包含了Cityscapes
BDD100K-Daytime基准测试。
BDD100K [2] 数据集是一个包含10万张图片的大规模数据集。在这个实验中,作者使用了白天时段的数据集划分,其中包含了36,728张训练图片和5,258张测试图片。作者根据之前的工作,移除了列车、交通灯和交通标志这些类别。Cityscapes
BDD100K 基准涵盖了场景适应以及小数据集到大数据集的适应。
图4:用于Cityscapes
雾天Cityscapes任务的数据库类别分布。作者可以看到,人和车类别构成了所有类别的大部分。标记数据集和验证集的类别分布相似,这使得任务更为简单。
图5:用于PASCAL VOC
Clipart1k任务的各数据集类别分布。在所有数据集中,人(Person)类是多数类,然而对于PASCAL VOC中的其他类别,其实例数量大致相同。在Clipart1K数据集中,类别不平衡更为明显,例如摩托车(motorbike)和公交车(bus)是少数类。
图6:用于Cityscapes
BDD100K(白天)任务的 数据集类别分布。作者可以看到,汽车类别占所有类别的绝大多数,特别是在BDD100K数据集中。请注意,标记集和验证集的类别分布有所不同,尤其是对于少数类别,这可能会使任务变得更加困难。
表7:针对Cityscapes
BDD100k-Daytime 域自适应在BDD100k-Daytime测试集上的目标检测结果。对所有类别报告了0.50 IoU下的平均平均精度(mAP)。
表8:实验的模型超参数。从左至右分别为:Cityscapes
Foggy Cityscapes,PASCAL VOC
Clipart1K,以及Cityscapes
BDD100K-Day。
[1].CAT: Exploiting Inter-Class Dynamics for Domain Adaptive Object Detection.