摘要
随着最近半监督目标检测(SS-OD)技术的发展,目标检测器可以通过使用有限的标记数据和丰富的未标记数据来改进。然而,仍有两个挑战没有解决:(1)在无锚检测器上没有先期的SS-OD工作,(2)在伪标签边界框回归时,先期工作是无效的。在本文中,我们提出了Unbiased Teacher v2,它显示了SS-OD方法在无锚检测器上的通用性,同时也为无监督回归损失引入了Listen2Student机制。特别是,我们首先提出了一项研究,检查现有的SS-OD方法在无锚检测器上的有效性,发现它们在半监督环境下取得的性能改进要低得多。我们还观察到,在半监督环境下,无锚检测器中使用的带 centerness 的框选择和基于定位的标签不能很好地工作。另一方面,我们的Listen2Student机制明确地防止在训练边界框回归时出现误导性的伪标签。边界框回归的训练中明确防止误导性的伪标签;我们特别开发了一种新的伪标签选择机制,该机制基于教师和学生的相对不确定性。和学生的相对不确定性为基础的新型伪标签选择机制。这一想法有助于在半监督环境下对回归分支进行了有利的改进。我们的方法,既适用于我们的方法适用于无锚和基于锚的方法,在VOC、 COCO-standard和COCO-additional中一直优于最先进的方法。
1、介绍
近年来,深度学习模型在物体检测任务上取得了不俗的表现,尽管强大的性能在很大程度上依赖于用丰富的带有人类标注的图像来训练网络。为了减少训练物体检测器的标签监督,人们提出了半监督物体检测(SS-OD)方法,只利用有限的标签数据和更丰富的无标签数据来提高性能。现有的最先进的SS-OD方法应用了自训练技术,该技术产生了伪标签,并在具有不同增量的无标签数据之间实施一致性。尽管有了明显的改进,但仍有两个问题没有解决:(1)在无锚检测器上没有先期的SS-OD工作;(2)先期工作在边界框回归上的伪标签是无效的。
首先,无锚检测器最近在目标检测领域得到了更多的关注,它有望实现有竞争力的精度、计算效率和对新数据集或环境的潜在通用性。尽管有这些进展,现有的SS-OD工作主要集中在基于锚的检测器上(如Faster-RCNN和SSD),但并没有实证验证它们在无锚检测器上的有效性。事实上,当我们将最近最先进的 SS-OD方法适应无锚检测器时,我们发现,与它在基于锚的模型上的改进相比,在无锚模型上的改进要小得多(见图1a和表1)。通过第3.2节提供的广泛分析,我们发现一些在完全监督环境下表现良好的先进技术在半监督环境下并不适用。在半监督环境下,一些先进的技术在有限的超视距情况下并不奏效的情况下,一些在完全监督环境下表现良好的先进技术在半监督环境下就不适用了。例如,在半监督环境下,centerness score在框选择方面变得不可靠了。在半监督环境下,而且基于定位的标签方法对伪标签中的定位噪声不具有鲁棒性。
其次,根据教师-学生框架,现有的SS-OD工作]应用无监督回归损失,其中伪框是从一致性阈值(即框得分的阈值)生成的。然而,我们认为这种方法继承了一些可以进一步解决的潜在问题。例如,(1)不是使用一个单独的度量(例如,框得分或框IoU)来联合表示四个边界的质量,而是应该单独预测每个边界的一致性/不确定性;(2) 分类分支中的一致性可能不能重新影响回归分支上边界预测的质量。相反,我们建议预测回归分支上的不确定性,以选择伪标签进行边界预测;(3) 最后,简单地依靠教师的一致性/不确定性预测来选择回归的伪标签并不能防止回归任务的误导性实例。相反,我们建议利用教师和学生之间的相对不确定性来选择边界级伪标签,其中教师的不确定性低于学生。整合这三个组成部分,我们建议Listen2Student改善SS-OD任务的无监督回归损失,如图1b所示。
2、相关工作
无锚目标检测器:
深度学习模型的发展使目标检测任务有了很大的改进。现有的物体检测器包括基于锚的检测器和无锚检测器。具体来说,基于锚的检测器预测预先定义的锚框的移动和缩放,并且每个预测的锚框根据其与标签锚框的交集-联合(IoU)得分进行标注。基于标签分配(即给预测的实例分配分类标签)和前台-后台锚框的子抽样,前景-背景锚箱的子采样,然后被训练来进行目标检测。尽管 已经取得了显著的成果,但应用在新的数据集上应用基于锚点的检测器,需要专家来调整超参数。这限制了其适应新数据集或环境的能力。
半监督目标检测
近年来,用于图像分类的半监督学习(SSL)得到了快速发展,并取得了可喜的成果。现有的SSL图像分类工作在未标记的图像上应用了输入增强/扰动和一致性正则化,以改善用有限的标记数据量训练的模型。在这些工作的启发下,一些半监督的物体检测工作被提出来,利用类似的想法以半监督的方式来训练物体检测器。例如,CSD应用左右一致性损失来执行水平ffipped未标记图像之间的预测一致性。其他一些工作利用了伪标签,模型迭代地生成未标记数据的伪标签,并将一致的预测加入训练数据中。STAC使用有限的标记数据来训练一个物体检测器,该检测器被用来以非精细的方式为未标记的数据生成伪标记。为了提高伪标签的质量,Instant-Teaching提出了一个联合校正案来纠正两个相同但独立训练的模型之间的错误预测。Humble Teacher应用指数移动平均法(EMA)和软性伪标签来改进仅在标记数据上训练的模型。无偏教师提出以在线方式生成伪标签,并通过解决伪标签偏差问题进一步提高伪标签的质量。软教师提出了一个简单的背景加权损失和盒式方差fflter,以提高对监督基线的性能。虽然它们可以提高半监督环境下的性能,但现有的作品只提出了它们在基于锚的检测器上的结果。因此,我们有兴趣研究最先进的方法的通用性。方法(即伪标签)在无锚模型上的普及。并提高无锚模型在半监督目标检测任务中的性能。半监督性目标检测任务的无锚模型的性能。
3、模型
3.1、背景:半监督目标检测和伪标签
为了实现在半监督环境下学习物体检测器的目标,我们假设在训练期间有一组标记的图像
和未标记的图像
在训练过程中是可用的。
为了解决半监督的物体检测,现有的工作[20, 26, 38]利用了伪标签方法。具体来说,这一系列的工作包含两个阶段: 1)烧录阶段和2)相互学习阶段。在磨合阶段,利用现有的标记数据,用标准的监督损失
来训练初始目标检测器。在相互学习阶段,预训练的目标检测器被复制到一个学生和另一个学生之间。预训练的物体检测器被复制到一个学生和一个教师模型。然后,在每个训练迭代中教师模型将弱增强的未标记图像作为输入,并预测边界框。框得分高于阈值τ的实例(即 conffdence thresholding)被选为伪标签。
基于伪标签和相同的无标签图像,但有更强的增强,计算出无监督损失Lunsup,并与监督损失Lsup相结合,以训练学生模型,θs ← θs +γ∂(Lsup+λuLunsup/∂θs,其中
。为了完善伪标签的质量,教师模型 权重(
)可以通过指数移动平均法(EMA)与学生模型权重(
)进一步更新。权重(
)进一步更新。
3.2 无锚目标检测器上的伪标签
我们以广泛使用的FCOS模型作为研究SS-OD任务的无锚检测器的例子。FCOS有三个主要的预测分支: 1)一个分类器,用于进行物体类别分类;2)一个中心点分支,用于显示作为前景物体中心的概率;3)一个回归器,用于估计物体的差异。 3)用于估计与物体边界的 3)用于估计与物体边界的距离的回归因子。这些模型通常 利用完全卷积层并进行像素预测。为了训练这个模型,所有在地面实况框内的像素都被标记为前景,而所有在地面实况框内的像素都被标记为前景。框内的所有像素都被标记为前景,其余的像素则被标记为背景。背景,而回归损失和离心损失只在这些前景实例中执行。关于无锚检测器的更多细节,请参考 关于无锚检测器的更多细节,请参考FCOS的论文[29]。如图1b和表1所示,我们发现 简单地应用现有的最先进的SS-OD方法 方法 [9,20,26]在无锚检测器上得到的改进远远小于 与基于锚的检测器相比,获得的改进要小得多。我们 我们将此归因于以下两个因素。
中心度偏向问题
如图2b和表2所示,我们注意到,在半监督环境下,基于框分数选择伪箱体的表现比单纯依靠分类分数要差,而FCOS显示在完全监督环境下,使用框分数会带来更好的结果。我们观察到,这是因为一些无锚检测器的框分数被定义为分类分数和 centerness分数的乘法(见图2a),而根据框分数选择的框具有相对较高的 centerness分数,但分类分数较低(见图2c)。这揭示了在伪标签机制中,框分数被 centerness分数所支配。然而,由于训练中使用的标签数量有限,中心度分数对于重新影响一个预测是否是前景实例并不可靠,因为在中心度分支中没有监督来压制背景实例的中心度分数。因此,这些被选中的高 centerness 框很可能是背景实例,在半监督中加入这些假阳性伪箱。在半监督训练中加入这些假阳性的伪箱,会使半监督训练的效果下降。训练中加入这些假阳性伪箱,会降低伪标签的有效性,同时也会加剧中心度。也加剧了中心度偏差的问题。
不可靠的标签分配。为了提高完全监督的无锚检测器的性能,有一些研究工作提出使用软分类标签,这些标签是根据边界框的定位进行加权的。如图3a所示。同样地,FCOS也提出了一种先进的标签分配技术。提出了一种先进的标签分配技术,即中心抽样。该技术将靠近物体中心的实例视为前景实例,并对使用标准标签分配的模型进行改进。该模型使用标准的标签分配技术,给所有在标签框内的实例为前景,其余实例为背景。尽管上述技术改善了完全监督下的无锚检测器。监督下的 训练中改善了无锚检测器,但我们发现,在半监督训练中,它们并不有效,甚至是有害的。在半监督训练中甚至是有害的(见图 图 3b和表3)。我们假设,这是因为伪框可能有定位噪声(要么是由于框的中心被移位或框的宽度和高度不正确),而使用中心取样或基于定位的软标签会使像素级的预测结果错误地被标记为前景(假阳性)或背景 (假阴性)。例如,如图3所示,中心取样法的精度和召回率都很高。中心采样的精度和召回率远远低于这个具有合理数量的定位噪声。
为了缓解中心偏向问题,在有限制的监督场景中,我们选择了基于分类得分的伪框(并且忽略中心度得分)。 因为我们经验性地发现,分类分数在代表对象性方面更可靠。在有限的监督情况下,我们发现分类分数在表示预测实例的客观性方面更为可靠,特别是在有限的监督下。这样一来,假 阳性伪标签不太可能妨碍伪标签的有效性,从而提高伪标签的性能。伪标签的性能。我们还用硬性标签(即one-hot 向量)来训练分类器器,而不是用软标签和框定位加权来训练分类器,因为硬标签(即one-hot 向量)。盒定位加权的软标签。最后,我们没有使用中心抽样,我们使用标准的标签分配 方法,该方法将边界框内的所有元素标记为前景,其余的作为背景。
3.3、Listen2Student的无监督回归损失
3.3.1、回归的得分阈值限定
虽然置信度阈值处理在分类(图像级或框级)中被证明效果良好,但我们观察到仅仅依靠框置信度不能有效地去除框回归中的误导实例。框回归中的误导性实例,其原因有以下几点 表现不佳的原因有:(1)首先,现有工作中的Conffdence阈值处理 现有的工作是根据框分数来选择伪框的、 首先,在现有的工作中,伪框的选择是基于箱体分数的,这只对物体分类的可信度有影响。Faster-RCNN,而且没有明确的模块估计回归预测的可信度(或不确定性)。 即,在vanilla物体检测器中回归分支只预测边界位置,没有任何指标表明定位的不确定性。(2) 其次,使用一个单一的 分数(如centerness或IoU分数)来共同表示 四个预测边界的质量是不准确的,因为在有限的监督下,很难获得一个具有四个同样精确的伪框。(3) 最后,与离散物体类别的伪标签不同、 实值回归输出是无界的。选择摄取仅仅基于教师的信心来选择伪框,并不能明确地防止回归的伪标签中的误导性实例,因为教师仍然可以提供一个与标签框相矛盾的回归方向。类似的观察也出现在之前的工作中 在回归任务的知识提炼中也发现了类似的情况[3, 23]。
3.3.2、Listen2Student
为了解决上述问题并改进师生机制的回归分支,我们旨在为回归分支的训练选择有益的实例并去除误导的实例。直观地说,我们开发了一种新的方法来使用学生和教师之间的相对预测信息;据我们所知,这是第一个超越使用教师预测信息的例子。具体来说,如图4所示,边界预测的最佳实例被定义为:满足
的实例,其中
是教师的回归预测,
是学生的回归预测。 预测 预测,而dg是地面真实的回归标签。作为比较,回归的误导性实例是指 表示为满足以下条件的实例
的实例。
回归的不确定性预测。
虽然我们希望使用标签
来决定教师的预测是否更好。预测是否更好,但在现实中,SS-OD的标签框是不可用的。因此、 我们提议预测定位的不确定性,它与标签框的误差松散地相关(即
和
)的误差。如图4所示 如图4所示,每个边界的定位不确定性预测的定位不确定性是通过增加一个额外的分支得出的,该分支的输出大小与边界预测相同。其输出大小与边界距离回归分支相同。定位不确定性分支是与边界距离分支共同训练的与边界距离分支联合训练,我们使用负功率对数似然损失(Negative Power Log-likelihood Loss)。功率对数似然损失作为回归损失:
其中
是预测箱和地面实况箱之间的IoU得分的不确定性,
是学生的预测不确定性。
伪标签选择的相对不确定度。对于不确定性的估计,我们首先松散地去除学生具有非常小的定位un的边界 确定性
。然后,我们提出一种选择机制,该机制不仅明确考虑教师的定位不确定性
,还考虑学生的定位不确定性
。在选择伪标签时考虑到了这一点。通过选择 通过选择教师比学生具有更低的定位不确定性的有利实例,我们的方法是 的不确定性,因此我们的无监督回归损失被定义为:
其中
是定位不确定因素之间的差额。 请注意,无监督的回归损失是在边界层面而不是框层面计算的。所以一个框的某些边界被用于计算无监督回归的损失,而其他的则不计算。
这个机制的核心思想是,教师应该只用教师的不确定性比学生低的实例来指导学生,因为这表明教师的错误可能会更低。相比之下,对于教师的不确定性高于学生的情况,我们不应该执行损失,因为教师很可能比学生的预测更差,从而在这些情况下误导学生。基于这种选择机制,我们可以明确地防止误导实例的梯度降低回归分支的性能。因此,我们的回归分支可以逐渐被完善,并获得更准确的边界预测。值得一提的是定位的不确定性分支是是一个独立分支,只在训练阶段使用,因此 在推理过程中没有引入额外的计算。
4、实验
4.1、设置和实现细节
实验设置
我们遵循现有的半监督目标检测工作中的实验设置。具体来说,我们使用MS-COCO和PASCAL VOC,并在COCO-standard、COCOadditional和VOC三个实验场景中检验我们提出的方法。对于COCO-标准,我们随机抽取0.5、1、2、5和10%的标记训练数据作为我们的标记集,其余数据作为未标记集。对于COCO-additional,使用COCO2017-labeled作为标签集,COCO2017-unlabeled作为未标签集。我们在COCO2017-val上对COCO-standard和COCO-additional进行评估,就像以前的工作一样。至于VOC,VOC2007- trainval被用作标记集,VOC2012-trainval 和COCO20cls作为无标签集。所有训练好的 实验中的所有训练好的模型都在VOC2007-测试中进行评估。
模型结构
为了研究无锚模型在半监督性物体检测中的有效性。检测的有效性,我们选择了FCOS作为我们的基础无锚模型。因为它在现有的无锚模型中被广泛采用 。由于现有的工作主要集中在基于锚的模型,并使用Faster-RCNN或SSD,我们也调整了现有的SS-OD方法来适应无锚模型(如FCOS)。
实施细节 我们的实现是基于Detectron2。为了训练我们的模型,我们使用学习率为0.01的SGD优化器,每批包含8张已标记的图像和8张未标记的图像,除非特别说明。我们使用无监督损失权重λu=3.0和分类阈值τ=0.5,以训练我们的模型。阈值τ=0.5,我们将σ=0.1设为 σ=0.1作为教师和学生的定位不确定性之间的差值 学生和σs=0.5。我们调整了无偏教师中使用的数据增强 中使用的数据增强,并应用SoftTeacher[33]中使用的尺度抖动。软体教师[33]中使用的尺度抖动,在训练过程中不使用任何几何增强技术。训练期间,我们根据经验发现,规模抖动 导致了明显的改善。更多细节列在 补充材料中。
4.2、无锚检测器上的结果
COCO-标准。我们对无锚模型采用了三种基于锚的方法,即CSD[9]、STAC[26]和Unbiased Teacher[20],每种方法都运行了五次,并报告了它们的平均值和方差,如表4所示。在不同程度的监督下,我们的模型始终对基线方法表现良好,当监督水平较低时,改进的差距较大。我们对VOC和COCO-additional的实验结果也是类似的趋势(实验结果见附录)。
4.3、有锚检测器上的结果
除了无锚模型的结果外,我们还对我们提出的方法是否能推广到不同类型的物体检测器感兴趣。具体来说,我们在无偏教师上应用我们的无监督回归损失,并像我们在第3.3节所做的那样,修改回归分支以预测定位的不确定性。我们在Faster-RCNN上对COCO-标准型、VOC型和COCO-附加型的Listen2Student进行检验,具体如下。
VOC和COCO-附加。为了验证我们的框架是否能改善用未标注集训练的目标检测器,我们还考虑了表7中的VOC和表8中的COCO附加。在使用VOC07作为标记集的情况下,我们的模型可以利用VOC12达到56.87mAP,使用VOC12+COCO20cls作为未标记集可以进一步改善模型,达到58.08mAP。另一方面,使用COCO2017-未标注集,我们的模型可以在COCO2017-训练的目标检测器中表现出色,并达到44.75 mAP。请注意,我们对模型进行了720k次迭代训练,并且没有调整推理阈值(与SoftTeacher相同)。延长模型训练时间或调整推理阈值有可能进一步提高性能。这些结果证实了我们的框架在改善现有的使用额外的未标记图像的目标检测器。
4.4、无监督回归损失的有效性
我们比较的方法包括:1)我们提出的Listen2Student 2)没有无监督的回归损失,以及3)使用置信度阈值和执行L1损失,如现有的工作中使用的方法。为了进一步了解这些方法是如何促进边界盒的改进的回归的,我们提供了一个从AP55到MAP的细分。
我们比较的方法包括:1)我们提出的Listen2Student 2)没有无监督的回归损失,以及3)使用置信度阈值并强制执行L1损失,如现有的工作。为了进一步了解这些方法如何促进边界盒回归的改进,我们在表6中提供了每种方法从AP55到AP95的mAP分类。值得注意的是,我们只改变了这些方法中的无监督回归损失,并在所有变体中保持了其余的目标函数和修改方法。
我们观察到,尽管置信度阈值可以改善较容易的评价指标(如AP55),但它不能改善甚至降低了更严格的评价指标(如AP95)的结果。这表明,简单地使用置信度阈值不能防止误导性的伪标签降低对极精确边界预测的性能。相比之下,我们的Listen2Student在所有评价指标上都显示出一致的改进,并导致有利的结果,特别是在这些更严格的评价指标上。这从经验上证实了我们的Listen2Student有助于更精确的边界盒预测,因为我们的Listen2Student执行了边界上的无监督回归损失,它利用了通过比较每个边界预测的不确定性估计得出的伪标签。
限制和将来的工作
尽管我们已经展示了在无锚和基于锚的检测器上的改进和泛化,但在大规模的无标签数据集(如OpenImage)上应用SSOD方法仍然是一个挑战。我们还发现,边界预测的定位不确定性估计,边界预测的定位不确定度还有待改进,需要与相对阈值机制相结合。还有其他一些挑战,如未标记的数据集中未见过的物体或数据集之间的领域转移。虽然 这些主题不是我们本文的重点,但它们值得在未来的研究中进行探索。
5、结论
在本文中,我们研究了现有的无锚模型的SS-OD方法,并提出了无锚检测器的SS-OD基准。通过识别和解决无锚检测器上的伪标签方法中存在的核心问题,我们的方法可以比最先进的方法有所改进。我们进一步介绍了Listen2Student,这是一种新颖的方法,它使用相对的教师/学生的不确定性来明确地防止误导性的回归伪标签,并以边界方式选择有益的回归伪标签。这使得回归分支能够从使用未标记的图像中获益。在实验部分,我们在三个不同的SS-OD任务中检验了每种方法,并提出了一致的改进。我们还提供了一个广泛的研究,以验证我们提出的Listen2Student机制在无锚和基于锚的检测器上的有效性和通用性。
关于负面的社会影响,我们认为必须意识到存在着物体检测技术(不仅仅是我们的方法)被用于监控系统的风险。此外,由于这一工作路线依赖于低标签的 模型训练的数据,这加剧了数据的风险 对历史上处境不利的群体的偏见。