前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SCLNet 用于图像目标检测的尺度鲁棒互补学习网络 !

SCLNet 用于图像目标检测的尺度鲁棒互补学习网络 !

作者头像
未来先知
发布2024-09-27 16:08:17
430
发布2024-09-27 16:08:17
举报
文章被收录于专栏:未来先知

大多数近期无人机(Unmanned Aerial Vehicle, UAV)检测器主要关注于普遍挑战,如不均匀分布和遮挡等。 然而,在微尺度变化和小物体方面所忽略的尺度挑战仍然阻碍了UAV图像的目标检测。尽管已有研究提出了解决方案,但它们都是隐式建模的,并且存在冗余步骤,导致检测性能仍然有限。 针对以上尺度挑战,有一项特指的工作可以帮助提高UAV图像检测器的性能。与自然场景相比,UAV图像中的尺度挑战发生在各种感知尺度的有限性和对小物体的 poor 鲁棒性。作者发现互补学习对检测模型解决尺度挑战是有益的。因此,本文将介绍一种称为 scale-robust complementary learning network (SCLNet) 的互补学习网络,与目标检测模型相结合。SCLNet包括两个实现和一个合作方法。 详细来说,一个实现是基于作者的 Proposal 的 scale-complementary decoder 和 scale-complementary loss function,可以明确地提取作为 Patch 的互补信息,称为 comprehensive-scale complementary learning (CSCL)。另一个实现是基于作者提出的对比互补网络和对比互补损失函数,可以明确地指导学习具有大物体丰富纹理细节信息的小物体的学习,称为 inter-scale contrastive complementary learning (ICCL)。此外,还提出了两个实现之间的端到端合作(ECoop)方法,与检测模型一起充分利用各自的潜在。 简而言之,SCLNet 通过特征互补形成更全面的表示,并通过跨尺度对比改善小物体的表示,从而提高了尺度鲁棒性和检测性能。通过在Visdrone和UAVDT数据集上的全面实验,证明了作者的SCLNet的有效性,包括SCLNet新组件的有效性和与许多基于CNN和transformer的方法具有竞争力等方面。 总的来说,作者的SCLNet可以有效地解决尺度挑战,并在UAV图像目标检测中是一种具有竞争力的模型。

I Introduction

目标检测是计算机视觉中的一个重要研究任务,尤其是在无人机图像上的目标检测。近年来,由于深度学习的出现,自然场景中的目标检测取得了优越的性能。然而,对于无人机图像上的目标检测,通用的检测模型(Generic detectors)迁移困难,因为存在一些问题,如遮挡、尺度和小型物体等。

尺度挑战包括尺度变化和小物体问题等,这些问题仍然是无人机图像目标检测的已知挑战。尽管最近的一些研究工作已经观察到这一挑战并提出了解决方案,但这些解决方案是隐式建模的,在检测过程中繁琐,因此检测性能仍然有限。这些问题对实际应用有害,在实际无人机操作中,无人机检测模型必须考虑无人机在不同倾斜视角下所有尺度的问题,才能获得良好的人机交互体验。因此,迫切需要一种有效的方法来解决尺度挑战。

无人机图像中的尺度挑战的一般特点是:

  1. 综合尺度感知有限。图1 b 中的统计数据清晰地显示了无人机图像中物体的比例变化。在同一类别中,实例物体的比例往往比自然场景中大几次。比例变化显著,必然导致各个尺度上的比例不均。然而,现有的深度学习模型往往倾向于适应物体的更多种分布。这意味着现有的模型难以表示并感知所有物体。作者将此问题总结为显著的尺度变化下有限的模型感知。
  1. 对小型物体的鲁棒性较差。无人机图像目标检测的一个独特特性在于,小型物体问题在计算机视觉识别任务中是一个公共问题。小物体会与较大的物体共存,其尺度差异巨大,如图1 a 所示。由于低分辨率等限制,小物体的纹理信息匮乏,使得检测模型很难表示和感知。但是,对于较大物体,情况正好相反。这一特征总结为模型对小型物体的鲁棒性较差。而且,现有模型对尺度挑战的抵抗力尚可利用。因此,解决上述问题的关键性很大,其有效方法可以提高召回率并降低误报率,这对于实际应用至关重要。因此,作者提出了一种补充方法来解决现有模型的编码-解码范式,构成了一种新的范式来解决上述问题,如图2 所示。

根据上述尺度挑战的特征,作者提出了一种新的尺度 robust 互补学习网络(SCLNet),以在无人机图像中实现更好的更可靠的检测性能。通用检测模型通过图像编码器提取图像的语义特征,然后检测Head根据提取的语义特征表示解码物体的边界框和类别,如图2 所示。无人机图像目标检测的问题在于,复杂的尺度挑战使得通用检测模型难以在所有尺度上都表示物体,这导致上述特性无法得到解决。互补学习在解决这些问题方面有益。人类大脑互补学习的核心是添加新信息到现有信息并构建相关性以形成记忆,以及类似的深度学习工作在视频中构建互补帧到帧学习来弥补单帧信息中的不足。受此范式启发,作者在无人机图像检测中引入了互补学习,包括两种互补学习实现。

由于原始图像编码器提取的语义特征无法满足目标的全面尺度表示,因此需要补充额外的互补信息以形成全面的尺度表示,这是作者为解决在全面尺度上存在局限的感知问题而提出的第一个实现,称为全面的尺度互补学习。另一种实现是解决小目标抗干扰能力差的问题。同一类别中,在不同尺度下的同一类别具有相似的光学细节。由于模型可以感知图像中大型目标的丰富纹理细节,因此可以利用从类别内部较大目标学习中获得的知识来补充小目标,从而使模型对小目标的感知更具鲁棒性。简要来说,本文介绍了通过利用互补学习的思想,补充语义学以补充现有语义学,补充大规模以补充小规模,最终形成鲁棒的大规模表示,从而提高检测性能。

值得一提,作者提出的用于增强表示的互补学习方法明确建模,而大多数已有的模型中的隐式建模。这里的隐式建模的相对意思是互补学习,隐式建模关注改进网络结构,但与显式建模相比,隐式建模的输出缺乏明确的意义。本文与先前的隐式建模相比,同时改进了网络结构,并在训练过程中添加了显式约束,以便输出具有更明确的意义,并实现了显式建模。本质上,作者的SCLNet由三个组件组成:

首先,为了提取互补语义信息,作者设计了一个包含多尺度感知和多个卷积核以及多尺度自注意融合的缩放互补解码器,以预测缩放互补语义特征,同时,作者提出了一种缩放互补损失函数,通过约束每个实例所在区域的面积来明确约束解码器与现有 GT 值的输出和训练。这种实现的实质在于作者设计了一种利用 GT 中目标位置和尺度的一般信息在训练期间强烈指导的补偿损失函数,用以显式地监督具有强表达能力的大规模解码器的训练。其次,为了使模型从大型目标的所学知识中转移知识到小目标的训练,作者设计了一个包含类别真实引导选择和小型与大型目标之间的特征交互对比互补网络,以实现转移,同时,作者提出了一种对比互补损失函数,通过约束对比互补网络输出分支和原始分类分支的特性一致性来实现这种网络知识到简单分类分支的转移,使得训练和推理保持一致。最后,这两个实现的上述方法是相互独立的,为了利用它们的潜力更好地实现更好的检测性能,作者将它们嵌入到现有的检测模型中,并设计了一个端到端的协作方法(ECOop)。与上述部分的特定实现相结合,作者在引入互补学习时的创新在于补偿通用检测器中规模挑战的表示不足。

为了估计粗粒度的密度图,并使用聚类算法进行裁剪。GLSAN [11]提出了一种基于全局检测结果的全球化-局部化检测和裁剪过程,然后对裁剪后的局部区域进行精细检测。DSHNet [12]利用长尾分布来优化检测Head。ClusDet [15]预测多个聚类区域,然后进行重新缩放以进行精细检测。DREN [13]训练了一个子网络来预测小型目标的裁剪区域。Cascaded Zoom [24]根据密度引导建立了分层二阶段检测过程。这些工作的优势在于优化了用于无人机图像中目标分布不均匀的鲁棒方法,但其缺点是未充分考虑尺寸变化和过程过于复杂。此外,一些工作 [16, 17] 从不同的表示结构优化了无人机图像目标检测模型。 Query 检测(QueryDet [16])的贡献是使用基于 Query 的建模方法进行无人机图像中的目标检测任务,实现了更好的检测性能。但其缺点是,这种收益很大程度上受益于 Transformer 结构([25, 26]的强大表示能力)。CEASC [17]的贡献是提出了一种新颖的上下文增强稀疏卷积,以解决尺度变化和小物体面临的挑战,但其缺点是仍然是一种隐式建模方法,并未建模出无人机图像中挑战的本质。因此,本文构建的方法通过在训练阶段限制输出,以弥补上述缺憾。

Complementary learning

互补学习对于构建鲁棒表示模型非常有帮助。互补学习的机制一直在不断探索中,将互补学习引入深度学习[30, 31, 32, 21]任务,显示出其显著的优势。Mcclelland等[27]首次揭示了人脑海马体和大脑新皮层之间的互补学习系统。然后Mcclelland等[28]使用模拟方法揭示了互补学习系统中新的一致性信息(符合模板的信息)的快速学习。Randall等[20]审阅了互补学习框架的研究历史,并证明了互补学习框架在脑记忆系统中的重要理论影响力。简而言之,互补学习是人类大脑记忆系统中一个重要机制。对机器学习的Kumaran等[29]更新了互补学习系统理论,为智能代理提出了互补学习,并基于神经科学设计机器学习网络。以上一系列工作使作者看清了人类大脑具有互补学习的能力,并且可以像机器学习等人工智能一样进行更新。受人类大脑互补学习机制的启发,产生了许多重要的网络结构,是人工智能发展的重要途径。

虽然上述工作展示了互补学习在各种领域的潜力,但作者目前尚不知道有多少关于利用互补学习实现鲁棒的UAV图像语义特征表示的研究工作,尤其是在显著的尺度变化挑战中,通用模型很难为所有尺度目标提取出鲁棒的语义特征表示。总之,以前的研究主要关注视频序列中的时间互补性,但同一图像内物体之间的互补性研究还很少,这是目前利用互补学习进行UAV图像目标检测的一个空白,设计和实现这一有效机制对于解决尺度挑战和提高检测性能都非常关键。受两者启发,作者结合互补学习和对比学习解决尺度挑战,包括尺度变化,在UAV图像目标检测中实现更好的检测性能。

一方面,通过互补学习解决尺度变化,通过补充所有尺度目标的特征从而在最多尺度上形成表示增强。

另一方面,互补理念用于补偿大物体对小类别目标表示的不足,从而在对比学习中实现训练和推理的一致性。这两部分构成了本文提出的互补学习范式的核心部分。特别是,这两种方法都实现为明确的策略方法,即在训练过程中给出明确的约束,这些约束是基于人工标注的 GT 的,网络的预测具有相对明确的意义,可以有效增强目标弱表示部分,从而形成一种强大的表示,以提高检测性能。

III Method

如图3所示,作者提出的可扩展鲁棒互补学习网络(SCLNet)旨在实现一种互补学习的范式,具有多实现方式,以实现无人机图像目标检测,从而构建具有强大表示能力的模型。该模型包括三个关键技术:全面的规模互补学习(CSCL),作为另一个实现;跨尺度对比互补学习(ICCL),用于实现大物体的比较互补学习(小物体指令);端到端合作(ECoop),涵盖以上组件和模型检测方法的协作方法,以实现更好的检测性能。在III-A部分,作者建模了一个可扩展的鲁棒无人机图像目标检测模型。作者提出CSCL,用于显式地从所有尺度目标中提取全面的语义特征,用于互补使用(III-B部分);作者提出ICCL,用于实现大物体的比较互补学习(小物体指令)(III-C部分);ECoop包括上述组件和模型的协作方法和检测模型的检测方法,以实现更好的检测性能(III-D部分)。

Scale robust representation for UAV image object detection

无人机图像目标检测面临诸如尺度变化和体积较小的物体等规模挑战。为更有效地解决这些规模挑战,本节分析了尺度挑战的特征,并构建了一个具有互补学习的尺度健壮表示建模方法,用于无人机图像目标检测。

无人机图像中的尺度变化是同一类别内的尺度变化和不同类别间的尺度变化。同一无人机图像内的同一类别物体在输入图像中的尺度可能变化十倍以上。对于较大尺度的物体,输入图像中有更多像素且具有更高分辨率,意味着纹理细节更具信息量,模型更容易提取区分性特征。但对于较小尺度的物体,较少像素和低分辨率导致纹理细节信息缺乏,使模型提取区分性特征变得困难。这个问题可以归纳为模型缺乏尺度健壮性。值得注意的是,尽管在许多研究领域中,小尺度是一个常见的目标检测挑战,但像无人机图像中这样显著的尺度变化在许多其他研究领域不常见。对于目标数量,目标的数量分布在不同尺度上变化很大,即某些尺度有更大比例的目标,而其他尺度具有更少数量的目标,对于基于深度特征学习的模型,它们倾向于通过分布更大的数量来适应尺度,特别是对于具有这样显著的无人机图像尺度变化的挑战,模型很难适应各种尺度的目标。这也是现有无人机图像检测模型缺乏尺度健壮性的另一个证据。给定输入无人机图像I,问题可以描述如下:

其中,图像编码器提取的语义特征定义为,表示图像编码器。根据贝叶斯法则,可以从表征检测结果。问题是某些物体尺度的是不可完整的,因此检测性能受到限制。

为了解决UAV图像目标检测中的尺度问题,作者需要一个能够完美应对包括尺度变化、小尺度等在内的尺度挑战的模型。也就是说,一方面,该模型能够为所有尺度的物体(包括尺度变化的较小和较大物体) robust 地提取鉴别性特征,而且另一方面,该模型能够适应物体尺度的所有情况下,样本数量分布不均匀。为达到尺度稳健的目的,作者提出了互补学习的方法,实现这两个方面。这种方法的描述如下:

其中,用于补偿的互补语义特征被表示为。是给定和检测结果提取尺度互补语义信息的概率。是给定获得检测结果的概率。检测结果是具有最大后验概率的位置。

因此,检测性能由似然模型 和空间先验 确定。本文提出的 SCLNet 的关键组成部分正是基于这一范式设计的。整个范式的路线图如下。其主要包含两个组成部分:首先,设计一个显式互补学习网络 ,用于补偿现有模型的感知能力难以涵盖所有变量的目标(在III-B小节中详细说明),这分别对似然模型 和互补学习的一个实现进行显式建模;其次,作者利用互补学习在无人机图像中挖掘更大的目标,以指导模型提取小型目标的稳健表示(在III-C小节中详细说明),这分别对空间先验 和互补学习的一个实现。最后,作者将上述提出的各种组件与现有的检测模型相结合,形成端到端检测模型(在III-D小节中详细说明)。总的来说,前两个组件是两个互补学习实现的核心,最后一个组件是上述两种提到的互补学习的协作和利用。

Comprehensive-scale complementary learning

为了构建一个全面而强大的无人机图像目标检测模型的特征表示,作者在通用检测模型的基础上,利用互补学习的理念构建了基于广义检测模型的补充学习,命名为全面尺度互补学习(CSCL)。CSCL组件的总体目标是从每个类别中提取每个尺度的显式互补特征,作为更强大表示的补充。作者对互补学习在全面尺度上的具体实现分为两部分,其中一部分是提取尺度互补语义特征的尺度互补解码器。另一部分是用于监督训练尺度互补解码器的尺度互补损失函数。

Iii-B1 Scale-complementary decoder

现有检测模型从无人机图像中提取的语义特征很难覆盖所有物体的尺度,因此作者利用互补学习的思想来构建一个全面的、强大的特征表示以涵盖所有尺度。这里关注的是为补充现有语义特征提取互补语义特征,迫切需要一个模块来提取互补语义特征,因此作者设计了一个名为“尺度互补解码器”的模块。尺度互补解码器的输出将用作其他部分的补充以形成全面的、强大的表示,因此尺度互补解码器是全面尺度互补学习的关键。

图4和算法1展示了尺度互补解码器的详细设计。图像编码器的(backbone和FPN)输出的多尺度特征图依次作为模块的输入,在不同的尺度上依次使用,其优势在于不需要额外的图像编码器,这大大减少了模型参数的数量。首先,解码器设计了一个尺度感知模块,以实现对变尺度物体的感知。使用不同尺寸的核函数在输入特征图上进行卷积以感知不同尺度的物体,这些卷积核的大小是依次增加的,以实现渐进的感知场,这个感知场是根据整个数据集中的物体尺度统计确定的,这使得物体的感知更加准确。在获得多个不同卷积核的输出之后,作者使用像素混洗[33]进行上采样,然后按通道维度将这些输出连接起来,在融合选择性降维[22]之前进行初步的结果拼接。其次,作者使用[26]的多尺度变形自注意力模块进行多尺度融合的初步结果。这样做的好处是不同特征图之间的信息可以进行交互,因为作者的尺度感知模块为每个特征图执行,这样就可以进行多尺度交互的融合,从而使尺度感知模块在变尺度感知上工作得更好。

上述设计的尺度互补解码器具有在全面尺度上提取互补语义特征的能力,这一点在实验部分得到了验证。

Iii-B2 Scale-complementary loss function

尽管上述的尺度互补解码器具有提取补充语义特征的潜力,但如果模型仅依赖此模块,所获得的互补学习仍然是隐式建模,与大多数现有的隐式建模方法[34]相似。这是因为由模块生成的语义信息并未具有明确的解释性。为了明确地建模尺度挑战,即作者提出的综合性尺度互补学习具有高度解释性,作者提出了一种用于尺度互补解码器有监督训练的尺度互补损失函数。组件的性能由尺度互补解码器的输出质量决定,因此尺度互补损失函数具有关键性。

尺度互补损失函数的核心思想是构造尺度互补真实值,然后用于指导尺度互补解码器学习所需的预测能力。作者利用目标检测边界框通过高斯模糊操作[35]生成尺度互补真实值,围绕边界框的核大小呈不同大小,该高斯核大小与地面框的面积成比例,对应于尺度感知解码器中的不同大小卷积核。尺度互补损失函数根据生成的尺度互补真实值和尺度互补解码器的输出计算得出。损失函数的详细计算方法请参见算法2。

算法2 尺度互补损失函数的计算:

具有在所有尺度上预测互补语义特征潜力、并实现尺度挑战明确建模约束的尺度互补解码器以及实现综合性尺度互补学习的能力。即这两个组件的添加使模型可以预测互补语义特征,这是所有尺度目标全面和强健表示的一个重要组成部分。这两个组件是CSCL组件的核心创新。值得注意的是,在提取互补信息后,作者采用简单的元素逐个求和将提取的互补信息与现有的图像编码器提取的语义信息作为解码头解码的基础。因此,这个元素逐个求和与ResNet中的恒等映射不同,旨在利用互补信息。

Inter-scale contrastive complementary learning

除了上述的综合尺度互补学习之外,本文还提出了一种补充学习来弥补小型目标表示的不足。简而言之,本文通过利用大型目标在各个类别中的语义信息来指导模型学习,以优化同一类别小型目标的语义信息感知,从而使模型预测的较小目标的语义信息更加全面和可靠,这就是跨尺度对比互补学习(ICCL)。总的来说,ICCL组件的目标是利用各个类别中大型目标的丰富语义信息来丰富小型目标的语义信息,从而使其更具鲁棒性。具体实现包含两个部分:网络优化和损失函数构建。

Iv-B1 Contrastive complement network

在无人机图像中,大型物体含有丰富的纹理细节,这对模型提取区分特征更为有利。而对于小型物体,由于缺乏纹理细节,模型很难提取全面而强大的区分特征,但同类别物体的纹理细节相似。这是作者提出用对比互补成分进行弥补的差异,并因此设计了对比互补网络模块。作者提出的对比互补成分旨在准确弥补这一差异,并因此设计了一个对比互补网络来实现跨尺度对比互补学习。

如 图5 和算法3所示,网络的输入是所有 Proposal 的 roi 池化操作后的特征块,这样可以大大减少计算量。这些 Proposal 代表图像中可能存在目标目标的空间区域,所以用池化特征块实现的实现增加了模型的可解释性。然后,作者使用标签分配结果选择同一类别内的目标对应的内部特点块。这里使用的标签分配方法是基于现有最大欧氏距离分配器,实现基于 Proposal 框和真实框最大欧氏距离值的匹配将真实框分配给 Proposal 。每个 Proposal 框分配到的真实框包含真实框类别信息,作者的内部类别选择基于真实框的类别信息对 Proposal 进行划分;划分的结果是每个类别的正例,同一类别内的正例 Proposal 会接受后续对比互补计算。这样的内部类别选择使得大型物体后期的感知引导小型物体具有类别解耦的特性,这对于精细检测更有利。在内部类别特点块中,选择较小的物体,较大的物体被用作参照引导这个较小的物体,并输入到 [36] 多头自注意力模块网络中实现较大物体与较小物体的互补学习。此后,通过与原始小物体特点块的短路操作提取对比特征块。

Iv-B2 Contrastive complement loss function

上述对比补全网络的输入涉及真实输入,但在推理阶段无法获取真实输入,受到知识蒸馏[37]的启发,本文提出在训练阶段使用轻量级分类网络来蒸馏对比互补网络分支中所学习到的知识,因此构建了一个实现此目的的损失函数,称为对比互补损失函数。对比互补损失函数 可以表示为:

其中 和 分别表示对比特征块和分类特征块。 表示 Proposal 的数量。

通过结合对比互补网络和对比互补损失函数的协作,该模型相对能够增强小型物体的感知能力,从而补偿模型在提取对小型物体进行全面而稳健的判别特征方面的缺陷,从而提高检测性能。

End-to-end Cooperation

以上两种组件,即全面规模互补学习(CSCL)和入门级对比互补学习(ICCL),都是本文提出的量级互补学习网络的核心组件,但是上述构建的组件在模型中相对独立,合作不够充分,两组件的潜力没有得到充分挖掘。因此,基于上述两种组件CSCL和ICCL,本文将它们添加到现有的检测模型中,并构建了两组件的合作过程,称为端到端协作(ECoop)。总的来说,ECoop组件的目标是探索CSCL和ICCL这两组件在端到端目标检测中的更合适合作方式,以期望能获得更好的目标检测性能。

Iii-D1 Cooperation of CSCL and ICCL

为了更好地发挥上述两个部分提到的组件的潜力来提高检测性能,作者设计了两个组件之间的合作方法,如图3所示。

一方面,作者将缩放互补语义特征输出融合到图像编码器得到的多种缩放特征图(Backbone+FPN)中。融合过程是最简单的逐元素求和。直接逐元素求和的优势在于不需要额外的网络参与,也不会增加模型参数的数量。因为提取缩放互补语义特征输出的过程是明确的,具有明确的解释性,因此这种融合可以利用互补学习组件的潜力。

另一方面,III-C小节描述的ICCL网络的原始输入具有针对小目标和较大目标的特征块,为了更好地利用ICCL的潜力,作者优化了ICCL网络的输入。具体而言,作者将较大目标的原始特征块修改为缩放互补语义特征块,而较小目标的特征块仍然保留为图像编码器的输出。这是因为,作者提出的ICCL是跨尺度的对比互补学习,它使用较大目标来指导小目标的学习,作者采用较大目标的更全面的特征块作为教师进行指导,小目标的学习效果将更好。较小目标的特征块仍然保留输入自图像编码器的结果,因为跨尺度互补学习的优化目标是使得分类分支在训练过程中更好地学习较小物体。

Iii-D2 End-to-end detection model

作者将上述提出的组件嵌入到基于深度特征学习的检测模型中,形成端到端的检测模型,名为"尺度鲁棒互补学习网络"(Scale-robust complementary learning network,SCLNet)。整个模型由两个任务组成,即目标检测任务和尺度互补任务。这与一般的多样化任务范式(multi-task paradigm)[38]不同,尺度互补任务被添加以辅助目标检测任务,这进一步提高了检测性能。

受到多样化任务范式的启发,作者同时优化这两个任务。目标检测任务的损失函数可以表示为:

其中和分别表示检测任务中的分类损失和回归损失。表示对比标签和真实值的损失函数,计算方法与相同,具体公式在式4中给出。模型总损失函数可以表示为:

其中和分别表示平衡两个对应任务的权重。表示尺度互补损失函数,与[38]中子子专题III-B2中的相同。

这三个组件的工作方式可以作为详细说明。前两个组件,即CSCL和ICCL,作为核心组件,用于增强具有每个类别尺度的UAV图像中物体的表示,特别是对于小物体,以便获得所需的鲁棒性。另一方面,ECoop组件探索了组件之间以及组件与模型之间在目标检测模型框架中实现更好的解码的合适方法,以提高检测性能。以上工作机制最终导致了端到端的UAV图像目标检测模型。

IV Experiments

在本节中,为了评估作者方法的有效性,本文从几个角度构建了实验。确实,针对规模挑战设计的做法不仅对特定规模的物体有效,还可以提高整体数据检测性能。因此,作者的评估实验主要关注两个主要视角:整个数据集和包含在其中不同尺度的物体。

Datasets

对于一个理想的目标检测模型,它应该对具有不同程度尺度挑战的数据具有鲁棒性。本研究采用了两种UAV图像目标检测数据集来构建评估实验,分别是VisDrone数据集[40]和UAVDT数据集[41]。如表1所示,作者统计了这两个数据集以及其他场景数据集的尺度变化,以便进行比较分析。根据统计结果,UAV场景的尺度变化明显大于其他场景,如自然场景和通用遥感场景。在两个UAV数据集中的图像具有大于2x的目标尺度变化的比例分别为96.0%和82.6%,而自然场景目标检测数据集COCO[4]为46.8%,通用遥感场景目标检测数据集FAIR1M[39]为20.6%。

VisDrone:VisDrone数据集[40]是一个用于UAV图像目标检测任务和其他计算机视觉任务的大型基准集。该数据集提供了UAV航空图像和手动标注。图像数据来自不同地区的14个城市和村庄,覆盖了不同的气象条件和光线条件。总体来说,这个数据集是代表性的。该数据集相对较大,包括10209张UAV图像,其中训练集包含6471张,验证集包含548张,测试集包含3190张。数据集中的手工标注涵盖了十个预定义类别,分别是行人、自行车、三轮车、行人、卡车、汽车、公交车、货车、摩托车和雨伞车。由于具有遮挡、小目标、不均匀分布和尺度变化等挑战因素,该数据集的目标检测任务仍然具有一定难度。尤其是尺度挑战,如尺度变化在该数据集中较为突出。如表1所示,具有大于2x尺度变化的图像在数据集中的比例高达96.0%。这些尺度问题严重影响了包含在数据集中的目标实例的检测。综上所述,为了追求更强的可信度,本次实验主要基于此数据集进行。

UAVDT:UAVDT数据集[41]是另一个广泛使用的UAV图像目标检测大数据集。该数据集包括超过40,000张UAV航空图像,覆盖了不同的天气、高度和UAV的角度。数据集中的手工标注涵盖了三种预定义类别,分别是汽车、公交车和卡车。与VisDrone数据集相比,该数据集的尺度挑战,如尺度变化,并不明显。如表1所示,尽管具有大于2x的尺度变化的图像在该数据集中的比例(82.4%)高于其他场景数据集(COCO数据集:46.8%,FAIR1M数据集:20.6%),但略低于VisDrone数据集的96.0%,是一个中等程度的尺度挑战数据集。综上所述,考虑到以上因素,作者仅在此数据集上与其他最新状态的先进研究工作进行了比较,以说明所提出方法的鲁棒性。

总之,对于本文提出的数据集,超过10,000张的图像大小、多样化的采集条件、十种细粒度类别标签以及高达96%的具有尺度变化的图像,这些特点足以支持本文提出的方法的性能评估。

Implement details

这种选择的原因是检测Head Level 的级联设计和Cascade RCNN的两阶段检测过程是一种更适合实现作者提出的模型的基准。论文将设计的互补学习组件嵌入到检测模型中,两阶段检测模型更具解释性 [33]并且更便于明确建模大小挑战,从而产生一种端到端的可解释模型。

作者的模型:作者的SCLNet是基于互补学习和基准模型的端到端检测模型。整个模型网络包括一个图像编码器以及两个互补学习实现:全面的规模互补学习(CSCL)和跨尺度对比互补学习(ICCL)。基于整个互补学习检测网络,通过多种方法如CSCL和ICCL的合作设计一个端到端合作(Ecoop),以进一步探索每个组件实现更好检测性能的潜力。

训练阶段和测试阶段:对于在两个UAV图像目标检测数据集上的模型训练,采用多尺度训练,输入图像尺寸 {1024765, 1360800, 10241024}。测试阶段输入图像尺寸设置为1360800。基准模型和作者提出的SCLNet均在2个GPU上,20个周期和SGD优化器上进行训练。图3中多个大核卷积的大小依次是:{3, 5, 7, 11}等。这种设置的原因是不同大小卷积 Kernel 和多个多尺度特征图及下采样可以覆盖UAV图像中的绝大部分目标物体。最大和最小尺度特征图之间的差异是一个因子8。因此,这种锥形特征图的最大和最小尺度覆盖范围为88/3倍,这种范围几乎可以覆盖所有物体。预设 Proposal 数N为500。对于这个集,作者检查一些先进的目标检测工作 [5, 44]的实验设置,自然场景中通常预设为100,但由于UAV图像中的物体数量更多,为了确保作者可以提供足够的 Proposal ,通常预设为500,这与许多先进工作 [11, 12]一致,并遵循这种预设。这也确保了公平的比较。方程6中的和分别设置为{1.0, 0.3},并在第四节详细描述了确定的实验。初始学习率设置为0.0025,动量参数为0.9。值得一提的是,论文中作者的方法并不使用任何技巧,如多尺度测试和数据增强,这更有利于评估作者提出的方法的 effectiveness,同时,实验更加公平。

Evaluation metrics

与大多数目标检测工作[5, 44]一样,作者采用,和作为主要的评估指标,它们是完整且最受欢迎的目标检测评估实验。,和分别表示在IoU阈值范围从0.5到0.95,间隔为0.05的所有APs的平均精确度,IoU阈值分别为0.50的APs,以及IoU阈值分别为0.75的APs。因为指标可以反映预测和召回情况,所以计算的整体数据集的值可以反映整体数据集的检测性能。,和值越大,检测性能越好。,即,是所有类别的平均值,每个类别的是以精确率-召回曲线的面积计算的。的详细计算假设每个类中,每个个样本有个正例子,每个正例子对应一个召回值,对于每个召回值,计算最大准确率并求平均,也可以用如下方式表示:

此外,作者使用评估指标如,,,,和来评估不同尺度物体的检测性能。,和分别表示包含在整体数据集中的大型物体,中型物体和小型物体的综合检测性能。,和分别表示包含在整体数据集中的大型物体,中型物体和小型物体的召回率。,,,,和的值越大,不同尺度下的检测性能越好。

误检是指模型将背景误判为物体。用于量化评价指标错误检出率,可以表示为:

其中表示错误检出结果的数量。表示真实检出结果的数量。表示总检出结果的数量。

Visualization of detection results

如图6所示,作者通过定性比较分析实际检测结果和 Baseline 模型、多尺度推理的检测结果,以说明本文提出的方法的有效性。可以看出, Baseline 模型(第二列)在更大尺度上的目标检测上表现更好,但对于更小的物体,模型缺乏足够的感知能力和召回率较低。对于广受欢迎的多尺度推理技巧(第三列),虽然这种技巧可以召回不同尺度的更多物体,但它带来了大量的假阳性。作者从质性观察角度看待SCLNet,可以得知其几乎没有假阳性,尤其对于小物体(如图6中最后一行所示),这说明作者的模型在检测所有尺度的物体方面具有优势。为了更好地说明SCLNet的有效性,作者将 Baseline 模型、多尺度推理和作者的 SCLNet 在表格 II 中进行定量比较。根据表格中的实验结果,与 Baseline 模型相比,作者的 SCLNet 将假阳性率从 10.6% 降低到 8.5%;与多尺度推理相比,SCLNet 的降幅为6.7%。定性观察和定量比较的结果都充分证明了 SCLNet 能有效降低假阳性。此外,作者的 SCLNet 检测结果包含一些在实际图像中存在的未被标注的物体,这表明了作者方法的可拓展性,尽管这会对评估指标的计算产生一定影响。

总之,作者的方法可以定性证明,能够有效解决无人机图像目标检测中的尺度挑战,并且是一种更健壮,具有更好检测性能的方法。

Comparison to other state-of-the-art models

在本节中,作者将利用最近一年的部分最先进UAV图像目标检测数据集(见表3和表4)对作者的提出的框架进行定量比较,以展示作者提出的框架在UAV图像目标检测领域的竞争性。

对于基于 Transformer 的Swin [45]和QueryDet [16],作者提出的基于相同后端网络resnet50的框架优于这两个工作,分别提高AP:2.0%和AP:2.8%,AP50:4.8%,AP75:2.8%。对于一些其他高级基于 Transformer 的作品,Lit [47],ToMe [48],和DeformPM [49],不同的改进方法已经被提出,作者提出的框架超越了这些作品的检测性能。

UAVDT。如表4所示,作者对部分最先进工作的部分和作者的提出的在UAVDT数据集上的检测性能列表。对于使用resnet101后端网络的DREN [13],尽管作者提出的框架使用轻量级后端网络resnet50,但作者的框架优于这个工作,提高AP:2.9%。与DSHNet [12]优化检测Head相比,作者提出的框架超越了AP:2.2%,AP75:2.6%。对于UAV图像检测器ClusDet,GLSAN,AMRNet和CDMNet,作者提出的框架在检测性能上表现更好。作者提出的框架比ClusDet[15]提高了AP:6.3%,AP50:6.6%,AP75:9.8%;比GLSAN[11]提高了AP:3.0%,AP50:5.0%,AP75:3.5%;比AMRNet[50]提高了AP:1.8%,AP75:2.5%;比CDMNet[14]提高了AP:3.2%,AP50:4.0%,AP75:3.8%。与最新的工作CEASC[17]相比,作者的提出的框架提高了AP:2.9%,AP75:4.5%。

需要改进的领域。对于一些先进作品如图PH-YOLOv5++ [23]和Cascade Zoom [24],它们在本文提出的框架的实验中没有使用一些技巧。PH-YOLOv5++采用了MixUp,Mosaic,Flip和Rotate。Cascaded Zoom训练增强方法与密度裁剪和多阶段推理方法被采用。考虑到比较的公平性,作者没有列出这些工作进行比较,但将来在算法着陆的研究中,作者将关注这些工作的好处。UFPMP-Det [22] 是确实非常好的,巧妙地使用实例词袋方法解决目标分布问题,同时也实现了良好的检测性能,作者最终的成果要比这个工作略低一些精度。然而,在本篇文章中,作者提出了一种方法,旨在解决显著的规模变化问题,提出两种互补的学习思想解决这个问题,并通过例如消融实验证明了作者提出的框架的有效性。此外,在推理速度方面,作者提出的框架的推理速度是0.108s,该方法的推理速度是0.152s,作者的框架比其快40.7%,更快的推理速度对实际应用也很重要。在未来的实际应用中,将作者的框架与这些先进的框架如图UFPMP-Det[22]集成到一个并行建模框架或许可以实现更惊人的检测性能。本文的实验侧重于证明作者提出方法的有效性,这些特定的算法着陆将继续被研究,并且代码会开源。同时,部署细节也将开源。

基于以上的分析,无论对于基于CNN的一般检测模型,还是基于 Transformer 的检测模型,或者最近的年份UAV检测方法,作者提出的框架在两个UAV目标检测数据集上的定量检测性能都优于这些方法。虽然在实际应用方面还有改进空间,但可以证明作者的方法在UAV图像目标检测任务具有竞争力。

Ablation experiments of the different components

为了证明作者方法中各个组成部分的有效性,本节在Visdrone数据集上进行消融实验。为了全面评估,作者从整个数据集的多个评估角度进行定量分析。表5列出了消融实验在全部数据上的数值结果。图7说明了多个细粒度类别消融实验的结果。在训练过程中不同时期准确率的收敛曲线如图8所示。

补充学习的综合尺度(CSCL)效果。 一种作者提出的用于无人机图像目标检测的补充学习的实现方案是补充学习的综合尺度(CSCL)。表5的第三行显示,仅添加CSCL组件的实验结果与第一行没有添加任何附加组件的 Baseline 模型相比,作者的模型在AP中提高了1.0%,在AP50中提高了0.7%,在AP75中提高了1.1%。这通过CSCL在所有三个物体尺度上实现。即,大型物体集:AP_{l}:0.7%,中等物体集:AP_{m}:1.3%,比例:AR_{m}:0.3%,小型物体集:AP_{s}:0.9%,比例:AR_{s}:1.7%。CSCL组件最初设计为以互补方式增强所有尺度上的表示。通过添加CSCL组件,在小型、中型和大型物体集上的物体识别准确性得到提高,证明了CSCL原始设计意图实现和确实增强了检测的尺度鲁棒性。图7中细粒度类别的第三列结果,与第一列相比,添加了CSCL组件,所有十类别的AP准确性得到提高。在表6中,作者将CSCL添加到Faster R-CNN,YOLO和DETR模型中,以评估CSCL模块的有效性。从表6中作者可以观察到,三个模型的检测准确性通过添加CSCL组件得到提高,分别提高了3.4%,2.2%和3.1%,证明了作者提出的CSCL组件有效,确实可以提高检测性能。因此,总体数据提高,不同尺度上的提高和所有细粒度类别上的提高,证明了作者提出CSCL组件的有效性,并且实现这个组件确实在综合尺度上实现了更好的检测性能。

交互尺度对比互补学习(ICCL)的影响作者提出了一种用于无人机图像目标检测的互补学习另一种实现方式,就是交互尺度对比互补学习(ICCL)。表5的第二行添加ICCL组件的结果比第一行实现了相应的改进:在总体数据中,AP性能提高了0.8%,AP_{50}:提高了4.4%,AP_{75}:提高了1.1%;对于小目标集合,AP性能也分别提高了3.9%,AR_{*}:提高了1.7%。图7的第二列显示,添加ICCL组件后,与其他主要类别相比(如行人、汽车等,其中AP提高达到4.0%和2.4%),AP准确性有明显提升。图8的结果表明,添加ICCL组件后,准确率曲线明显高于 Baseline 模型(橙色曲线),收敛速度也更快。对比互补学习方法有助于分类分支(蓝色曲线)实现更高的准确率,对于堆叠检测Head三个阶段的改进都是显著的。总的来说,作者提出的ICCL组件在整体数据集上的改进,小目标集合上的改进,对主要由小物体支配的细粒度类别上的显著改进,以及准确率曲线的提高,都证明了作者的互补学习为大目标与小目标比较实现有效,特别是小目标检测性能的显著提升。总的来说,作者提出的对比互补学习为大目标与小目标实现有效,特别是对于小物体,检测性能的改进显著。图8的结果显示,在不同的堆叠阶段,作者的对比互补网络分支的准确率明显高于 Baseline 模型,并且在作者模型中的分类分支的准确率也有所提高。

端到端合作(ECOop)的影响。 端到端合作(ECOop)的实现依赖于CSCL和ICCL,因为ECOop是利用两者的潜力进行的一种利用。表5第五行相对于第四行在添加ECOop组件后,整体数据(第五列)的AP提高了1.9%,AP50提高了5.9%,AP75提高了0.6%。与第一行的 Baseline 模型相比,作者的方法(在整体数据、AP50、AP75和APl方面)实现了更大幅度的提升,分别为3.6%,6.9%,2.9%和0.7%,而ARl和ARm的提高幅度分别为0.3%和0.3%(在大物体集中),1.4%和0.3%(在中等物体集中)以及5.1%和8.3%(在小物体集中)。

超参数λcomplete和λdetect的影响。 λcomplete和λdetect用于在多任务优化训练阶段平衡不同任务。这两个超参数的适当匹配值决定了不同任务之间的协作是否最优,因此确定值非常重要。因此,作者进行了相关的超参数截断实验,首先,作者将λdetect的值设定为0.5,只要模型能够收敛,然后,作者调整λcomplete的值来追求最佳值,λcomplete被确定为1.0,然后,作者将λcomplete的值设定为1.0来寻求λdetect的最佳值,最后,λdetect被确定为0.3。最后,作者将λdetect和λcomplete都确定为0.3和1.0。

一般来说,作者的方法中的每个组件都有效,实现了作者预期的效果,它们组成的检测模型共同实现了更好的检测性能。

Analysis for scale challenges

作者提出的方法的初衷是解决无人机图像目标检测中的尺度挑战。为了更好地证明作者方法在尺度挑战上的有效性,本小节将从多个不同角度展示作者的提出方法在定性实验和定量实验上的表现。

V-G1 Quantitative comparison with other advanced methods for addressing scale challenges

表7汇总了近年来解决Visdrone数据集上的尺度挑战的一些先进工作所做的定量结果,并将其与作者所提出的方法进行了比较。对于采用相同backbone的DMNet和GLSAN这两种方法,在解决无人机图像中的目标尺度变量分布问题的过程中,作者的方法相较于它们分别实现了1.7%和0.4%的提高。对于采用ResNeXt101的ClustDet以及其他一种解决目标尺度变量分布问题的工作,在使用了Resnet50的情况下,作者的方法相较于这些方法实现了2.7%的提高,同时保留了更少的参数。对于CEASC和QueryDet这两种方法,它们分别解决了小目标问题,作者的方法相较于它们分别实现了9.3%和2.8%的提升。此外,对于小目标和中等目标,作者的方法表现出色。上述比较和分析说明,与作者所提出的相比,现有用于解决无人机图像目标检测中的尺度挑战的方法相比,作者的方法在解决这些问题方面更具竞争力。

V-G2 Qualitative analysis of feature maps

Baseline 模型和本文提出的方法的特征图如图9所示。与 Baseline (第一行)相比,作者提出的方法(第二行)能感知到更多的物体并激活物体的更多部分,这可以通过CSCL(对比学习的辅助信息)组件以互补的方式实现。这些证据表明,作者提出的全面的互补学习实现可以帮助形成所有尺度上的全面和强大的特征表示。尤其是对于小物体,作者不仅能够感知它们并形成更多的全面特征,这使得小物体的检测更加鲁棒,这要感谢两个方面,一方面是因为作者提出的全面的互补学习实现的实施能够提高小物体的感知能力,另一方面也是由于作者提出的类内对比互补学习,它可以使得模型对缺乏纹理细节信息的小物体实现更加鲁棒的感知。此外,作者提出的处理方法在 Baseline 模型中能够更好地区分前景和背景,图9中的深蓝色表示模型更倾向于被视为背景,而深黄色表示模型更倾向于被视为前景, Baseline 模型中存在一定概率的背景像素被错误地分类为前景,而作者的处理方法可以很好地抑制背景噪声的干扰,使得前景的表示特征更加鲁棒。因此,可以证明作者提出的处理方法对于包含尺度挑战的UAV目标检测更加鲁棒。

总之,对这些不同的观点的定性或定量比较和分析表明,作者提出的处理方法对于解决尺度挑战是有效的。

Analysis of complexity

为了评估作者的方法是否能满足实际应用场景的实时需求,作者构建了一个时间复杂度评估实验,并与其他本节中流行的其他工作进行了比较。推理速度的(每秒帧数)可以准确地反映模型的时间复杂度。因此,作者在表9中采用推理速度作为比较时间复杂度的度量。与通用两阶段目标检测方法级联Cascade RCNN相比,作者提出的方法实现了:9.2,虽然比其:12.3速度略低,但在准确率上明显高于其:31.1%,比其:27.5%高12.9%。与通用一阶段RetinaNet相比,尽管作者提出的推理速度较慢,但检测精度更高,为12.9%。对于流行的无人机图像目标检测模型GLSAN,作者的方法在推理速度上的优势表现为:7.9,检测准确率的提升表现为:0.4%。对于最新的无人机图像目标检测模型QueryDet,尽管作者的方法推理速度较慢,但检测准确率的提升显著,达到%。可以总结的是,作者的方法在保证检测精度的同时,保证了检测速度,这对于实际应用是可靠的,因为检测准确率和推理速度都有提升。总的来说,作者的方法可以满足实时需求。

Effect of the resolution

为了说明在我国提出的基于该方法的模型在无人机图像目标检测中,输入图像 resolution 对模型检测准确性的影响,作者额外进行了一些实验,实验结果如下表所示。从实验结果来看,resolution 对检测准确性的影响基本上与预期经验一致。然而,在从1360800调整到1000800的过程中,检测准确性仅下降了0.4%和0.2%,这说明此类resolution调整对我国提出的方法的检测性能影响不大。当增加分辨率至1920*1080,这也是一些研究中使用的一个分辨率,检测准确性显著提高,分别提高了1.4%和1.1%。上述实验表明,我国提出的基于无人机图像的目标检测模型仍然具有有效性。在实际应用中,实际输入图像的resolution 常常根据检测准确性和推理速度的综合考虑来确定。

V Conclusion

在本文中,作者提出了一种可扩展抗扰动全面学习网络,以提高无人机图像检测性能。针对可扩展性的特点,作者设计了两种互补的学习实现方案。

作者提出了一种可扩展互补解码器和可扩展互补损失函数,以实现全面可扩展互补学习,形成所有尺度目标的全面表示。同时,作者还提出了一种对比互补网络和解对比互补损失函数,实现跨尺度对比互补学习,使大物体具有更多的纹理详细信息来指导小物体的学习。此外,作者还提出了一种端到端的组件配合以及与检测模型的配合,以利用每个成分的潜力。在Vishrone和UAVDT数据集上的评估实验证明了作者的方法的有效性和鲁棒性。

在未来,作者将从跨模态、跨时间等其他角度引入更多的互补学习技术,如深度信息,以进一步提高无人机图像目标检测的性能。准确且高分辨率的深度信息可以有效地分离前景目标,而对于彼此被遮挡的相邻目标来说,它会更适用。至于数据,也需要考虑,例如已构建了红外-RGB多模态数据集[54],但带深度信息的模型仍有所欠缺。

此外,还需要构建一个更广泛的无人机图像目标检测数据集,但手动标注的效率太低,需要建立更有效的标注过程。在应用方面,这些研究对于其他领域的发展,如无人机控制和自动驾驶,具有益处。未来的这些技术和数据探索值得进一步研究。然而,这些已超出本文的范围。

参考

[1].SCLNet: A Scale-Robust Complementary Learning Network for Object Detection in UAV Images.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • Complementary learning
  • III Method
  • Scale robust representation for UAV image object detection
  • Comprehensive-scale complementary learning
  • Iii-B1 Scale-complementary decoder
  • Iii-B2 Scale-complementary loss function
  • Inter-scale contrastive complementary learning
  • Iv-B1 Contrastive complement network
  • Iv-B2 Contrastive complement loss function
  • End-to-end Cooperation
  • Iii-D1 Cooperation of CSCL and ICCL
  • Iii-D2 End-to-end detection model
  • IV Experiments
  • Datasets
  • Implement details
  • Evaluation metrics
  • Visualization of detection results
  • Comparison to other state-of-the-art models
  • Ablation experiments of the different components
  • Analysis for scale challenges
  • V-G1 Quantitative comparison with other advanced methods for addressing scale challenges
  • V-G2 Qualitative analysis of feature maps
  • Analysis of complexity
  • Effect of the resolution
  • V Conclusion
  • 参考
相关产品与服务
腾讯云小微
腾讯云小微,是一套腾讯云的智能服务系统,也是一个智能服务开放平台,接入小微的硬件可以快速具备听觉和视觉感知能力,帮助智能硬件厂商实现语音人机互动和音视频服务能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档