YoloV8改进策略：Block改进|EVC，提高小目标的检测能力|附代码+改进方法

AI浩

发布于 2024-12-05 13:50:36

1.4K00

代码可运行

文章被收录于专栏：AI智韵AI智韵

运行总次数：0

代码可运行

摘要

一、论文介绍

本文介绍了《Centralized Feature Pyramid for Object Detection》论文中的内容，该论文提出了一种用于目标检测的中心化特征金字塔（CFP）网络。该网络基于全局显式中心化调控方案，旨在解决现有目标检测方法中过度关注层间特征交互而忽略层内特征调节的问题。论文通过提出空间显式视觉中心方案和全局集中调控方法，实现了对特征金字塔的全面和差异化特征表示，从而在目标检测任务中取得了性能提升。

二、创新点

论文的创新点在于提出了一种显式视觉中心（EVC）模块，该模块能够捕获输入图像的全局长距离依赖关系，并保留局部角落区域信息。此外，论文还提出了一种全局集中调控（GCR）方法，利用从最深层特征获得的显式视觉中心信息来调节前面的浅层特征，从而增强了特征金字塔的表示能力。

三、方法

论文的方法主要包括以下几个步骤：

特征提取：使用CNN主干网络提取输入图像的特征金字塔。
显式视觉中心（EVC）实现：在特征金字塔的顶层实现EVC模块，该模块由轻量级多层感知器（MLP）和可学习的视觉中心机制组成，用于捕获全局长距离依赖关系和局部角落区域信息。
全局集中调控（GCR）：利用EVC模块输出的显式视觉中心信息，以自上而下的方式调节特征金字塔的浅层特征，从而增强特征表示。
分类和回归：将经过GCR调节的特征聚合到解耦头网络中进行分类和回归，以实现目标检测。

四、模块作用

EVC模块在论文中的作用主要体现在以下几个方面：

捕获全局长距离依赖：通过轻量级MLP捕获特征的全局长距离依赖关系，有助于模型理解图像中的全局上下文信息。
保留局部角落区域信息：可学习的视觉中心机制能够聚合输入图像的局部关键区域特征，有助于模型对小物体和密集区域进行准确检测。
增强特征表示：通过全局集中调控方法，EVC模块能够调节特征金字塔的浅层特征，使其包含更丰富和全面的特征信息，从而提高目标检测的准确性。

五、改进的效果

将EVC模块加载到YoloV8的BackBone后面，可以预期以下改进效果：

性能提升：由于EVC模块能够捕获全局长距离依赖关系和保留局部角落区域信息，因此可以提高目标检测的准确性。在具有挑战性的数据集（如MS-COCO）上进行实验时，可以预期获得一致的性能提升。
鲁棒性增强：EVC模块通过增强特征表示，有助于提高模型对复杂场景和光照变化的鲁棒性。这使得模型在实际应用中能够更好地应对各种挑战。
小物体检测改善：由于EVC模块特别关注局部角落区域信息，因此可以预期在小物体检测方面取得更好的效果。这对于需要高精度目标检测的应用（如自动驾驶和计算机辅助诊断）具有重要意义。

论文翻译：《用于目标检测的集中式特征金字塔》

https://arxiv.org/pdf/2210.02093

视觉特征金字塔在多种应用中已展现出其在有效性和效率方面的优越性。然而，现有方法过度关注层间特征交互，却忽略了经验证明有益的层内特征调节。尽管一些方法试图借助注意力机制或视觉变换器来学习紧凑的层内特征表示，但它们忽略了对于密集预测任务而言重要的被忽略的角落区域。为解决这个问题，本文提出了一种用于目标检测的中心化特征金字塔（CFP），其基于全局显式中心化特征调节。具体而言，我们首先提出了一种空间显式视觉中心方案，其中使用轻量级多层感知器（MLP）来捕获全局长距离依赖关系，并使用并行可学习的视觉中心机制来捕获输入图像的局部角落区域。在此基础上，我们随后提出了一种以自上而下方式针对常用特征金字塔的全局中心化调节方法，其中从最深层内特征获得的显式视觉中心信息用于调节前面的浅层特征。与现有特征金字塔相比，CFP不仅能够捕获全局长距离依赖关系，还能有效地获得全面且具有辨别力的特征表示。在具有挑战性的MS-COCO数据集上的实验结果表明，我们提出的CFP能够在最先进的YOLOv5和YOLOX目标检测基线上实现一致的性能提升。代码已发布于：CFPNet。

索引词-特征金字塔，视觉中心，目标检测，注意力学习机制，长距离依赖关系。

I、引言

目标检测是计算机视觉领域中最基本也是最具挑战性的研究任务之一，其目标是为输入图像中的每个对象预测一个唯一的边界框，该边界框不仅包含位置信息，还包含类别信息[1]。在过去几年中，该任务得到了广泛的发展和应用，可用于多种潜在应用，例如自动驾驶[2]和计算机辅助诊断[3]。

成功的目标检测方法主要基于以卷积神经网络（CNN）为主干网络，并结合两阶段（例如Fast/Faster R-CNN[4]、[5]）或单阶段（例如SSD[6]和YOLO[7]）框架。然而，由于目标尺寸的不确定性，单一特征尺度无法满足高精度识别性能的要求。为此，提出了基于网络内特征金字塔的方法（例如SSD[6]和FFP[8]），这些方法有效且高效地取得了令人满意的结果。这些方法背后的统一原理是为不同大小的对象分配具有适当上下文信息的感兴趣区域，并使这些对象能够在不同的特征层中被识别。

像素或对象之间的特征交互很重要[9]。我们认为有效的特征交互可以使图像特征看得更广并获得更丰富的表示，从而使目标检测模型能够学习像素/对象之间的隐式关系（即有利的共生特征[10]、[11]），这已被实验证明对视觉识别任务有益[12]、[13]、[14]、[15]、[16]、[17]、[18]。例如，FPN[17]提出了一种自上而下的层间特征交互机制，使浅层特征能够获得深层特征的全局上下文信息和语义表示。NAS-FPN[13]试图通过网络架构搜索策略来学习特征金字塔部分的网络结构，并获得可扩展的特征表示。除了层间交互外，受非局部/自注意力机制[19]、[20]的启发，更精细的层内空间特征调节交互方法也被应用于目标检测任务，例如非局部特征[21]和GCNet[22]。基于上述两种交互机制，FPT[15]进一步提出了一种层间跨层和层内跨空间特征调节方法，并取得了显著的性能。

尽管在目标检测方面取得了初步成功，但上述方法都是基于卷积神经网络（CNN）主干网络，这受到了其固有感受野限制的困扰。如图1（a）所示，标准CNN主干网络特征只能定位那些最具判别性的目标区域（例如，“飞机的机身”和“摩托车的踏板”）。为了解决这个问题，最近提出了基于视觉Transformer的目标检测方法[24]、[23]、[25]、[26]，并且这些方法蓬勃发展。这些方法首先将输入图像分割成不同的图像块，然后使用基于多头注意力机制的块间特征交互来获得全局长距离依赖。不出所料，特征金字塔也被应用于视觉Transformer中，例如PVT[26]和Swin Transformer[25]。尽管这些方法可以解决CNN中感受野受限和局部上下文信息的问题，但一个明显的缺点是它们的计算复杂度很大。例如，Swin-B[25]在输入大小为时，其模型浮点运算数（FLOPs）几乎是性能相当的CNN模型RegNetY[27]的倍（即 G对比 G）。此外，如图1（b）所示，由于基于视觉Transformer的方法采用全向和无偏的学习模式，容易忽略一些对于密集预测任务重要的角落区域（例如，“飞机的发动机”、“摩托车的轮子”和“球棒”）。这些缺点在大规模输入图像上更加明显。为此，我们提出一个问题：是否需要在所有层上使用Transformer编码器？为了回答这个问题，我们从对浅层特征的分析开始。先进方法的研究[28]、[29]、[30]表明，浅层特征主要包含一些一般的目标特征模式，如纹理、颜色和方向，这些通常不是全局的。相比之下，深层特征反映了目标特定的信息，这通常需要全局信息[31]、[32]。因此，我们认为并非所有层都需要Transformer编码器。

在本工作中，我们提出了一种用于目标检测的集中式特征金字塔（CFP）网络，该网络基于全局显式集中式调控方案。具体来说，基于从CNN主干网络提取的视觉特征金字塔，我们首先提出了一种显式视觉中心方案，其中使用轻量级多层感知器（MLP）架构来捕获长距离依赖，并使用并行可学习的视觉中心机制来聚合输入图像的局部关键区域。考虑到最深层的特征通常包含最抽象的特征表示，而这些表示在浅层特征中很稀缺[33]，因此，在提出的调控方案的基础上，我们进一步提出了对提取的特征金字塔进行自顶向下的全局集中式调控，其中从最深层特征获得的空间显式视觉中心被用来同时调控所有前面的浅层特征。与现有的特征金字塔相比，如图1（c）所示，CFP不仅能够捕获全局长距离依赖，而且能够高效地获得全面且具有判别性的特征表示。为了证明其优越性，我们在具有挑战性的MS-COCO数据集[34]上进行了大量实验。结果验证了所提出的CFP在最新的YOLOv5[35]和YOLOX[36]目标检测基线上能够实现一致的性能提升。

我们的贡献总结如下：1）我们提出了一种空间显式视觉中心方案，该方案包含一个轻量级MLP用于捕获全局长距离依赖，以及一个可学习的视觉中心用于聚合局部关键区域。2）我们提出了一种自顶向下的全局集中式调控方案，用于常用的特征金字塔。3）CFP在强大的目标检测基线上实现了一致的性能提升。

II. 相关工作

A. 计算机视觉中的特征金字塔

特征金字塔是现代识别系统中的基本颈部网络，它能够高效且有效地用于检测不同尺度的物体。SSD[6]是首批使用金字塔特征层次结构表示的方法之一，该方法通过不同空间尺寸的网络捕获多尺度特征信息，从而提高模型识别精度。FPN[17]主要依赖自下而上的网络内特征金字塔，其通过多尺度高级语义特征图之间的横向连接构建了一条自上而下的路径。在此基础上，PANet[16]进一步提出了基于FPN的额外自下而上路径，以在层间特征之间共享特征信息，从而使高级特征也能获得低级特征中的足够细节。借助神经架构搜索，NAS-FPN[13]使用空间搜索策略通过特征金字塔连接各层，并获得可扩展的特征信息。M2Det[37]通过构建多阶段特征金字塔来提取多阶段和多尺度特征，以实现跨级别和跨层的特征融合。总的来说，1) 特征金字塔可以在不增加计算开销的情况下处理物体识别中的多尺度变化问题；2) 提取的特征可以生成多尺度特征表示，包括一些高分辨率特征。在本文中，我们从层间特征交互和特征金字塔的层内特征调节的角度提出了层内特征调节方法，弥补了当前方法在这方面的不足。

B. 视觉注意力学习

卷积神经网络（CNN）[38]更侧重于局部区域的代表性学习。然而，这种局部表示并不满足现代识别系统对全局上下文和长期依赖性的要求。为此，提出了注意力学习机制[20]，其重点在于决定在图像中的哪个位置投入更多注意力。例如，非局部操作[19]使用非局部神经网络直接捕获远程依赖关系，证明了非局部建模对于视频分类、物体检测和分割等任务的重要性。然而，CNN内部特性的局部表示问题并未得到解决，即CNN特征只能捕获有限的上下文信息。为了解决这个问题，主要受益于多头注意力机制的Transformer[20]最近引起了极大关注，并在计算机视觉领域取得了巨大成功，如图像识别[24]、[39]、[23]、[40]、[25]。例如，具有代表性的ViT将图像划分为带有位置编码的序列，然后使用级联Transformer块提取参数化向量作为视觉表示。在此基础上，通过进一步改进提出了许多优秀模型[39]、[41]、[42]，并在计算机视觉的各种任务中取得了良好性能。然而，基于Transformer的图像识别模型仍存在计算量大和复杂度高的缺点。

C. 计算机视觉中的多层感知器（MLP）

为了缓解复杂Transformer模型[43]、[44]、[23]、[45]的缺点，近期工作[46]、[47]、[48]、[49]表明，将Transformer模型中的基于注意力的模块替换为MLP仍表现良好。这种现象的原因是，MLP（例如，两层全连接网络）和注意力机制都是全局信息处理模块。一方面，将MLP-Mixer[46]引入视觉领域缓解了数据布局的变化。另一方面，MLP-Mixer通过空间特征信息和通道特征信息之间的交互，可以更好地建立特征的长依赖/全局关系和空间关系。尽管MLP风格的模型在计算机视觉任务中表现良好，但在捕获细粒度特征表示和获得更高的物体检测识别精度方面仍存在不足。然而，MLP在计算机视觉领域发挥着越来越重要的作用，并且具有比Transformer更简单的网络结构优势。在我们的工作中，我们也使用MLP来捕获输入图像的全局上下文信息和长期依赖性。我们的贡献在于使用提出的空间显式视觉中心方案来抓住信息的中心性。

D. 物体检测

物体检测是一项基本的计算机视觉任务，其目标是为给定图像识别出感兴趣的物体或实例，并提供包括物体类别和位置在内的综合场景描述。近年来，随着卷积神经网络（CNN）[38]的空前发展，许多物体检测模型取得了显著进展。现有方法可分为两阶段和单阶段两类。两阶段物体检测器[50]、[4]、[5]、[51]、[52]通常首先使用区域建议网络（RPN）生成一系列区域建议。然后使用一个学习模块提取这些区域建议的区域特征，并完成分类和回归过程。然而，存储和重复提取每个区域建议的特征不仅计算量大，而且无法捕获全局特征表示。为此，单阶段检测器[7]、[6]、[53]、[54]通过生成边界框直接进行预测和区域分类。现有的单阶段方法在设计特征提取时具有全局概念，并使用骨干网络提取整个图像的特征图来预测每个边界框。在本文中，我们也选择单阶段物体检测器（即YOLOv5[35]和YOLOX[36]）作为我们的基线模型。我们的重点是增强这些检测器所使用的特征金字塔的表示能力。

III. 我们的方法

在本节中，我们介绍了所提出的集中式特征金字塔（CFP）的实现细节。我们首先在III-A节对CFP进行了总体架构描述。然后，在III-B节展示了显式视觉中心（EVC）的实现细节。最后，在III-C节展示了如何在图像特征金字塔上实现显式视觉中心，并提出了我们的全局集中式调控方法。

A. 集中式特征金字塔（CFP）

尽管现有方法大多集中在层间特征交互上，但它们忽略了层内特征调控，而层内特征调控已被实证证明对视觉识别任务有益。在我们的工作中，受先前关于密集预测任务的研究[55]、[48]、[46]启发，我们为对象检测提出了一种基于全局显式集中式层内特征调控的CFP。与现有的特征金字塔相比，我们提出的CFP不仅能够捕获全局长距离依赖关系，还能够实现全面且差异化的特征表示。如图2所示，CFP主要由以下部分组成：输入图像、用于提取视觉特征金字塔的卷积神经网络（CNN）主干网络、提出的显式视觉中心（EVC）、提出的全局集中式调控（GCR）以及用于对象检测的解耦头网络（包括分类损失、回归损失和分割损失）。在图2中，EVC和GCR在提取的特征金字塔上实现。

具体来说，我们首先将输入图像输入到主干网络（即Modified CSP v5[56]）中，以提取一个五级单特征金字塔，其中每一层特征的空间尺寸分别是输入图像的、、、、。基于这个特征金字塔，我们实现了CFP。我们提出了一种轻量级的多层感知器（MLP）架构来捕获的全局长距离依赖关系，其中标准Transformer编码器的多头自注意力模块被MLP层替换。与基于多头注意力机制的Transformer编码器相比，我们的轻量级MLP架构不仅结构简单，而且体积更小、计算效率更高（参见III-B节）。此外，我们使用可学习的视觉中心机制与轻量级MLP一起聚合输入图像的局部角落区域。我们将上述并行结构网络命名为空间EVC，它在特征金字塔的顶层（即）上实现。基于提出的ECV，为了使特征金字塔的浅层特征能够以高效的方式同时从最深特征的视觉集中信息中受益，我们随后以自上而下的方式提出了GCR，其中从最深层内特征获得的显式视觉中心信息被用来同时调控所有前面的浅层特征（即到）。最后，我们将这些特征聚合到解耦头网络中进行分类和回归。

B. 显式视觉中心（EVC）

如图3所示，我们提出的EVC主要由两个并行连接的块组成，其中轻量级MLP用于捕获顶层特征的全局长距离依赖关系（即全局信息）。同时，为了保留局部角落区域（即局部信息），我们在上实现了一种可学习的视觉中心机制，以聚合层内局部区域特征。这两个块的结果特征图沿着通道维度拼接在一起，作为EVC的输出，用于下游识别。在我们的实现中，在和EVC之间，我们使用了一个Stem块进行特征平滑，而不是像[35]中那样直接在原始特征图上实现。Stem块由一个卷积（输出通道大小为256）组成，后面跟着一个批量归一化层和一个激活函数层。上述过程可以表示为：

长距离依赖关系

† 局部角落区域

其中，是EVC的输出。cat()表示沿通道维度拼接特征图。和分别表示所使用的轻量级MLP和可学习的视觉中心机制输出的特征。是Stem块的输出，由以下公式获得：

其中，表示步长为1、通道大小设置为256（根据[17]）的卷积。表示批量归一化层，表示ReLU激活函数。

MLP。所使用的轻量级MLP主要由两个残差模块组成：一个基于深度卷积的模块[57]和一个基于通道MLP的块，其中MLP基模块的输入是深度卷积基模块[46]的输出。这两个块后面都跟着通道缩放操作[48]和DropPath操作[58]，以提高特征的泛化能力和鲁棒性。具体来说，对于基于深度卷积的模块，来自Stem模块的特征输出首先被输入到一个深度卷积层中，该层已经通过组归一化（即特征图沿通道维度分组）处理。与传统空间卷积相比，深度卷积可以在减少计算成本的同时增加特征表示能力。然后，实施通道缩放和droppath。之后，实现了的残差连接。上述过程可以表示为：

其中，是基于深度卷积的模块的输出。GN()表示组归一化，DConv()表示核大小为的深度卷积[57]。对于基于通道的多层感知机（MLP）模块，首先将从基于深度卷积的模块输出的特征送入组归一化（Group Normalization），然后在这些特征上实现通道MLP [46]。与空间MLP相比，通道MLP不仅能有效降低计算复杂度，还能满足一般视觉任务的要求[36]、[54]。之后，依次实现了通道缩放、DropPath和的残差连接。上述过程表示为：

其中，表示通道MLP [46]。为便于表述，在本文的公式3和公式4中，我们省略了通道缩放和DropPath。

LVC。LVC是一个具有内置字典的编码器，包含两个组件：1) 一个内置码本：，其中是输入特征的总空间数，和分别表示特征图在高度和宽度上的空间尺寸；2) 一组用于可学习视觉中心的缩放因子。具体而言，首先通过一组卷积层（包括一个卷积、一个卷积和一个卷积）的组合对来自Stem块的特征进行编码。然后，使用CBR块（包含一个带BN层和ReLU激活函数的卷积）处理编码后的特征。通过上述步骤，将编码后的特征输入到码本中。为此，我们使用一组缩放因子使和依次映射到相应的位置信息。关于第个码字的全图信息可以通过以下方式计算：

其中，是第个像素点，是第个可学习的视觉码字，是第个缩放因子。是每个像素位置相对于一个码字的信息。是视觉中心的总数。之后，我们使用来融合所有，其中包含带ReLU的BN层和平均层。基于此，关于个码字的全图完整信息计算如下：

在获得码本的输出后，我们进一步将其输入到全连接层和卷积层中，以预测突出关键类别的特征。之后，我们使用来自Stem块的输入特征和缩放因子系数之间的逐通道乘法。上述过程表示为：

其中，Conv表示卷积，表示Sigmoid函数。表示逐通道乘法。最后，我们对来自Stem块的特征和局部角区域特征进行逐通道加法，公式为：

其中，表示逐通道加法。

C. 全局集中调控（GCR）

EVC是一种广义的层内特征调控方法，不仅能提取全局长距离依赖关系，还能尽可能保留输入图像的局部角区域信息，这对于密集预测任务非常重要。然而，在特征金字塔的每一层使用EVC会导致较大的计算开销。为提高层内特征调控的计算效率，我们进一步提出了用于特征金字塔的自上而下的全局集中调控（GCR）。具体而言，如图2所示，考虑到最深层的特征通常包含最抽象的特征表示，而这些特征在浅层特征中很稀缺[33]、[59]，我们的空间EVC首先在特征金字塔的顶层（即）上实现。然后，将包含空间显式视觉中心的所得特征用于同时调控所有前面的浅层特征（即到）。在我们的实现中，对于每个相应的低层特征，将深层获得的特征上采样到与低层特征相同的空间尺度，然后沿着通道维度进行拼接。基于此，将拼接后的特征通过卷积下采样到通道大小为256，如[17]所示。通过这种方式，我们能够在自上而下的路径中显式增加特征金字塔每一层全局表示的空间权重，从而使我们的特征金字塔表示（CFP）能够有效地实现全面且具有判别性的特征表示。

IV. 实验

A. 数据集和评估指标

数据集。在本工作中，我们使用Microsoft Common Objects in Context（MS-COCO）[34]来验证我们提出的CFP（特征融合方法）的优越性。MS-COCO包含80类常见的场景对象，其中训练集、验证集和测试集分别包含118k、5k和20k张图像。在我们的实验中，为了公平比较，所有训练图像的大小都被调整为固定的，如[17]所示。在数据增强方面，我们在实验中采用了常用的Mosaic[54]和MixUp[60]。Mosaic不仅可以丰富图像数据，还可以间接增加我们的批量大小。MixUp可以提高模型的泛化能力。特别是，遵循[36]，我们的模型在训练的最后15个周期中关闭了数据增强策略。

评估指标。在我们的实验中，我们主要遵循常用的目标检测评估指标——平均精度（AP），包括、、、和。此外，为了量化模型效率，还使用了GFLOPs（十亿次浮点运算）、每秒帧数（FPS）、延迟和参数（Params.）等指标。特别是，遵循[36]，为了公平比较，延迟和FPS的测量不包括后处理。

B. 实现细节

基线。为了验证CFP的通用性，我们在实验中使用了两个最先进的基线模型，即YOLOv5[35]和YOLOX[36]。在我们的实验中，我们采用端到端的训练策略，并使用它们的默认训练和推理设置，除非另有说明。

YOLOv5[35]。主干网络是改进的跨阶段部分网络v5[56]和DarkNet53[53]，其中改进的跨阶段部分网络v5用于消融研究，DarkNet53用于与最先进方法的结果比较。颈部网络是FPN[17]。目标检测头是耦合头网络，包含分类分支和回归分支。在YOLOv5中，根据网络深度和宽度的缩放，生成了三个不同尺度的网络，分别是YOLOv5-Small（YOLOv5S）、YOLOv5-Media（YOLOv5-M）和YOLOv5-Large（YOLOv5-L）。
YOLOX[36]。与YOLOv5相比，YOLOX的整体网络结构保持不变，除了耦合头网络。在YOLOv5中，目标检测头是解耦头网络。

主干网络。在我们的实验中，使用了两个主干网络。

DarkNet53[53]。DarkNet53主要由53个卷积层（基本上是和卷积）组成，主要用于表VII中与最先进方法的性能比较。
改进的CSPNet v5[35]。为了公平比较，我们选择YOLOv5（即改进的CSPNet v5）作为我们的主干网络。输出特征图来自stage5，包括三个卷积（Conv、BN和SiLU[61]）操作和一个空间金字塔池化[62]层（、和）。

比较方法。我们考虑使用多层感知器（MLP）代替基于注意力的方法，因为MLP不仅性能良好，而且计算成本更低。因此，我们设计了一系列MLP和基于注意力的变体。通过消融研究，我们为我们的LVC机制和CFP方法选择了一个最优变体，称为轻量级MLP。

图4（a）显示了PoolFormer结构[48]，它由一个池化操作子块和一个两层MLP子块组成。考虑到池化操作会破坏详细特征，我们选择了一些结构上轻量级且同时保证准确性的卷积。因此，我们将CPSLayer[56]以及深度卷积作为标记混合器。它们在图4的（c）和（e）中分别称为CSPM和MLP（Ours）。与MLP变体相比，结构（b）、（d）和（f）分别是相应的基于注意力的变体。值得注意的是，我们在MLP变体中选择了通道MLP。然后，我们使用卷积位置编码来防止绝对位置编码导致模块的平移不变性。

训练设置。我们首先使用YOLOX或YOLOv5主干网络的预训练权重在MS-COCO上训练我们的CFP，其中所有其他训练参数在所有模型中都是相似的。考虑到本地硬件条件，我们的模型总共训练了150个周期，包括5个周期的学习率预热，如[63]所示。我们使用2个GeForce RTX 3090 GPU，批量大小为16。从基线到最终模型，我们的训练设置基本保持一致。输入图像训练大小为。学习率设置为 BatchSize / 64（即线性缩放策略[64]），其中初始学习率设置为，并使用余弦学习率调度。权重衰减设置为0.0005。模型训练过程的优化器选择随机梯度下降，动量设置为0.9。此外，遵循[17]，我们每10个训练周期评估一次AP，并在MS-COCO验证集上报告最佳结果。

推理设置。对于模型的推理，原始图像被缩放到对象大小（），图像的其余部分用灰色填充。然后，我们将图像输入到训练好的模型中进行检测。在推理过程中，FPS和延迟都是在单个GeForce RTX 3090上以FP16精度和批量大小=1测量的。但是，请记住，模型的推理速度通常是不可控的，因为速度会随着软件和硬件的不同而变化。

C. 消融研究

我们的消融研究旨在探讨局部视觉上下文（LVC）、多层感知机（MLP）、增强视觉上下文（EVC）和特征融合路径（CFP）在目标检测中的有效性。为此，我们在MS-COCO验证集[34]上进行了一系列实验。从表I的数据可以看出，我们分别使用YOLOv5-L和YOLOX-L作为基线，分析了LVC、MLP和EVC对平均精度、参数数量、计算量和延迟的影响。表II以YOLOX-L为基线，详细分析了我们提出的MLP变体和基于注意力的变体在精度和延迟方面的表现。表III显示了视觉中心数量对YOLOX-L基线中LVC的影响。从表IV的数据中，我们可以直观地看到我们的CFP方法在YOLOX-L基线中重复次数对模型的影响。

不同基线的有效性。如表I所示，我们分别对提出的MLP、LVC和EVC在MS-COCO验证集上进行了消融研究，使用YOLOv5-L和YOLOX-L作为基线。如表I所示，当我们仅使用LVC机制来聚合局部角区域特征时，参数数量、计算量和延迟均在可接受的增长范围内，YOLOv5-L和YOLOX-L模型的平均精度均值（mAP）分别提高了和。此外，当我们仅使用轻量级MLP结构捕获全局长距离依赖时，YOLOv5-L和YOLOX-L模型的mAP分别提高了和。最重要的是，当我们在YOLOv5-L和YOLOX-L基线上同时使用LVC和MLP（即EVC方案）时，两个模型的mAP均提高了。进一步分析表明，当EVC方案分别应用于YOLOv5-L基线和YOLOX-L基线时，YOLOX-L模型的mAP可以提高到，且其参数数量和计算量均低于YOLOv5-L模型。结果表明，EVC方案在YOLOX-L基线中更有效，且开销略小于YOLOv5-L基线。在后续的消融实验中，我们使用YOLOX-L作为基线。

与MLP变体的比较。表II显示了基于YOLOX-L基线在MS-COCO验证集上MLP和基于注意力的变体的检测性能。我们首先分析了MLP变体的比较结果。我们观察到，PoolFormer结构与YOLOX-L模型的mAP相同（即）。与YOLOX-L模型相比，CSPM的性能甚至更差，不仅平均精度降低了，而且延迟增加了0.74毫秒。但是，我们提出的轻量级MLP结构在MLP变体中获得了最高的mAP（即），比YOLOX-L的mAP高出。这也表明，我们在MLP变体中选择深度卷积作为标记混合器的性能更好。转向基于注意力的变体，与YOLOX-L相比，PoolA、CSPA和DWA的性能均有所提高，DWA的mAP可以达到。但实际上，我们比较了两个性能最好的结构（MLP和DWA），发现在相同的硬件环境下，DWA的延迟比MLP（我们的）增加了2.84毫秒。从表II数据的综合分析可以看出，我们的轻量级MLP在捕获长距离依赖方面不仅效果更好，而且速度更快。

的影响。如表III所示，我们分析了视觉中心数量对LVC性能的影响。我们选择YOLOX-L作为基线，随着的增加，我们可以观察到其性能呈上升趋势。同时，模型的参数数量、计算量和延迟也趋于逐渐增加。值得注意的是，当时，模型的mAP可以达到，当时，模型的mAP可以达到。尽管随着的增加，模型的性能提高了，但其额外的计算成本增加了10.01G，相应的推理时间增加了3.21毫秒。这可能是因为过多的视觉中心带来了更多的冗余语义信息。不仅性能没有显著提高，而且计算量也增加了。因此，我们选择。

的影响。从表IV中，我们分析了CFP重复次数对性能的影响。我们仍然选择YOLOX-L作为基线，随着的增加，与YOLOX-L模型相比，我们可以观察到性能先增加后减少然后稳定的趋势。同时，参数数量、计算量和延迟均呈逐渐增加趋势。特别是当时，实现了最佳性能，mAP为。当时，性能反而比时降低了。这可能是因为这种重复的特征提取除了增加计算成本外，并没有捕获到有用的信息。因此，基于上述观察，我们选择。

D. 效率分析

在本节中，我们展示了效率分析。首先，我们从多指标角度分析了MLP变体和基于注意力的变体的性能。在图5中，所有模型均以YOLOX-L为基线，并在MS-COCO重点验证集上以相同的数据增强设置进行训练。同时，为了证明MLP结构的有效性，如表V所示，我们将其与当前最先进的Transformer方法和MLP方法进行了比较。从图5可以直观地看出，我们的MLP（Ours）结构在mAP方面明显优于其他结构，在参数数量、计算量和推理时间方面则低于其他结构。这表明MLP结构可以在获得更好精度的情况下保证较低的参数数量和计算量。

在表V中，我们给出了在目标检测任务中表现突出的MLP和Transformer方法的比较结果。在表V的前半部分，我们的MLPYOLOX-L方法不仅占用内存更少，而且与Mask R-CNN（骨干网络为AS-MLP-S[65]）相比，平均精度高出。在表V的中间部分，我们可以发现，与Transformer方法（DETR[23]）相比，我们的MLPYolox-L可以在不增加额外计算成本的情况下将mAP提高多达。在相同的mAP下，与REGO-Deformable DETR[66]相比，MLP的参数数量减少了62.43M。因此，我们可以发现，与Transformer方法相比，MLP不仅精度高，而且占用内存更少。总之，我们的MLP在捕获特征长距离依赖方面具有出色的性能。

在这里插入图片描述

E. 与最先进方法的比较

如表VI所示，我们以YOLOv5（小型、中型和大型）和YOLOX（小型、中型和大型）为基线，在MS-COCO验证集上验证了所提出的CFP方法。此外，表VII中的数据展示了我们的CFP方法与先进的单阶段和双阶段检测器相比的对比结果。最后，我们在图6中展示了一些视觉对比图。

与YOLOv5和YOLOX基线的比较。如表VI所示，当选择YOLOv5作为基线时，我们CFP方法的小型、中型和大型尺寸模型的mAP分别提高了0.5%、0.5%和1.4%。当YOLOX[36]用作基线时，不同大小的主干网络的mAP分别提高了7.0%、0.8%和1.6%。值得注意的是，我们选择YOLOv5（锚点机制）和YOLOX（无锚点机制）作为基线的主要原因是，这两种模型在网络结构上的互补性能够充分展示我们CFP方法的有效性。最重要的是，我们的CFP方法并没有因为YOLOv5模型的缺点而表现不佳，该模型的最大mAP达到了46.60%。同时，在YOLOX基线上，我们的mAP达到了49.40%。此外，在小型主干网络上，CFP_{Yolox}相较于YOLOX[36]提高了7.0%。这主要是因为我们的CFP中的LVC能够通过像素级别的视觉中心增强局部角落区域的特征表示。

速度与准确性的结果比较。我们在MS-COCO验证集上对单阶段和双阶段检测器进行了一系列比较，结果如表VII所示。首先，我们可以看到双阶段目标检测模型，包括具有不同主干网络的Faster R-CNN系列、Mask R-CNN和D2Det。我们的CFP_{YoloX-L}模型在精度以及推理速度和时间方面具有显著优势。紧接着，我们按时间顺序将单阶段检测方法分为三部分进行分析。毫无疑问，与YOLOv3-ultralytics及其之前的检测器相比，所提出的CFP_{YoloX-L}方法将mAP提高了高达27.80%。在平均精度几乎相同的情况下，CFPYolov5-m的推理速度比EfficientDet-D2检测器快1.5倍。将CFPyolox-L与EfficientDet-D3进行比较，不仅平均精度提高了1.9%，而且推理速度也高了1.8倍。此外，在与YOLOv4系列的比较中，我们发现CFP_{Yolov5-L}的mAP比YOLOv4-CSP提高了2.7%。此外，我们可以看到所有规模的YOLOv5模型，包括YOLOv5-S、YOLOv5-M和YOLOv5-L。其最佳YOLOv5-L模型的平均精度比CFP_{Yolov5-L}低1.4%。同样，我们的CFP方法获得了49.40%的最大平均精度，比YOLOX-L高1.6%。

MS-COCO 2017测试集的定性结果。此外，我们还在图6中展示了基线（YOLOX-L）、EVCYOLOX-L和CFPYolox-L在MS-COCO测试集上的一些可视化结果。值得注意的是，我们使用白色、红色和橙色框分别标记检测任务失败的位置。白色框表示由于遮挡、光线影响或小物体尺寸而导致的漏检。红色框表示由于上下文语义关系不足而导致的检测错误，例如将一个物体检测为两个物体。黄色框表示对象分类错误。

从图中第一行可以看出，由于“斑马”的距离因素，YOLOX-L在白色框标记部分的检测结果并不理想。而EVC_{Yolox-L}能够部分检测到远处的“斑马”。因此，这直观地证明了EVC在某些密集检测任务中对于小物体检测非常有效。在图的第二行中，由于遮挡和照明等因素，YOLOX-L未能完全检测到柜子中的“杯子”。EVC Yolox-l模型通过使用MLP结构捕获对象中特征的长距离依赖性来缓解了这个问题。最后，CFP_{Yolox-l m模型}使用GCR辅助的EVC方案并获得了更好的结果。在图的第三行中，CFP_{Yolox-l}模型在复杂场景中表现更好。基于EVC方案，GCR用于自上而下地调整层内特征，CFP_{YoloX-L}能够更好地解决分类问题。

V. 结论与未来工作

在这项工作中，我们提出了一种基于全局显式集中特征调节的CFP对象检测方法。我们首先提出了一种空间显式视觉中心方案，其中使用轻量级MLP来捕获全局长距离依赖性，并使用并行可学习视觉中心来捕获输入图像的局部角落区域。基于所提出的EVC，我们随后提出了一种自上而下的特征金字塔全局集中调节（GCR），其中使用从最深层内特征获得的显式视觉中心信息来调节所有前端浅层特征。与现有方法相比，CFP不仅能够捕获全局长距离依赖性，还能高效获得全面且具有辨别力的特征表示。在MS-COCO数据集上的实验结果验证了我们的CFP能够在最先进的对象检测基线上实现一致的性能提升。CFP是一种通用方法，不仅能够提取层内特征的全局长距离依赖性，还能尽可能保留局部角落区域信息，这对于密集预测任务非常重要。因此，在未来，我们将开始开发一些先进的层内特征调节方法，以进一步提高特征表示能力。此外，我们将尝试将EVC和GCR应用于其他基于特征金字塔的计算机视觉任务，例如语义分割、对象定位、实例分割和人员重识别。

链接：

https://jingjing.blog.csdn.net/article/details/144228201?spm=1001.2014.3001.5502

测试结果

YOLOv8l summary: 407 layers, 94,931,952 parameters, 0 gradients, 205.6 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95): 100%|██████████| 15/15 [00:15<00:00,  1.00s/it]
                   all        230       1412      0.962      0.963      0.987      0.739
                   c17         40        131      0.978      0.977      0.994      0.827
                    c5         19         68      0.942      0.963      0.992      0.831
            helicopter         13         43      0.975      0.909      0.957      0.582
                  c130         20         85      0.977       0.99      0.994      0.657
                   f16         11         57      0.974       0.93      0.963      0.637
                    b2          2          2      0.939          1      0.995      0.747
                 other         13         86          1      0.898      0.973       0.55
                   b52         21         70      0.971      0.944      0.976      0.827
                  kc10         12         62          1      0.976       0.99      0.834
               command         12         40      0.952          1      0.995      0.815
                   f15         21        123      0.976      0.975      0.993      0.688
                 kc135         24         91      0.985      0.989      0.987      0.709
                   a10          4         27          1      0.639      0.938      0.404
                    b1          5         20          1      0.984      0.995      0.708
                   aew          4         25      0.948          1       0.99      0.796
                   f22          3         17      0.976          1      0.995      0.722
                    p3          6        105          1      0.974      0.995       0.79
                    p8          1          1       0.83          1      0.995      0.697
                   f35          5         32          1      0.878      0.982      0.568
                   f18         13        125      0.984      0.972      0.989       0.82
                   v22          5         41      0.997          1      0.995      0.703
                 su-27          5         31      0.985          1      0.995      0.842
                 il-38         10         27      0.989          1      0.995      0.847
                tu-134          1          1      0.815          1      0.995      0.995
                 su-33          1          2      0.905          1      0.995      0.748
                 an-70          1          2      0.877          1      0.995      0.796
                 tu-22          8         98      0.998          1      0.995       0.82
Speed: 0.2ms preprocess, 3.9ms inference, 0.0ms loss, 13.2ms postprocess per image

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-12-04，如有侵权请联系 cloudcommunity@tencent.com 删除

性能