基于YOLOv11的CF-YOLO，如何突破无人机小目标检测？

原创

CoovallyAIHub

发布于 2025-07-10 10:15:38

1.6K0

【导读】

在无人机图像中进行小目标检测，始终是计算机视觉领域的一大挑战。由于拍摄高度高、背景复杂、目标尺寸小、易遮挡等因素，现有检测算法往往难以取得理想效果。本文将为你详细介绍一款专为解决这一问题设计的模型——CF-YOLO。它基于YOLOv11构建，并在多个模块上进行了深度优化，特别适用于遥感、小目标、高复杂场景的检测任务。接下来，我们将一一揭示它背后的技术细节与实验成果。

论文标题： CF-YOLO for small target detection in drone imagery based on YOLOv11 algorithm 论文链接： https://www.nature.com/articles/s41598-025-99634-0

一、模型主要突破

CF-YOLO在YOLOv11的基础上进行了多项创新优化，主要突破包括：

CS-FPN跨尺度特征金字塔网络：解决多次上采样和下采样造成的小目标信息衰减问题。
FRM特征重校准模块 与 Sandwich融合模块：提升特征对齐与多尺度语义-边缘信息融合效率。
RFAConv感受野注意力卷积模块：增强对复杂背景中目标的辨别能力。
LSDECD轻量检测头：在保持高精度的同时显著降低参数量和计算量。

二、模型方法详解

为了应对无人机遥感图像中小目标检测中存在的特征信息缺失、多尺度融合效率低、背景干扰强等问题，CF-YOLO在YOLOv11的基础上进行模块级重构与多项关键设计优化。其核心方法体现在以下五个关键模块的构建与组合中。

CS-FPN：跨尺度特征金字塔网络

传统PANet在特征融合中采用逐层上采样和下采样的策略，易导致浅层细节在传递中逐步损失。CF-YOLO中提出的Cross-Scale Feature Pyramid Network（CS-FPN）旨在解决这一问题，构建更有效的小目标语义-细节联合表达路径。

具体而言，CS-FPN采用了双向融合机制（bottom-up 和 top-down），并在结构上引入四个不同尺度的检测头（相较于YOLOv11的三个），以增强对高分辨率、小尺寸目标的感知能力。每层特征不仅融合上下邻层信息，还通过下采样引入深层语义，再通过融合模块完成重建。

该结构的优势在于，它显式保留了更完整的高分辨率特征信息，同时借助上下文语义增强目标表征能力，对多尺度目标的检测更加稳健。

同时，为了解决不同尺度特征在融合时空间对齐偏差和语义表达不一致的问题，CS-FPN引入两个关键模块进行联合优化：FRM + Sandwich Fusion。

FRM：特征重校准模块

CS-FPN中融合信息的第一阶段采用的是FRM（Feature Recalibration Module）。该模块的设计目标是精准对齐不同尺度之间的空间位置信息，并通过通道注意力机制提升显著性区域的特征表达能力。

它主要通过以下步骤完成“信息重构”：

将浅层特征与深层特征通过 1×1卷积统一通道维度；
分别执行通道压缩并引入 Sigmoid激活函数，生成权重图（低频g_L，高频g_H）；
采用加权残差机制对每个特征图进行强化；
利用“反向注意力”策略，强化浅层中的边缘细节权重，增强深层中的语义差异表达；
最终通过 Concat通道拼接 完成信息融合。

这一模块显著提升了深浅层特征之间的信息交互能力，在保持特征完整性的同时增强了边界、轮廓、纹理等关键信息的表达。

Sandwich融合模块：多分支加权融合机制

在FRM完成初步融合之后，CS-FPN结构继续引入Sandwich模块，以提升多尺度特征间的整合效率。

Sandwich模块的核心设计在于通过上采样和下采样得到的不同分支特征，与中间层特征一起进行加权融合。其融合机制采用加权求和的形式，其中各分支的权重是可学习参数，且通过ReLU和Softmax函数保证非负性与归一化。

该模块有两大优势：

自适应选择对检测任务更重要的特征分支，提升融合策略的动态性；
在靠近检测头的区域使用下采样分支替代完整三分支融合，降低计算负担。

整体上，Sandwich模块有效缓解了浅层语义不足与深层细节缺失的矛盾，是CS-FPN中的重要性能支撑模块。

RFAConv：感受野注意力卷积

针对传统卷积模块在复杂背景下对目标区域识别能力不足的问题，CF-YOLO引入了RFAConv模块（Receptive Field Attention Convolution）。该模块能够在保持模型轻量化的基础上，有效增强对多尺度目标区域的聚焦能力。

RFAConv模块主要通过以下步骤工作：

使用滑动窗口将输入特征划分为多个非重叠子块，构建局部感受野；
对这些局部区域进行平均池化和1×1卷积，提取局部上下文相关性；
应用Softmax函数生成权重分布图，对原始特征图中各感受野区域进行注意力加权；
与原始特征融合，输出具有全局感知能力的特征图。

该模块实现了局部细节建模与全局上下文建模的统一，在复杂光照和背景干扰场景中表现出更高的鲁棒性。

LSDECD：轻量空间深度增强检测头

传统YOLOv11中，各检测头之间缺乏有效的信息交互，导致多尺度检测精度有限。为了解决这一问题，CF-YOLO设计了LSDECD（Lightweight Spatial-Depth Enhanced Cross-Detection）检测头，在保持轻量化结构的同时，显著提升了特征表示能力。

LSDECD的主要特点包括：

统一输入特征的通道数，采用Group Normalization规范化；
引入Detail Enhancement Convolution（DEConv）进行细节建模，该模块包含中心差分、水平差分、垂直差分与角度差分卷积，用于增强边缘、轮廓等局部特征；
多个层级的特征通过共享卷积操作进行信息交互，形成跨层语义增强机制；
加入可学习的尺度调整参数，确保各检测头适配不同大小目标的回归能力。