
【导读】
在无人机图像中进行小目标检测,始终是计算机视觉领域的一大挑战。由于拍摄高度高、背景复杂、目标尺寸小、易遮挡等因素,现有检测算法往往难以取得理想效果。本文将为你详细介绍一款专为解决这一问题设计的模型——CF-YOLO。它基于YOLOv11构建,并在多个模块上进行了深度优化,特别适用于遥感、小目标、高复杂场景的检测任务。接下来,我们将一一揭示它背后的技术细节与实验成果。

论文标题: CF-YOLO for small target detection in drone imagery based on YOLOv11 algorithm 论文链接: https://www.nature.com/articles/s41598-025-99634-0
CF-YOLO在YOLOv11的基础上进行了多项创新优化,主要突破包括:

为了应对无人机遥感图像中小目标检测中存在的特征信息缺失、多尺度融合效率低、背景干扰强等问题,CF-YOLO在YOLOv11的基础上进行模块级重构与多项关键设计优化。其核心方法体现在以下五个关键模块的构建与组合中。
传统PANet在特征融合中采用逐层上采样和下采样的策略,易导致浅层细节在传递中逐步损失。CF-YOLO中提出的Cross-Scale Feature Pyramid Network(CS-FPN)旨在解决这一问题,构建更有效的小目标语义-细节联合表达路径。
具体而言,CS-FPN采用了双向融合机制(bottom-up 和 top-down),并在结构上引入四个不同尺度的检测头(相较于YOLOv11的三个),以增强对高分辨率、小尺寸目标的感知能力。每层特征不仅融合上下邻层信息,还通过下采样引入深层语义,再通过融合模块完成重建。
该结构的优势在于,它显式保留了更完整的高分辨率特征信息,同时借助上下文语义增强目标表征能力,对多尺度目标的检测更加稳健。

同时,为了解决不同尺度特征在融合时空间对齐偏差和语义表达不一致的问题,CS-FPN引入两个关键模块进行联合优化:FRM + Sandwich Fusion。
CS-FPN中融合信息的第一阶段采用的是FRM(Feature Recalibration Module)。该模块的设计目标是精准对齐不同尺度之间的空间位置信息,并通过通道注意力机制提升显著性区域的特征表达能力。
它主要通过以下步骤完成“信息重构”:

这一模块显著提升了深浅层特征之间的信息交互能力,在保持特征完整性的同时增强了边界、轮廓、纹理等关键信息的表达。
在FRM完成初步融合之后,CS-FPN结构继续引入Sandwich模块,以提升多尺度特征间的整合效率。
Sandwich模块的核心设计在于通过上采样和下采样得到的不同分支特征,与中间层特征一起进行加权融合。其融合机制采用加权求和的形式,其中各分支的权重是可学习参数,且通过ReLU和Softmax函数保证非负性与归一化。
该模块有两大优势:
整体上,Sandwich模块有效缓解了浅层语义不足与深层细节缺失的矛盾,是CS-FPN中的重要性能支撑模块。
针对传统卷积模块在复杂背景下对目标区域识别能力不足的问题,CF-YOLO引入了RFAConv模块(Receptive Field Attention Convolution)。该模块能够在保持模型轻量化的基础上,有效增强对多尺度目标区域的聚焦能力。
RFAConv模块主要通过以下步骤工作:
该模块实现了局部细节建模与全局上下文建模的统一,在复杂光照和背景干扰场景中表现出更高的鲁棒性。
传统YOLOv11中,各检测头之间缺乏有效的信息交互,导致多尺度检测精度有限。为了解决这一问题,CF-YOLO设计了LSDECD(Lightweight Spatial-Depth Enhanced Cross-Detection)检测头,在保持轻量化结构的同时,显著提升了特征表示能力。
LSDECD的主要特点包括:

该检测头既提升了预测精度,也控制了参数规模与推理延迟,适用于资源受限场景中的部署需求。
为了验证CF-YOLO在小目标检测任务中的有效性,作者在多个典型的无人机遥感图像数据集上进行了深入实验,并通过消融实验与横向对比评估其各模块的贡献和整体性能。所有模型均以YOLOv11n为baseline,统一输入分辨率为640×640,训练轮数300,采用SGD优化器,具体超参数设置详见原论文。
为评估各模块对整体性能的影响,论文设计了逐步引入模块的消融实验,包括CS-FPN、FRM、Sandwich融合、RFAConv和LSDECD检测头。

分析结论:
最终完整CF-YOLO模型在精度提升的同时,保持了极具竞争力的参数量与计算效率。
作者进一步对比了不同特征融合策略在检测性能上的差异,包括传统融合、单独FRM或Sandwich模块,以及两者联合使用。

结论表明:
为了验证CF-YOLO的综合性能,作者将其与YOLOv5、YOLOv8、YOLOv10、RT-DETR等多种主流轻量级或中量级检测模型进行了全面对比。

主要发现:
TinyPerson数据集
该数据集包含大量极小尺寸行人目标,检测难度极高。

CF-YOLO在该数据集上的表现:
HIT-UAV数据集
该数据集涵盖夜晚、红外、复杂天气等场景。

CF-YOLO在该数据集上的表现:
为了进一步直观展示模型优势,作者展示了多组检测结果的可视化图像,包括远距行人、遮挡目标、夜间场景等。


可视化分析显示:
CF-YOLO在小目标检测任务上取得了令人瞩目的成就,其核心优势可以总结如下:
不过,也需要注意:由于结构引入较多模块,CF-YOLO在计算复杂度上仍略高于原始YOLOv11n模型,未来仍需在模型压缩、模块轻量化与动态调整机制上继续深入探索。
展望未来,CF-YOLO为远距离、复杂环境下的小目标检测提供了全新范式,特别适合应用于安防监控、应急救援、农业管理等场景,值得相关研究者与工程团队重点关注。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。