大家好,今天要给大家介绍的是最新发布的目标检测模型——YOLOv12。相信关注计算机视觉和深度学习的小伙伴们都已经听说过YOLO系列,作为目标检测领域的“老牌明星”,YOLO每次更新都会带来不少惊喜。那么,新鲜出炉的YOLOv12,它到底有哪些亮点呢?今天,就让我们一起来深入了解一下!
论文题目:YOLOv12: Attention-Centric Real-Time Object Detectors 论文链接: https://arxiv.org/abs/2502.12524 代码链接: https://github.com/sunsmarterjie/yolov12
YOLOv12共包含了5种规模:YOLOv12-N、S、M、L和X。
YOLOv12在准确率和速度上超越了所有流行的实时物体检测器。例如,YOLOv12-N在T4 GPU上的推理延迟为1.64ms,达到40.6%的mAP,比先进的YOLOv10-N/YOLOv11-N高出2.1%/1.2%的mAP,而速度相当。这一优势在其他规模的模型中同样保持一致。YOLOv12还超越了改进DETR的端到端实时检测器,如RT-DETR/RT-DETRv2:YOLOv12-S比RT-DETR-R18/RT-DETRv2-R18快42%,仅使用36%的计算和45%的参数。
YOLOv12是YOLO系列的最新版本,它继承了YOLO系列的高效和快速,并在此基础上做出了很多技术创新和优化。
为了克服传统自注意力机制计算复杂度高的问题,YOLOv12通过创新的区域注意力模块(Area Attention,A2),分辨率为(H, W)的特征图被划分为l个大小为(H/l, W)或(H, W/l)的段。这消除了显式的窗口划分,仅需要简单的重塑操作,从而实现更快的速度。将l的默认值设置为4,将感受野减小到原来的1/4,但仍保持较大的感受野。采用这种方法,注意力机制的计算成本从2n²hd降低到1/2n²hd。尽管存在n²的复杂度,但当n固定为640时(如果输入分辨率增加,则n会增加),这仍然足够高效,可以满足YOLO系统的实时要求。A2降低了注意力机制的计算成本,同时保持较大的感受野,显著提升了检测精度。
针对传统ELAN(高效层聚合网络)在优化过程中的不稳定性问题,YOLOv12引入了R-ELAN,在整个块中从输入到输出引入了一个具有缩放因子(默认为0.01)的残差捷径。通过新的聚合方法,使用一个过渡层来调整通道维度,并生成一个单一的特征图。然后,该特征图通过后续块进行处理,接着进行连接,形成一个瓶颈结构。使得网络在处理大规模模型时能够更加稳定和高效,还降低了计算成本和参数/内存使用量。
引入FlashAttention来解决注意力的内存访问问题,减少了内存读写延迟,提高了计算效率。调整MLP比率,进一步提升了速度和精度,去除了位置编码,并引入了大卷积核(7×7卷积),有效增强了网络对位置的感知能力,同时保持了计算效率。
综上所述,YOLOv12的贡献有两方面:
你想第一时间使用YOLOv12模型吗?Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集,无论是最新的YOLOv12模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。
在Coovally平台上,无需配置环境、修改配置文件等繁琐操作,可一键另存为我的模型,上传数据集,即可使用YOLO、Faster RCNN等热门模型进行训练与结果预测,全程高速零代码!而且模型还可分享与下载,满足你的实验研究与产业应用。
YOLOv12-N:在推理延迟为1.64毫秒时,mAP达到了40.6%,较YOLOv11提高了1.2%,推理速度也更快。
YOLOv12-S:相较于RT-DETR-R18/RT-DETRv2-R18,YOLOv12-S实现了38.6%的推理速度提升,且mAP较其高出1.5%/1.1%。与此同时,YOLOv12-S仅使用了36%的计算量和45%的参数数量。
YOLOv12-X:对于大型模型,YOLOv12-X在更复杂的任务中依然展现出优异的性能,并能高效处理大规模数据。
区域注意力模块:进行了消融实验来验证区域注意的有效性,评估是在 YOLOv12-N/S/X模型上进行的,测量了GPU(CUDA)和CPU上的推理速度。在RTX 3080上使用FP32,YOLOv12-N实现了减少0.7ms推理时间。这种性能提升在不同的模型和硬件配置中都得到了一致的体现。
R-ELAN:使用YOLOv12-N/L/X模型评估了所提出的残差高效层网络(R-ELAN)的有效性。对于像YOLOv12-N这样的小模型,残差连接不会影响收敛,但会降低性能。相反,对于较大的模型(YOLOv12-L/X),它们对于稳定的训练至关重要。特别是,YOLOv12-X需要最小缩放因子(0.01)以确保收敛。特征集成方法有效地降低了模型在FLOP和参数方面的复杂性,同时保持了可比的性能,仅有轻微的下降。
对不同GPU的推理速度进行了比较分析,评估了YOLOv9、YOLOv10、YOLOv11以及在RTX 3080、RTX A5000和RTX A6000上以FP32和FP16精度进行的YOLOv12。在RTX 3080上,YOLOv9报告2.4毫秒(FP32)和1.5毫秒(FP16),而YOLOv12-N实现了1.7毫秒(FP32)和1.1ms(FP16)。其他配置也存在类似的趋势。
YOLOv12通过优化注意力机制、分层设计、训练周期、位置感知和区域关注等多方面创新,提升了工件检测的性能和计算效率。
可视化分析热图分析显示,YOLOv12相比YOLOv10和YOLOv11在物体作用和前景激活上更清晰,表明区域注意在感知能力上的提升,使YOLOv12在性能上具备优势。
YOLOv12通过创新的区域注意力模块、残差层高效网络和架构优化,在精度、推理速度和计算效率上实现了突破,并挑战了基于CNN的设计在YOLO系统中的主导地位,并推动了注意力机制在实时物体检测中的集成,为未来的实时检测系统开辟了新的方向。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。