
无人机(UAVs)在城市自动巡逻中发挥着重要作用,但它们在图像识别方面面临挑战,尤其是小目标检测和目标遮挡问题。此外,无人机的高速飞行要求检测系统具备实时处理能力。
为解决这些问题,我们提出了一种新的实时目标检测网络(RTD-Net),它结合了卷积神经网络(CNN)和Transformer的优势。RTD-Net特别设计了特征融合模块(FFM)和高效卷积Transformer块(ECTB),以增强小目标和遮挡目标的检测能力。同时,轻量级特征提取模块(LEM)确保了网络的高效运行,满足实时性需求。
我们的实验表明,RTD-Net在UAV图像数据集上实现了高精度和高速度的检测性能,且在嵌入式设备上也表现出良好的实时检测能力,为智能城市监控提供了一种有效的技术解决方案。
无人机(UAV)在智能监控和城市巡逻中的应用日益增多,它们为自动目标检测提供了新的视角。然而,UAV图像的目标检测面临几个挑战:
为了应对这些挑战,研究人员已经探索了多种方法:
本研究提出的RTD-Net,通过结合CNN和Transformer的优势,旨在实现对UAV图像中小目标和遮挡目标的高效检测。我们通过设计轻量级特征提取模块和高效的Transformer块,减少了计算量,同时通过特征融合模块提升了小目标的检测性能。
为了提高无人机在复杂环境下的目标检测能力,我们提出了一个名为RTD-Net的实时目标检测网络,其整体结构如图1所示:

图1:RTD-Net体系结构概述
这个网络特别设计以应对小目标检测、遮挡目标识别和实时处理的需求。RTD-Net的关键组成部分包括:
LEM是网络的骨干部分,它使用同质多分支架构来减少计算量和参数数量。如图2所示,通过1x1的卷积核整合通道信息,然后通过3x3的卷积核进行特征提取,有效降低了模型的复杂性:

图2:LEM
设计了一个基于CNN和变压器的ECTB,标准变压器块主要由MHSA层和线性层组成,如图3所示:

图3:不同变压器块的结构。(a)标准变压器块。(b)瓶颈变压器(BoT)块。(c)拟议的ECTB。
ECTB是网络的核心创新之一,它结合了CNN和Transformer的优势。通过引入卷积多头自注意力(CMHSA)机制,ECTB能够提取图像的全局特征,并通过上下文信息改善遮挡目标的识别。

FFM基于双向特征金字塔网络(BiFPN)设计,用于融合不同层级的特征。通过特征融合,FFM增强了模型对小目标的检测能力,提高了特征的表达能力。

图4:(a)通道注意机制。(b)空间注意机制
这些组件共同工作,使得RTD-Net能够在保持高检测精度的同时,满足UAV在资源受限环境中的实时性要求。
为了全面评估RTD-Net的性能,我们在多个方面进行了实验,包括在自定义的UAV图像数据集和标准的MS COCO2017数据集上的评估,以及在嵌入式平台上的实时性能测试。
我们收集并创建了一个包含9630张图像的UAV图像数据集,这些图像涵盖了不同的天气条件、光照环境和城市郊区背景。

数据集被分为训练集(60%)、验证集(20%)和测试集(20%),包含七种常见的地面目标类别:轿车、行人、摩托车、自行车、卡车、公交车和三轮车。
图像中的目标根据平均面积比例(AAR)被分为大、中、小三类,以模拟真实世界中UAV检测的挑战。
我们使用平均精度(mAP)作为主要的评估指标,以衡量模型在不同类别和不同大小目标上的检测性能。RTD-Net在该数据集上达到了86.4%的mAP,超过了其他现有的最先进方法,同时在NVIDIA GTX1080Ti上实现了312帧/秒的高检测速度。
我们还进行了详尽的对比实验,将RTD-Net与多种最新的目标检测模型进行了比较,包括Faster R-CNN、SSD、YOLO系列等,证明了RTD-Net在检测精度和速度上的优势。
为了测试RTD-Net的泛化能力,我们在标准的MS COCO2017数据集上进行了额外的评估。
RTD-Net在COCO2017数据集上的表现与UAV图像数据集上的表现一致,显示出良好的泛化能力和在不同场景下的适用性,COCO2017中的可视化结果:

我们在NVIDIA Jetson TX2嵌入式平台上测试了RTD-Net的实时性能,这是评估其在实际UAV应用中的适用性的关键步骤。

通过这些详细的实验,我们全面验证了RTD-Net在目标检测任务中的高性能,特别是在UAV视觉系统中的实际应用价值。
本研究成功开发了一种名为RTD-Net的实时目标检测网络,专为无人机(UAV)视觉系统设计,以应对城市自动巡逻中的复杂挑战。通过精心设计的网络结构,包括轻量级特征提取模块(LEM)、高效卷积Transformer块(ECTB)和特征融合模块(FFM),RTD-Net在检测精度和速度上均取得了显著的性能。
总之,RTD-Net的有效性在多个层面得到了验证,其在智能监控和自动化巡逻等领域具有广泛的应用前景。未来的工作将探索该模型在更多样化的实际场景中的应用,并进一步优化其性能。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。