在本文中,作者提出了一种改进的YOLOv7模型,称为YOLO-SLD,主要用于提高车牌检测的准确性和效率。以下是本文的主要创新点:
车牌检测在智能交通系统中扮演着关键角色。检测车牌,如汽车、卡车和面包车,对执法、监控和收费站运营非常有用。如何在现实世界的复杂捕获场景中快速准确地检测车牌至关重要,但检测难度随着车牌的不均匀光照条件或斜拍角度的剧烈变化而增加。同时,距离、照明、角度等要求相当高,严重影响了检测性能。因此,提出了一种改进的YOLOv7,集成了无参数注意力模块SimAM,用于车牌检测,即YOLO-SLD。在不修改YOLOv7的关键组件ELAN架构的情况下,在ELAN的末端增加了SimAM机制,以更好地提取车牌特征并提高计算效率。更重要的是,SimAM模块不需要向原始YOLOv7网络添加任何参数,减少了模型计算,简化了计算过程。首次在CCPD数据集上测试了具有不同注意力机制的检测模型的性能,证明了所提方法的有效性。实验结果表明,YOLO-SLD模型具有更高的检测精度,更加轻量级,mAP在0.5时整体精度从原始YOLOv7模型的98.44%提高到98.91%,精度提高了0.47%。在明暗图像中CCPD测试子集的精度从93.5%提高到96.7%,精度提高了3.2%。与原始YOLOv7模型相比,模型的参数量减少了120万个参数。其性能优于其他流行的车牌检测算法。
深度学习,车牌检测,YOLOv7,SimAM,注意力机制
本节介绍了SimAM注意力模块的核心组件。
基于成熟的神经科学理论,Liang等人[18]在2021年提出了SimAM,这是一种全3-D、加权且无参数的注意力机制。与其他现有的注意力机制相比,SimAM考虑了空间和通道因素之间的相关性,并且可以高效地为特征的映射生成现实的3-D权重,无需额外的参数。它通过实现高速和准确的性能,提高了网络有效地表示特征的能力。在视觉神经科学中,与周围神经元相比,信息丰富的神经元表现出独特的放电模式,这种现象被称为信息丰富的神经元。这些神经元通常对视觉处理任务的结果产生更强的影响。通过评估目标神经元与其他神经元之间的线性可分性,可以区分这些神经元。此外,图像的边缘属性与空间抑制神经元的属性相匹配,与周围纹理特征相比,对比度特别高。因此,使用能量函数为不同的视觉任务分配3-D权重,无需额外的参数。如图3所示,SimAM注意力机制有效地增强了CNN的特征提取能力。在这种情况下,将车牌特征图中的每个像素视为能量函数中的一个神经元,目标神经元的最小能量可以表示为[18]。
方程(2)表示增强的特征张量,其中聚合了所有通道和空间维度上的,而是点积操作。表示输出的特征图,与输入特征图的大小相同。添加了sigmoid函数以限制的过大值。
在本节中,改进的SimAM被嵌入到YOLOv7模型中,该模型基于传统图像识别技术和深度学习目标检测技术的优势,旨在改进其网络架构并提高车牌检测的识别精度。所提出方法的具体流程如图4所示。
SimAM注意力机制具有3-D权重,添加在ELAN和E-ELAN的特征提取能力和计算效率之后,以更好地提炼提取的车牌特征,并且可以自适应地在复杂的照明条件下强调车牌的目标特征,并抑制无关的背景特征,而不增加模型复杂性。与原始的骨干网络相比,本文提出的改进是在骨干网络的ELAN模块和ELAN-H模块中添加SimAM,形成新的SimAM-ELAN和SimAM-ELAN-H模块,如图5所示。
中国市场停车数据集(CCPD)是评估不受控制环境中ALPR方法的全面基准。它目前是公开可用的最大车牌数据集,包含超过25万个在不受控制条件下捕获的独特车辆图像,包括光照、夜晚、模糊、旋转和雪景。具体来说,数据集被划分为7个子数据集:CCPD-Base、CCPD-Db、CCPD-Fn、CCPD-Rotate、CCPD-Tilt、CCPD-Weather和CCPD-Challenge,如图7所示。CCPD比其他车牌数据集大两个数量级。每个图像的大小为720×1160像素。数据集提供了全面的注释,如车牌字符、边界框、四个顶点、水平和垂直倾斜度以及亮度和模糊度。7个子集在CCPD中的分布和描述如表2所示。CCPD-Base包含大约20万张图像。在本文中,模型是用10万张随机选择的图像进行训练的,并使用了剩余的10万张图像以及另外6个子数据集的10万张图像进行测试。
为了提高模型在上采样过程中的特征信息保留,本文在第III节中提到的ELAN中引入了SimAM注意力机制。为了验证不同注意力机制在卷积层中的有效性,并减少CCPD 100k数据集所需的训练时间,本文从所有子数据集中随机选择了20k图像进行训练和测试,统一的训练周期为4。
本文参考了近年来常用的YOLO系列注意力机制,包括SE、CBAM、SA、CA和SimAM注意力机制。本文比较了在加入这些注意力机制后YOLOv7模型的参数和mAP的增加。这部分实验探讨了不同注意力机制改进方法对模型网络的影响。如表3所示,本文进行了11次实验,每次实验都涉及将各种注意力机制整合到卷积层中,并使用mAP在0.5时的性能与原始YOLOv7模型进行了评估。为了方便,原始的YOLOv7模型被命名为YOLOv7-original,带有不同注意力机制的卷积层的YOLOv7模型被命名为YOLOv7-SimAM,并且在不同位置添加注意力机制的网络被编号并相应命名(例如,YOLOv7-SimAM-1)。SimAM模块在不增加参数的情况下表现更好,如表4中CCPD各个子集的比较数据所示。从YOLOv7与十一种主要注意力机制在车牌图像识别中的比较,本文得出以下结论:YOLOv7-SimAM-3算法在车牌检测中表现最佳。注意力机制SE、SA和CA在图像中检测车牌是有效的,并且参数很少。然而,它们的mAP在0.5的精度比原始的YOLOv7低了20%以上。除了SimAM,CBAM注意力机制在检测中的表现优于其他算法。
为了进一步验证SimAM与CBAM的有效性,本文从CCPD2019数据集Base中随机选取了10万个车牌图像,并进行了8个周期的训练。如表5所示,展示了CCPD数据集各个子集的比较数据。带有SimAM注意力机制的YOLOv7-SimAM-3模型在mAP在0.5的精度上取得了最好的结果,并且在表6中参数数量也是最少的。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有