现有的从无人机(UAV)上进行的绝缘子缺陷识别方法在处理复杂背景场景和小型物体时,准确率较低且存在较多的假阳性检测。 为解决这一问题,本文提出了一种基于局部注意力建模的新注意力基础架构,即YOLO-ELA。在YOLOv8的一阶段架构的 Neck 部分添加了高效局部注意力(ELA)模块,将模型的注意力从背景特征转向具有缺陷的绝缘子特征。 使用SCYLLA交集与并集(SIoU)标准函数来减少检测损失,加速模型收敛,并提高模型对小型绝缘子缺陷的敏感性,从而获得更高的真实阳性结果。由于数据集有限,采用了数据增强技术来增加数据集的多样性。 此外,作者还利用了迁移学习策略来提高模型性能。 在高分辨率无人机图像上的实验结果显示,作者的方法实现了最先进的结果,平均精确度为96.9%,实时检测速度为74.63帧/秒,优于 Baseline 模型。 这进一步证明了基于注意力的卷积神经网络(CNN)在目标检测任务中的有效性。
确保输电线路基础设施的可靠运行对保证稳定供电,满足个人和企业能源需求至关重要。因此,对输电塔组件(如绝缘子)的缺陷进行检查和维护对于确保电网系统安全运行至关重要。绝缘子为导体和支撑电缆提供绝缘,容易受到恶劣天气条件或电磁应力的损坏(Sanyal等人,2020年)。这可能扰乱输电网络的顺畅运行,因此需要定期检查和维护以识别并更换损坏的绝缘子。
手动检测方法通常由塔上行人通过视觉检查输电线路。然而,由于输电塔数量众多且彼此距离较远,这种方法劳动密集,而且工人通常需要攀爬高塔(Wei等人,2024年)。半自动替代方法涉及使用传统图像处理算法分析由无人机或直升机拍摄的图像。
然而,由于需要处理大量高分辨率图像,这些方法耗时且易产生误读错误(刘等人,2023年a)。此外,这些方法受到复杂背景的敏感性影响,难以识别小绝缘子缺陷。这促使急需一个完全自动化的解决方案。
在过去的几十年里,计算机视觉和深度学习方法在自动化各种目标检测任务方面越来越广泛地使用。特别是深度卷积神经网络(DCNNs)的广泛采用,在准确性和速度上都取得了显著的改进,这要归功于它们从绝缘数据集等图像数据中提取和学习高低 Level 特征的能力。此外,它们还受益于迁移学习策略,通过利用预训练权重(Liu等人,2021年)来提高性能。
当前基于深度学习的绝缘体缺陷检测研究主要采用两类DCNN检测器。一类包括流行的两阶段检测算法,如R-CNN、Fast-RCNN 和Faster-RCNN(Ren等人,2016年),这些算法基于候选区域提出的原则,然后进行缺陷区域的细化和识别。例如,Wen等人 提出了两种基于Faster R-CNN的方法,即Exact R-CNN(精确区域卷积神经网络)和CME-CNN(级联 Mask 提取和精确区域卷积神经网络),这些方法集成了FPN、广义IoU(GIoU)和 Mask 提取等先进技术,以提高在复杂背景和微小目标(达到88.7%)下的绝缘体缺陷检测准确性。
同样,Tang等人(2022年)在无人机航空图像上实现了一种改进的Faster R-CNN模型,用于绝缘体缺陷检测,通过用 ResNet50 替换 VGGNet16,集成特征金字塔网络进行特征融合,并使用RoIAlign网络最小化量化效果,从而实现了84.37%的检测准确性。尽管这些方法在复杂场景下能够提供高精度,但其深度网络导致了处理速度较慢,通常无法满足实时检测要求。
为解决这一局限性,一阶段检测器如 SSD 和 YOLO 系列应运而生。这些模型在保持高精度的同时显著提高了检测速度,使其更适合实时应用。例如,阿杜等人(2019年)使用YOLOv3检测绝缘子并识别缺陷,实现了每秒45帧(FPS)的检测速度,满足了实时检测需求。同样,李等人提出了一种基于YOLOv5的快速、准确绝缘子和缺陷检测方法,在实时检测43.2 FPS时,实现了97.82%的准确率。这进一步突显了 YOLOv5 在复杂环境中检测绝缘子损伤的高精度和速度,而其轻量级架构使其非常适合无人机部署,从而提高了检测效率。然而,丁等人(2022年)指出,由于其 Anchor 点设置,基准YOLOv5仍可能受到背景干扰,导致假阳性检测。此外,无人机航拍距离通常导致图像中绝缘子缺陷目标的像素信息较少(胡等人,2023年)。这促使更多地采用 Anchor-Free YOLOv8,它具有增强的架构,包括注意力模块以提高缺陷检测的准确性和速度。将注意力模块集成到基于卷积的YOLOv8模型中,旨在将模型的注意力从学习通用特征转移到针对绝缘子缺陷的特定特征,从而实现更高的真实阳性预测。
在本论文中,作者提出了一种基于高效局部注意力(ELA;Xu和Wan,2024)模块的新型YOLOv8架构,以提高高分辨率无人机航拍图像中绝缘子缺陷检测的准确性和速度。
作者将ELA的基础变体集成到YOLOv8架构的 Neck 组件中,以定位与绝缘子缺陷相关的特征。
除了ELA,作者还测试了其他注意力模块,如卷积块注意力模块(CBAM;Woo等人,2018年),高效通道注意力,以及混合局部通道注意力(MLCA;Wan等人,2023年)。
作者实现了SIoU 标准函数,以降低小像素信息场景中的预测损失并提高更高的真阳性检测。
作者进行了一个消融实验,以比较 Baseline YOLOv8与改进架构的性能。
YOLOv8基准架构
YOLOv8 (Jocher等,2023年) 是一种基于卷积的视觉基础模型,用于各种计算机视觉问题,包括目标检测。它有五个变体,具有相同的架构,但通过参数数量、总体性能和计算需求进行区分。较大的变体在计算负载方面性能更好,但代价是更高的计算负载。在本研究中,作者采用了较小的YOLOv8s变体。与其他YOLOv8变体一样,YOLOv8s的架构由 Backbone 网络、 Neck 和 Head 组件组成。 Backbone 网络包括卷积模块和 C2f 模块,其本身基于YOLOv5 的C3模块和YOLOv7(Wang等,2023年)的扩展ELAN(高效层聚合网络)。C2f由两个卷积模块组成,具有多个Darknet Bottleneck 。它们充当特征提取器,其中C2f模块通过分隔和连接通道维度来降低计算复杂性。 Backbone 网络通过空间金字塔池化快速(SPPF)层与 Neck 组件相连。 Neck 作为 Backbone 网络和 Head 之间的桥梁,结合PAN和FPN(特征金字塔网络;Liu等,2018年),允许其捕获丰富的特征图,然后传递到包含分类和检测分支的解耦 Head 模块,进行最终的边界框预测。
近年来,基于卷积的底层模型(foundation models)的最新进展引入了注意机制的概念,这一概念最初在基于 Transformer (transformer)的模型中发展起来,旨在提高性能和准确性。这包括空间注意(spatial attention),它旨在学习像素级空间信息,以及通道注意(channel attention),它关注通道级依赖关系。将这些注意机制集成到卷积块中可以导致更强大的特征表示,忽略非关键信息,最终提高检测精度。在本文中,作者旨在通过引入YOLOv8的颈组件中的ELA(Xu和Wan,2024)模块来改进如何捕获与绝缘体缺陷相关的丰富特征。此外,作者还采用了SIoU标准损失函数来提高模型在缺陷绝缘体上的收敛性和检测精度。
现有的注意力模块在利用 BatchNorm 时,缺乏足够的泛化能力,无法捕捉到长程依赖关系,也不能降低特征图的通道维度。相比之下,ELA块旨在在不减少通道维度或增加复杂性的情况下,利用强大的空间信息,帮助DCNNs准确地定位感兴趣的目标物体。该块采用条带池化(Hou等人,2020年)而不是空间全局池化,这一思想源自CA,在空间维度上使用,以获取丰富特征向量,捕捉水平和垂直方向上的长程依赖关系。这确保只保留与目标区域对应的特征,忽略无关区域特征。然后,使用一维卷积进行每个方向特征向量的更快、更轻量级的地处理,通过核缩放选项控制局部交互的范围。接下来,使用群正则化(GN; Wu和He,2018)和非线性激活函数,细化结果特征图,产生最终的位置注意力预测。这显著提高了基于CNN的模型的整体性能和泛化能力,仅略微增加了参数数量。
在本研究中,作者在每个C2f模块(Cross Stage Partial bottlenecks with two convolutions)之后,将ELA块集成到YOLOv8架构的颈组件中,以增强在高分辨率无人机 aerial图像中绝缘子缺陷检测(见图1)。
在水平方向(H,1)和垂直方向(1,W)上的每个通道上,对C2f输出(表示高度、宽度和通道维度)进行strip池化,生成通道数为_c-1_、高度为、宽度为的表示。
和以及群正规化(群数=16)进行处理,以增强和处理空间信息,生成位置注意力图,用于水平和垂直和方向。使用了7个卷积核大小为的Sigmoid激活函数对图进行非线性变换。
输出 的 ELA 块的结果是来自 C2f 特征和两个方向注意力图的乘积的局部注意力图,该图捕获了精确绝缘体缺陷检测所需的细微空间信息。
物检测任务中,IoU损失指标用于衡量预测框和目标框之间的重叠程度。YOLOv8默认情况下,在回归分支中使用融合分布式焦损失(DFLoss)和完全交点与 union(CIoU)损失来降低训练过程中的检测损失。虽然CIoU考虑了框重叠、中心点距离和长宽比等因素,但它并未考虑回归框之间的匹配轨迹。这一限制可能导致收敛速度较慢和模型性能不佳。在本研究中,作者将CIoU替换为SIoU(Gevorgyan,2022)损失,以克服这一限制。SIoU标准函数通过集成四个损失:角度成本、距离成本、形状成本和IoU成本,提高了模型收敛性和性能,提供了更强大的边界框匹配评估,并提高了检测精度。
图2显示了SIoU损失函数的示意图。和分别表示预测框和真实框的中心点位置。这些中心点的坐标分别表示为(, )对于真实框,和(, )对于预测框。和的中心点之间的角度和距离分别由和定义。和分别表示和在水平和垂直坐标上的差异。同时,()和()分别表示预测框和真实框的宽度和高度。参数在训练过程中调整形状损失的权重。下面的数学表达式表示了损失函数。
角度损失 的定义如下:
距离损失Δ是基于角度损失Λ定义的,可表示为:
形状损失Ω可以表示为:
The IOU loss 的计算使用简单的表达式:
将所有这些损失函数结合在一起,计算SIoU损失如下:
在本研究中,作者利用了公开可用的云Jupyter平台,Google Colaboratory,它为训练模型和进行预测提供了访问NVIDIA A100-SXM4 GPU和高达40GB的高内存虚拟机。此外,模型架构使用Python 3.10和PyTorch框架进行开发。如表1所示,模型训练配置使用随机梯度下降(SGD)优化器,初始和最终学习率分别为,权重衰减为,动量值为0.937。
模型在每次迭代中训练16张图像,共100个周期,保持其他所有参数的默认设置。为了了解不同训练输入图像尺寸对模型性能的影响,作者分别尝试了训练输入图像尺寸为320和640。数据增强技术和迁移学习策略自动集成到训练流水线中,以进一步提高模型的学习效果。
该工作中使用的数据集来源于两个来源:
训练集和验证集:神经眼团队(Kaziakhmedov和Koposov,2023年)开源了一个自收集的绝缘子数据集。该数据集包括802个盘状玻璃绝缘子图像(640 x 640像素),是从底部视角捕获的。数据还包含没有相应标签文件的无对应图像,将其作为训练和验证流程中的背景图像,以减少假阳性率(参见表2)。所有数据均采用8:2的随机划分,分别分配到训练和验证集,训练图像中包含超过700个缺失绝缘子实例。
盲测试集:盲数据集来源于Kaggle上的Innopolis高压挑战(Novikov和Egorov,2023)。数据包括由飞行在输电线路轴线上的无人机从俯视角度捕捉的30张高分辨率(4000×2250像素)盲测试图像,拍摄高度在15至70米之间,相机倾斜角在45°和70°之间。为了适应可用的计算资源,图像被重新缩放到3008×3008像素。
鉴于训练图像的数量有限,作者增加了训练数据以提高数据集的多样性,并增强模型在各种情况下的扩展能力。使用的增强技术包括将图像水平翻转(左-右)和垂直翻转(上-下)。它还结合了更先进的增强方法,如Mosaic,将四个图像合并成一个新复合图像;Mix-up,生成随机图像对的重权组合;以及Copy-Paste,对一个图像应用随机缩放抖动,然后将其粘贴到另一个图像上。所有这些增强技术都是概率控制的,表示在训练 Pipeline 中应用增强的概率。然而,Mosaic增强在90个epoch时关闭,以提高模型收敛。值得注意的是,这些增强方法并未应用于验证数据。
在本工作中,作者考虑将基于注意力的YOLOv8应用于实时绝缘子缺陷检测。作者主要考虑的评价指标是每秒帧数(FPS),同时还有其他指标,如参数数量、召回率、平均平均精度(mAP_0.5)以及每秒千亿浮点运算(GFLOPs)。
参数(Params):参数数量取决于模型的复杂性,这控制了模型的性能以及训练所需的计算资源。参数数量越高,模型越复杂。这会导致更好的性能,但同时也需要分配更多的计算资源。在实时检测中,平衡参数数量与推理计算成本至关重要。
每秒十亿浮点运算(GFLOPs):GFLOPs是一种度量方法,用于衡量模型每秒执行的十亿个浮点运算,并用于评估模型在硬件系统上的复杂性和处理速度。在实时检测任务中,GFLOPs较低的模型更适合快速执行,尽管更高的GFLOPs可以在增加计算复杂性的代价下提高准确性。
帧每秒(FPS):在实时目标检测任务中,FPS 指标是理想的,因为它衡量了模型每秒处理图像的速度。它由模型复杂性和硬件控制。它通常以毫秒为单位测量推理时间的反比。具有更高 FPS 的模型在实时应用中更受欢迎,因为它可以更高效地处理更多的帧,确保更快的检测或处理。
精确率(P)、召回率(R)和平均精确率(mAP):精确率衡量模型做出的正预测中真实正预测的比例,表示正预测的准确性。另一方面,召回率评估模型在定位真实阳性样本方面的敏感性。这些指标结合计算平均精确率(mAP),它提供了一个总体衡量模型在检测重叠阈值为0.5的绝缘缺陷方面的性能。更高的mAP分数表示在检测缺陷方面性能更好。
正如之前所提到的,作者使用具有320和640分辨率输入图像大小的训练集来训练作者的模型,然后将其在输入大小为3008的高分辨率测试集上进行性能测试。这一实验旨在展示作者提出的YOLOv8+ELA模型在高压电极片缺陷检测方面,相较于其他基于注意力的YOLOv8模型(如YOLOv8+ECA,YOLOv8+MLCA,YOLOv8+CA和YOLOv8+CBAM),在低分辨率输入图像上的训练下,在高分辨率图像上的优越性能。
与其他模型类似,YOLOv8中的注意力模块也被集成到YOLOv8的 Neck 部分。如表3所示,当使用640输入尺寸进行训练时,基于注意力的模型的性能总体上有所提高,与使用320输入尺寸相比。例如,YOLOv8+ECA在320和640输入尺寸下分别实现了mAP0.5为84.7%和95.6%。YOLOv8+MLCA进一步提升了性能,在相同的输入尺寸下,达到了mAP0.5为84.9%和96.9%。在诸如精确度和召回率等其他指标方面,当训练图像尺寸为640时,YOLOv8+ECA和YOLOv8+MLCA的测试精确度得分相同,320训练图像尺寸下的测试召回率也是如此。然而,YOLOv8+MLCA在FLOPs上增加了0.2G,导致检测速度减少了4.02 FPS。
Xu和Wan(2024年)的工作强调了ELA在改进CA和CBAM模块方面的优势。这种改进在绝缘子缺陷检测中尤为明显,当YOLOv8+ELA在输入尺寸为320和640时分别取得了最佳测试mAP0.5分数89%和96.9%——与YOLOv8+CA和YOLOv8+CBAM模型相比,平均提高了3.3%和0.6%。尽管YOLOv8+MLCA和提出的YOLOv8+ELA模型在输入尺寸为640时训练时取得了相同的mAP0.5分数96.9%,但YOLOv8+ELA展示了更高的精确度值100%,表明其对真实阳性检测的优越敏感性。虽然YOLOv8+CA和YOLOv8+CBAM模型平均比YOLOv8+ELA多0.28M个可学习参数,但它们在所有指标上都无法超越YOLOv8+ELA的速度和准确性。值得注意的是,尽管在较大的输入尺寸上训练会增加训练时间,但由于所有模型使用相同的高分辨率测试图像大小,因此推理时间保持一致。此外,测试集上的不同训练图像尺寸并未影响模型在测试集上的参数、FPS和GLOPs。
这项工作旨在通过将ELA块集成到YOLOv8模型的 Neck 分,并用SIoU损失替换标准函数,来提高 Baseline 模型。为了评估这两种增强策略的有效性,作者进行了消融实验,使用相同的模型配置设置、实验设置和数据条件。这些实验表明了每个改进对模型性能的影响。
图4展示了YOLOv8+ELA在SIoU和CIoU损失函数下的训练损失曲线对比。从视觉分析来看,随着迭代次数的增加,训练损失逐渐减小,表明模型正在调整其权重和参数以适应绝缘体数据集。模型在第五个epoch开始收敛,并在整个训练过程中持续减小。值得注意的是,使用SIoU损失函数的模型初始损失显著低于CIoU,在最后一个epoch时,SIoU损失仍然保持一致较低。这种降低的损失导致模型优化整体提升。
此外,提出的YOLOv8模型与ELA模块相比,在所有训练输入尺寸上均优于原始YOLOv8模型。如表4所示,YOLOv8+ELA模型的mAP在训练输入尺寸为320和640时,分别提高了14.5%和10.9%。尽管参数数量和FLOPs从11.13M增加到11.14M,从28.4G增加到28.5G,但YOLOv8+ELA模型仍能实现最高74.63 FPS的处理速度,相较于原始YOLOv8模型提高了0.56 FPS。这表明所提出的模型在实时部署中表现更好,既提高了速度,也提高了准确性。
图5显示了使用GradCAM(梯度加权类激活映射;Selvaraju等人,2017年)生成的 Baseline YOLOv8和YOLOv8+ELA模型的热力图。可以看出, Baseline 模型在更深层(更接近输出层)时,专门关注有缺陷的绝缘体的特征和一些背景特征。然而,与YOLOv8+ELA相比,由于其能够只学习与有缺陷的绝缘体相关的特征,背景干扰完全被消除。这个过程突显了所提出的模型从背景特征和良好绝缘体到电力传输线中的有缺陷的绝缘体的注意力的改进。
如图6所示,YOLOv8+ELA在复杂背景条件下呈现了一些检测结果。图像中包括各种物体,如树木、塔检查行人、道路网络、汽车和房屋等。此外,无人机距离塔较远,导致绝缘子物体在图像中变得很小,这使得检测更具挑战性。尽管存在这些困难,YOLOv8+ELA仍然成功检测到了所有有缺陷的绝缘子,置信度高达80%。
[0]. YOLO-ELA: Efficient Local Attention Modeling for High-Performance Real-Time Insulator Defect Detection.