前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Semi-supervised learning-based satellite remote sensing object detection method for power transmissi

Semi-supervised learning-based satellite remote sensing object detection method for power transmissi

作者头像
狼啸风云
发布2023-10-07 15:18:42
1560
发布2023-10-07 15:18:42
举报

摘要

 众所周知,随着电网的日益复杂,传统的输电塔人工测量方法已经失效,无法满足安全稳定运行的要求。尽管卫星遥感技术的发展为输电塔的高效稳定测量提供了新的前景,但仍有许多问题需要解决。由于恶劣的气候和成像设备的限制,遥感图像中的一些输电塔目标是模糊的,这使得生成数据集和实现高精度输电塔目标检测变得极其困难。为了进一步提高发射塔的检测精度,首次将基于暗通道先验的图像增强算法应用于遥感图像,提高了图像的可解释性。然后,考虑到增强图像中仍有一些传输塔无法手动标记,采用了一种基于伪标记的半监督学习方法来最大限度地利用现有数据。基于这一高质量的数据集,利用移动倒瓶颈卷积和可变形卷积构建了一个传输塔卫星遥感目标检测模型。最后,根据我国某地区的卫星遥感图像数据集进行了烧蚀和对比实验。实验结果表明,图像增强和半监督学习方法都能提高检测精度,与现有主流模型相比,该方法性能更好。

1、介绍

 在输电走廊监测中,输电塔是电力设施的重点检测对象之一。同时,为了获得更多关于电力塔的详细信息,输电塔的位置和类型应首先确定。遥感技术可以快速获取一定区域内包含输电塔的大量图像,满足输电塔快速监测的需求。因此,越来越多的研究人员开始关注遥感图像中输电塔目标的检测问题。然而,由于遥感图像的成像特性和发射塔的稀疏结构,检测精度仍然不令人满意。差异主要存在于以下两个方面:构建高质量的遥感传输塔目标检测数据集和构建高精度的检测模型。

 遥感图像可以通过无人机和卫星获取。在工作[1]中,基于无人机发射塔的正面图像,利用Canny边缘检测和Hough变换提取图像特征,并利用提取的几何信息对发射塔进行检测。在工作[2]中,根据塔架的笼式结构和线性特征实现了输电塔架的检测。与卫星遥感相比,无人机遥感数据采集的广度和深度并不相同。因此,迫切需要研究卫星遥感图像中发射塔目标的检测方法。针对这一问题,混合极化合成孔径雷达(SAR)数据已被用于工作。然而,这些基于传统图像处理方法的检测模型在不同场景下的泛化性能较差。随着人工智能的发展,深度学习方法在从遥感图像中检测塔架方面的有效性已经得到证明[4]。通过使用You Only Look Once v2(YOLOv2),工作[5]在高分辨率SAR图像中识别了发射塔。然而,上述结果都集中在检测物体是否是发射塔上。无法获得更多信息,如输电塔的类型,这很难应对更多样的监测场景。为了更好地满足电力监测的要求,需要研究输电塔类型的识别方法。在工作[6]中,Faster R-CNN和YOLOv3已被用于检测和分类无人机获取的图像中的输电塔物体。

 与无人机遥感正面获取输电塔图像不同,卫星遥感获取的是输电塔的俯视图,这使得很难检测其类型。因此,在传输塔的卫星遥感目标分类问题中,经常使用传输塔的阴影。由于气候、地表环境、拍摄时间和角度的影响,输电塔阴影的大小、变形和清晰度都有很大差异。这可能会导致几个问题,即同一类型输电塔的影子特征非常不同,不同输电塔的阴影特征非常相似。同时,在山脊和山谷等复杂景观中,输电塔和后阳坡上的输电塔阴影很难区分。总之,手动破译卫星遥感图像中的各种发射塔是困难的[7],这使得构建数据集和训练检测模型变得困难。为了获得高质量的数据集,在数据采集和数据解释方面做出了许多努力,并取得了显著的成果。在工作[8]中,可以通过构建包含遥感图像数据、加速度计数据和GPS数据的多源数据集来实现复杂场景中的应用。通常,可以通过诸如去雾和色彩均衡之类的图像增强操作来降低解释的难度。通常,可以通过图像增强操作(如去雾和颜色均衡)来减少解释的困难。针对图像判读过程中标签噪声影响模型训练的问题,李等人[9]介绍了一种人工标注成本最小的优化方法。通过使用基于噪声的低分辨率标签训练深度语义分割网络,实现了高精度的水检测。

本研究的目的是检测卫星遥感图像中不同类型的发射塔。一方面,通过研究卫星遥感图像的特征,提高了该模型在图像增强方面的检测性能;另一方面,半监督学习方法充分利用有限的数据来提高模型的性能。以下是主要贡献

在本文中:

•采用基于暗通道先验的图像增强方法对图像进行预处理。

•采用一种致力于伪标记的半监督学习方法,解决了一些图像无法手动标记的问题,构建了一个高质量的数据集。

•针对卫星遥感图像中的发射塔,提出了一种基于可变形卷积的目标检测模型。

2、相关工作

2.1、图像增强

 图像的采集、生成、压缩、存储和转换过程自然会受到各种条件的影响,如天气、照明条件、图像亮度的细微变化,以及设备质量、参数设置和人员操作。恶劣的条件可能会在一定程度上损害图像质量。图像增强算法用于增强图像的详细表示,以适应人眼的视觉特征,并使其易于被机器识别。近年来,图像增强算法已被开发用于多种应用,从遥感成像到医学成像再到电影和电视摄影等,共分为两大类。一种是频域图像增强方法,包括同态滤波[10]、小波变换[11]等。其基本思想是应用傅立叶变换将图像进行频域处理,然后采用逆变换来达到图像增强的目的。另一种是空间域图像增强算法,如直方图均衡[12]和基于Retinex的增强算法[13],它直接改变和映射图像像素的灰度。

2.2、半监督学习

 根据训练数据集的标签,它们可以分为监督学习、半监督学习、弱标记学习和弱标记半监督学习。20世纪90年代,一些研究人员开始在训练分类器时使用未标记样本来提高分类器的性能,但直到2000年之后,半监督学习才逐渐形成了一个相对独立的理论和算法体系。2013年,李东贤提出了伪标签,继承了自训练的思想。首先,用已有的标记样本训练具有一定精度的初始分类器,然后用分类器预测未标记样本并生成伪标签。最后,用伪标签将标记样本与未标记样本一起训练,并计算交叉熵来评估误差大小。Luo等人提出的伪学习框架针对高光谱图像的分类问题,极大地提高了网络的泛化能力。自2016年以来,出现了关于一致性规则性使用的论文,如π模型和时态集合模型[16]、虚拟对抗训练(VAT)算法、均值-教师算法、谷歌团队的MixMatch等。上述所有方法都遵循一致性规则原则,即使有一些扰动,系统对输入的预测也应该是一致的。还有一些基于机器学习的半监督技术,如半监督支持向量机、协作训练、图论半监督学习等。然而,上述研究都是针对分类领域的半监督方法,而针对对象检测领域的半监管方法研究较少。

2.3、通用目标检测网络

 基于深度学习的卷积神经网络的进步显著提高了图像对象检测的能力。研究人员提出了许多经典的基于卷积神经网络的目标检测方法。根据检测阶段的数量,它们可以分为两阶段和一阶段方法。两阶段检测方法主要集中在区域方案上,如R-CNN[20]及其变体Fast R-CNN[21]、Faster R-CNN[22]、Cascade R-CNN[23]和基于区域的全卷积网络(R-FCN)。对于两阶段方法,在第一阶段,通过选择性搜索或区域建议网络从输入图像生成多个感兴趣的区域,然后在第二阶段,这些区域特征对于确定目标类别和重构水平边界框是有用的。例如,Cascade R-CNN在基于区域的检测器的第二阶段中被更加模糊地调谐,以实现对目标分类和定位的更精确的预测。基于锚的方法和无锚的方法可以在不需要预偏置锚的情况下进行分类。其中,基于锚的方法包括前面提到的R-CNN家族、YOLOv1到YOLOv5模型、SSD[25]和RetinaNet[26]。然而,由于锚太多,这些算法在计算上很复杂,并且它们引入的大量超参数会影响模型性能。为了解决这些问题,相继提出了无锚检测算法,如CornerNet、CenterNet、FCOS等算法。

3、方法

 考虑到卫星遥感图像成像较差的问题,本节旨在从提高数据集质量和检测模型精度两个方面提出输电塔目标检测方法。首先,采用基于暗通道先验的图像增强方法对遥感图像进行预处理。预处理后的图像具有较好的可视化效果,有利于后续的人工判读。然后,采用基于伪标记的半监督学习方法来处理这些差异,以解释图像,并构建高质量的遥感数据集。最后,利用逆卷积瓶颈卷积和可变形卷积,建立了一个高精度的输电塔卫星遥感目标检测模型。

3.1、使用暗通道先验进行图像增强

 考虑到基于暗通道先验理论的图像增强方法在增强效果和计算效率方面具有显著优势,本文将其用于遥感图像的增强。通过计算大量无雾图像,我们知道非天空区域或非白色区域中的一些像素的灰度值非常低,至少有一个颜色通道。暗通道

可以表示为

,其中

表示无雾图像,图像包含三个通道r、g、b。

表示

的c通道,k表示图像的像素点,

表示以k为中心的局部窗口。

 实际的图像成像模型可以描述为I(x)=t(x)·J(x)+(1−t(x))A。其中,I(x)表示观测到的雾图像,J(x)指示增强的高质量图像,A表示通用大气光,t(x)描述在物体排除大气散射影响后物体成像的传输率。根据该模型,对于给定的图像I(x),可以通过评估a,t(x)来获得增强图像J(x)。

 评估A的方法有很多。在本文中,我们首先取

中最亮像素点的0.1%;然后找到与原始彩色图像相对应的像素点的这些位置;最后,对于原始彩色图像的每个通道,找到这些位置中的最亮点,作为相应通道的相应大气光强度的估计。

  目前,给定雾图像I,可以直接从其暗通道估计a,并且还需要估计t(x)。从实际的图像成像模型中,通过取其暗通道,然后确定局部最小值,可以近似t(x)·J(x)=0,得到I(x)=(1−t(x))A。在已知A和I(x)的情况下,可以直接找到t(x),即

  通过假设局部空气是均匀的,t(x)在局部区域

中是相同的,并且三个通道是一致的,等式(1)可以重写为:

 根据暗通道假设,可以使方程(2)右侧的第一项为0。然后,以点k为中心的本地窗口

的传输速率

可以计算为:

  因此,获得了整个图像的传输速率t。在已知I(x)、A、t(x)的情况下,无雾图像J(x)可以通过以下等式计算:

 3.2、基于伪标签的半监督学习

  一般来说,半监督学习适用于有许多未标记样本和相对较少标记样本的场景。通过用少量样本训练一个模型来实现对大量未标记样本的自动标记,以降低数据标记的成本。然而,在这项研究中,大多数数据已经被手动标记,但仍有一些数据相对模糊,无法手动给出非常明确的标签。直接消除这种模糊的数据将导致数据集缺乏多样性,并且训练模型可能会错过模糊的目标。如果标签仅仅基于人类的主观感知,就会引入许多错误的数据标签,这可能会误导模型的学习。因此,利用伪标记的半监督学习算法来解决这个问题。如图6所示,1,用于监督学习的数据集是手动标记的,用于半监督学习的一个数据集包含未标记的样本,而用于弱标签学习方法的数据集包含更多位置或类别不太清楚的模糊标签。

 3.3、 基于可变形卷积的输电铁塔目标检测模型

目标检测模型有四个主要组成部分:主干网络、颈部网络、回归网络和分类网络。其中,主干用于推导不同尺度的主干特征,颈用于特征融合以增强特征的语义表示,回归和分类网络分别用于获得对象的位置和对应的类别。本文使用不同数量的移动反向瓶颈卷积(MBConv)模块来构建主干,以获得不同大小的特征层。在图3中,MBConv是具有深度可分离卷积的反向线性瓶颈层,其中Conv1×1表示卷积核大小为1的卷积,DWConv3×3表示卷积核尺寸为3的深度可分离卷。对于输入

,首先通过Conv1×1扩展通道数量以增强特征表示,然后通过DWConv3×3扩展通道数量,这两个扩展之前都有批量归一化(BN)过程和一个swish激活操作。最后,对另一个1×1卷积后的输入进行残差连接操作。

需要注意的是,在堆叠MBConv时,需要根据要输出的特征来调整最后一个MBConv块的参数,并且由于获得了不同大小的特征层,所以不需要最后一层进行残差级联。与传统卷积不同,可变形卷积可以动态改变卷积核的采样位置,以获得更具攻击性的感知ffeld,从而对不同形状的物体具有更大的特征提取能力。可变形卷积的结构如图4所示。通过在双向特征金字塔网络(BiFPN)结构中用可变形卷积[32]代替传统卷积,获得了可变形双向特征金字塔网(DBiFPN)。Neck总共堆叠了4个DBiFPN层。回归和分类网络由卷积层和全连通层组成,然后对输出进行非极大值抑制,以获得最终的预测结果。

 4、实验和结果

 基于上一节中提出的方法和模型,本小节给出了具体的实验程序和结果。首先,给出了用于评估的数据集和指标。接下来,为了证明基于暗通道先验的图像增强方法和基于伪标签的半监督学习方法的有效性,分别对这两种方法进行了烧蚀实验。最后,与其他经典模型相比,在输电塔上进一步验证了所提出的远程目标检测方法的先进性。

 4.1、数据集

 在本研究中,共有1000幅600×600大小的遥感图像,其中包含四个典型的输电塔对象,如图5所示。1号塔、2号塔、3号塔和4号塔的数量分别为802、399、177和130。首先,采用基于暗通道先验的图像增强算法对所有图像进行处理,提高了人眼的视觉可见度,减少了人工标注的难度。然后,根据预处理后的图像,可以通过手动标记标签来构建监督学习数据集。训练集、验证集和测试集的比例为6:2:2。然而,44个图像中的输电塔目标过于模糊,无法通过类型和标记位置手动识别。如果它们被任意标记,就会给数据集引入噪声,并干扰训练效果。如果排除这部分数据,则数据集中的样本缺乏多样性,并且模型往往被过度填充。因此,介绍了利用伪标记的半监督学习方法来解决这一问题,并通过烧蚀实验证明了该方法的有效性。

 4.2、评估指数

 本文使用COCO准则来计算平均精度。首先,有必要给出Precision和Recall的定义,可以用以下方程给出:

  其中TP、FP和FN分别表示真阳性预测数、假阳性预测数和假阴性预测数。精度取决于并集上的交集(IoU),即实际位置边界和预测位置边界之间的重叠面积和并集面积的比率。该比率用于测量预测结果与真实位置的匹配程度。如果IoU大于给定阈值,则它被分类为真阳性,而低于给定阈值的IoU被分类为假阳性。对于未命中的目标,它们被称为假阴性。Precision测量预测结果中正确预测目标的比例,Recall测量正确预测目标与所有真实目标的比例。然后,为每个类别计算AP(平均精度)值,该值表示该类别的平均精度:

  式中,P R分别表示准确度和召回率。P(R)表示精确度-召回曲线。

 最后,对所有类别的AP值进行平均,得到mAP,即

。此外,准确度指数是模型性能的更直观指示,计算如下

 其中,TN表示真实负面预测的数量。在这种情况下,TN是指被正确检测为背景的背景对象的数量。由于真实标签中没有背景对象,因此TN的值为零。

 本文中的目标检测模型是使用Pytorch深度学习框架实现的。框架版本为1.7.1,Cuda版本为10.2。使用ubuntu 16.04.2的服务器对模型进行训练和验证。该服务器配备了一个Intel I Xeon I E5-2630 CPU和两个Nvidia 1080Ti图形处理器。每个图形处理器都有11 GB的图形内存。用于模型训练的优化器是Adam,并且采用了动态调整学习率的训练策略。当验证集的损失没有连续两次减少时,学习率减半。为了提高训练效率并保证模型的性能,我们使用了迁移学习方法,通过使用在COCO2017数据集上训练的预训练权重来初始化模型。训练轮数为150轮。在前50轮中,批量大小设置为64,学习率初始化为0.001,衰落系数设置为0.0005。此外,骨干网络的参数被冻结,并且只有模型的其余部分的参数被更新。在最后100轮中,批量大小设置为16,学习率初始化为0.001,衰落系数为0.0005。所有参数都被解冻,并且模型训练最终完成。训练过程中使用的损失函数由两部分组成:焦点损失和平滑L1损失。由于本研究中使用的数据集中来自不同类别的样本数量不一致,因此选择焦点损失作为分类损失。光滑的L1函数被用于计算定位损失,它具有收敛快、训练更稳定、对异常值和异常值不敏感的优点。总损失如下所示:

 其中N是指与标签框相匹配的锚框的数量。如果N=0,则损失被设置为0。α用于调整分类损失和位置损失的比例,默认为α=1。x表示输入图像,c表示预测类别的一致性,l是预测框,g是标签框。

 训练集和验证集从第二次到第150次的损失曲线如图所示。6。我们可以从图中看到,在epoch 50中,训练集和验证集的损失都增加了。在100个时期之后,训练集和验证集上的损失已经稳定下来。

4.4、消融研究

 根据上述实现过程,即图像增强后采用半监督方法,可以得到输电塔检测模型。相应的实验结果如表1所示。最终获得的模型的mAP得分高达58.15%,而没有这些方法的模型仅为56.94%。尽管mAP得分仅增加了1.21%,但它仍然显示出同时使用图像增强和半监测方法的有效性。然后,为了分别验证图像增强和半监督学习的有用性,进行了消融实验,每次只使用一种方法,然后将其与没有相应方法的实验进行比较。

 4.4.1、图像增强实验

一般来说,对于图像相关的研究,我们首先考虑对图像进行一些增强操作,以确保后续研究的质量。本文采用了基于暗通道先验的图像增强算法,并进行了相应的烧蚀实验。具体而言,数据集是在原始图像的基础上通过半监督学习构建的,评估指标显示在表1的第二行。我们可以看到,mAP评分从57.38%提高到58.15%。然而AP@0.5根据mAP的定义,这意味着在添加图像增强后,当IoU阈值的值增加时,AP值变得更大,即模型在定位方面表现得更好。 图7是增强操作前后一些检测结果的比较,其中红色框显示检测结果,蓝色框显示真实标签。从比较结果可以清楚地看出,增强后的图像给出了更好的视觉结果,同时,就预测框与真实框之间的匹配程度而言,检测位置精度更高。具体而言,在图7(a)中,增强图像中输电塔的阴影与背景之间的对比度更强,塔阴影的细节更清晰。从预测结果来看,增强后可以更准确地定位不完整的塔影。例如,在图7(b)中,在使用图像增强后,可以再次检测到原始图像中遗漏的输电塔阴影。因此,图像增强不仅可以提高图像的可视化程度,减少解释的困难,而且可以有效地用于输电塔的目标检测。

 4.4.2、半监督实验

为了最大限度地利用可用数据来建立更好的模型,首先应用监督学习数据集来训练模型,在此基础上预测没有标签的图像的伪标签。然后,将伪标记数据和监督学习数据集合并在一起,以产生最终目标检测模型。为了评估半监督学习算法的有用性,我们在图像增强方法后基于数据集进行了消融实验,预测结果的相应评估指标如表1所示。mAP评分从57.03%提高到58.15%AP@0.5得分也从90.85%提高到91.18%。 图图8显示了使用和不使用半监督学习的一些检测结果。应用该方法后,检测结果的一致性大大提高,可以很好地检测到模糊的塔影。例如,对于图8(b)中的残余塔阴影,使用半监督学习训练的模型能够很好地检测目标。因此,使用基于伪标记的半监督学习方法,不仅可以大大减少数据标记的工作量,还可以提高模型的泛化能力。

4.5、比较实验

 为了说明本文提出的模型的优越性,本研究对五种通用目标检测模型进行了比较,实验结果如表2所示。其中,只有Faster-RCNN是两阶段的目标检测模型,其余都是一阶段的目标检测模型。从表2可以看出,所提出的对象检测模型在所有指标上都优于其他通用模型,包括0.88的精度。此外,mAP指数表明,我们提出的模型具有更高的定位精度。

 5、结论

 本文利用图像增强、半监督学习和可变形卷积的思想,提出了一种高精度的目标检测模型,可以从卫星遥感图像中检测不同的发射塔。通过学习框架训练的模型的准确率高达88%。烧蚀实验表明,通过图像增强和半监督学习方法,可以有效地利用有限的数据来提高模型的性能。此外,与目前主流的目标检测模型相比,该模型在输电塔遥感目标分类任务上表现出色。该方法提高了卫星遥感图像中输电塔的检测精度,对电力部门实现电网的精益运行、维护和管理具有重要指导意义。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档