首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

IEEE 神经网络顶刊论文分享--无监督目标检测

IEEE 神经网络顶刊论文分享

Enhanced Spatial Feature Learning for Weakly  Supervised Object Detection

公众号介绍

本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态,欢迎各位同学关注、点赞和分享,您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。

动动您的小手指,关注一下吧!

Part.1

摘要

目标检测(WSOD)已经成为一个有效的范例,它只需要类标签训练目标探测器。然而,WSOD检测器容易学习到与局部目标对应的高度判别性特征,而不是与完整目标对应的特征,导致目标定位不精确。为了解决这个问题,专门为WSOD设计骨干网是一个可行的解决方案。然而,重新设计的主干通常需要在大规模的ImageNet上进行预训练,或者从头开始训练,这两种方法都比微调需要更多的时间和计算成本。在本文中,我们探索在不失去原始预训练模型可用性的情况下优化主干。由于池化层总结了邻域特征,因此对空间特征学习至关重要。此外,它没有可学习的参数,所以它的修改不会改变预训练的模型。基于以上分析,我们进一步提出了WSOD的增强空间特征学习(enhanced spatial feature learning, ESFL),该方法首先充分利用单个池化层中的多个核来处理多尺度目标,然后增强矩形邻域内的高于平均水平的激活,以缓解忽略非显著目标部分的问题。在PASCAL VOC和MS COCO基准测试上的实验结果表明,ESFL可以显著提高WSOD方法的性能,并获得最先进的结果。

图1 WSOD中物体定位不精确样本。

Part.2

本文拟解决的问题

1.弱监督目标检测(WSOD)中的不精确目标定位问题:WSOD方法通常只能学习到局部目标的高区分度特征,而无法识别完整的目标,导致目标定位不准确。

2.现有WSOD方法中特征提取的局限性:现有的WSOD方法在特征提取时,由于池化层(如最大池化MaxPool)的限制,无法很好地处理多尺度目标,且容易忽略不显著的目标部分。

3.优化WSOD网络结构的挑战:在不破坏预训练模型的基础上,重新设计WSOD的网络结构,以提升特征提取能力,同时避免增加过多的计算开销。

图2 本文的网络架构

Part.3

创新点

1.提出混合最大池化(MixMaxPool):通过将特征图分组,并在不同组上应用不同尺寸的池化核,MixMaxPool能够同时利用多种尺度的特征,有效处理多尺度目标。这是首次将特征分组的概念引入池化层,且不引入可学习参数,避免了对预训练模型的破坏。

2.提出空间局部增强(SLE):SLE通过增强局部特征,使高响应特征能够覆盖更大的目标区域,从而缓解了忽略不显著目标部分的问题。该方法仅增强高于局部平均值的特征,避免了对背景区域的误增强。

3.提出增强空间特征学习(ESFL):将MixMaxPool和SLE结合,形成一种新的空间特征学习方法,用于优化WSOD中的特征提取过程。该方法在PASCAL VOC和MS COCO基准测试中取得了显著的性能提升,并达到了新的最佳结果。

图3 最大池化描述。

Part.4

方法流程

1. 背景介绍

文章基于一个典型的弱监督目标检测(WSOD)框架——OICR(Online Instance Classifier Refinement)。这个框架包含三个主要部分:

提案特征提取器:输入图像和生成的提案,通过骨干网络提取特征图,再经过空间金字塔池化(SPP)层和全连接(FC)层,生成提案特征向量。

多实例检测网络:将提案特征向量输入到两个分支,分别计算类别概率和提案贡献度,最终得到每个提案的分类得分。

实例分类器细化:通过多轮在线实例分类器细化,逐步提高检测精度。

2. 分析最大池化层的不足

文章指出,传统的最大池化(MaxPool)在处理多尺度目标时存在两个主要问题:

无法处理多尺度目标:MaxPool使用固定尺寸的池化核,难以同时处理不同尺度的目标。

忽略不显著的目标部分:MaxPool只保留局部区域内的最大激活值,容易忽略不显著的目标部分。

3. 混合最大池化(MixMaxPool)

为了解决上述问题,文章提出了混合最大池化(MixMaxPool)。具体步骤如下:

特征图分组:将输入的特征图分成多个组,每组包含部分通道。

多尺度池化:对每个组分别应用不同尺寸的MaxPool操作。例如,第一组使用较小的池化核(如2×2),第二组使用较大的池化核(如4×4)。

特征图拼接:将每个组经过MaxPool后的特征图拼接起来,形成最终的输出特征图。

通过这种方式,MixMaxPool能够同时利用多种尺度的特征,更好地处理多尺度目标,同时避免引入可学习参数,保持了预训练模型的完整性。

图4 混合最大池化。

4. 空间局部增强(SLE)

为了进一步增强特征图中的局部特征,文章提出了空间局部增强(SLE)。具体步骤如下:

计算局部平均值和最大值:对输入的特征图,分别进行平均池化和最大池化操作,得到每个位置的局部平均值和最大值。

增强特征:对于每个位置的特征值,如果它大于局部平均值,则将其替换为局部最大值。这样可以增强特征图中高响应区域的特征,使其覆盖更大的目标部分。

SLE的设计目的是增强不显著的目标部分,避免这些部分被网络忽略。

5. 增强空间特征学习(ESFL)

将MixMaxPool和SLE结合,形成完整的增强空间特征学习(ESFL)流程。具体步骤如下:

输入特征图:将输入的特征图X输入到ESFL模块。

MixMaxPool处理:先通过MixMaxPool对特征图进行多尺度池化,得到初步处理后的特征图。

SLE处理:再通过SLE对初步处理后的特征图进行局部增强,最终输出增强后的特征图Z。

Part.5

实验结果

图5 本文完整模型(右图为一组)与VOC 2007的基线(左图为一组)的比较。

图6 本文算法在VOC2007上失败案例。

表1 量化评估

表2 量化评估

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFRHenNaeAyO5PFOhboZpQIw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券