前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >旋转目标检测 | IENet,单阶段Anchor-Free旋转目标检测模型

旋转目标检测 | IENet,单阶段Anchor-Free旋转目标检测模型

作者头像
Justlovesmile
发布2022-09-02 08:53:43
1.6K0
发布2022-09-02 08:53:43
举报
文章被收录于专栏:云+分享云+分享

1. 论文信息

论文标题:《IENet: Interactive Embranchment Network Based One-Stage Anchor Free Detector for Orientational Aerial Object Detection》

论文发表:arxiv 2019 论文链接:https://arxiv.org/pdf/1912.00969

代码语言:javascript
复制
@article{lin2019ienet,
  title={IENet: Interacting embranchment one stage anchor free detector for orientation aerial object detection},
  author={Lin, Youtian and Feng, Pengming and Guan, Jian and Wang, Wenwu and Chambers, Jonathon},
  journal={arXiv preprint arXiv:1912.00969},
  year={2019}
}

2. 归纳总结

Name

Value

标签

#遥感 #目标检测

数据集

DOTA,HRSC2016

目的

两阶段方法计算量大,单阶段方法性能不足

方法

基于自注意力的互动分支

3. 问题背景

作者提到,遥感图像的目标检测任务的难点在于:

  • 和自然图像相比,物体形状相似且可见特征稀少
  • 目标具有不同的旋转角度
  • 具有更多的小目标和密集目标

而目前最好的性能都是两阶段算法实现的,但是两阶段算法通常在第一阶段定位,在第二阶段分类,因此计算量是非常大的,尤其是对旋转目标检测而言,因为Anchor匹配(涉及IoU计算)和RoI特征提取的计算量大。

4. 主要工作

针对上诉问题,作者提出了IENet(interactive embranchment network),其是一个单阶段Anchor-Free旋转目标检测器,其包含如下贡献点:

  • 一个新的geometric transformation(几何变换),用于更好地表示旋转目标框
  • 一个基于自注意力机制的分支交互模块(a branch interactive module with a self-attention mechanism)
  • 一个针对旋转框检测改进的IoU Loss

4.1 模型结构

(1) Baseline模型结构(FCOS-O)

在FCOS的基础上增加了一个独立的角度回归分支(Orientation Regression)

(2) IENet

由于独立的角度分支不能很好的利用位置等信息,因此检测性能下降,基于此IENet提出了基于自注意力机制的分支交互模块即IE(Interactive Embranchment) Module,用于利用分类和位置回归信息。

4.2 旋转框几何变换

IENet使用HBB+几何变换来表征OBB,如下图所示:

4.3 IE Module

IE模块结构图:

在获得了分类和位置回归的特征图F^m后,使用1x1的卷积层和softmax层来构建自注意力模块:

  • 首先利用三个1x1的卷积层f(F^m),g(F^m),h(F^m)将特征映射到三个特征空间
  • f(\cdot)g(\cdot)和并通过softmax层组成注意力图\gamma= softmax(f(F^m)^Tg(F^m)),因此特征图之间的关系为\gamma_{q,p}= \frac{exp(\delta_{pq})}{\sum_{p=1}^{N}exp(\delta_{pq})},其中q,p\in{1,…,N}为注意力图的行号和列号,\delta代表f(F^m)^Tg(F^m)输出的NxN的矩阵
  • 然后,注意图可以用来表示输入特征之间的关系,并对h(\cdot)的起作用,得到\theta=(\theta_1,\theta_2,…,\theta_1,…,\theta_N),且\theta_q=\sum_{p=1}^N\gamma_{q,p}h(f_p^m)
  • 为了保留原始特征信息,最后输出的特征为\mathbb{Y}=\gamma\theta+F^m

4.4 损失函数

总损失为:

L = \frac{1}{N_{pos}}L_{cls}+\frac{\lambda}{N_pos}L_{reg}+\frac{\omega}{N_{pos}}L_{ori}

其中分类损失为Focal Loss损失

位置回归损失为centerness损失加smoothL1

角度回归损失为smoothL1损失

5. 实验结果

DOTA_v1

HRSC2016

同时IENet在推理和训练时的速度上也有优势:

消融实验:

特征可视化:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 论文信息
  • 2. 归纳总结
  • 3. 问题背景
  • 4. 主要工作
    • 4.1 模型结构
      • (1) Baseline模型结构(FCOS-O)
      • (2) IENet
    • 4.2 旋转框几何变换
      • 4.3 IE Module
        • 4.4 损失函数
        • 5. 实验结果
        相关产品与服务
        图像识别
        腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档