Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >一文看懂目标检测边界框概率分布

一文看懂目标检测边界框概率分布

作者头像
狼啸风云
修改于 2022-09-02 12:59:13
修改于 2022-09-02 12:59:13
1.8K0
举报

众所周知,CNN的有监督学习通常是建立在给定训练数据集之上的,数据集的标签(也称为GT),决定了人类期望模型学习的样子。它通过损失函数、优化器等与CNN模型相连。因而机器所表现的出的一切有关识别、定位的能力,均是合理优化的结果。同样地,如何能够玩转目标检测?其实只需能够玩转最优化即可。

在最近两年内,出现了一些有关目标检测bounding box概率分布建模的文章,如Softer-NMS (CVPR 2019),Gaussian YOLOv3 (ICCV 2019),An Alternative Probabilistic Interpretation of the Huber Loss (Arxiv 2019.11),Generalized Focal Loss (Arxiv 2020.06),本文将主要通过以上四篇文章进行阐述。

目标检测的概率分布建模,首次出现于Softer-NMS (to my best knowledge),其文章主旨基于一个最基本的观察:bounding box标签存在模棱两可的区域。所谓模棱两可的区域正如上图的火车,它的左、上、下边界都是较为确定的,而右边界却是模棱两可的,因为它包含了一些非目标区域。可以说,对于右边界而言,往左偏移一点与往右偏移一点都是可接受的,这就是它的模糊性。

接下来再考察我们的bounding box regression模块,模型的监督信息只有四个值x,y,w,h (中心点坐标与宽高),或者x1,y1,x2,y2(左上角点与右下角点坐标),亦或者t,b,l,r (采样点到上下左右四条边的距离)。而所选用的损失函数,通常为Ln范数损失,如L1,L2,Smooth L1损失,或者基于IoU的损失。

关于目标检测box回归损失函数,可以参考目标检测回归损失函数简介:SmoothL1/IoU/GIoU/DIoU/CIoU Loss

然而以上这些损失函数均以模型预测值GT值比较作为反向传播的依据,这缺乏了对数据标签不确定性的估计。如果我们能够得到一个box的定位不确定程度,则我们可以加以利用以提升模型的精度。

常用的一些手段包括:

惩罚分类得分 (Mask Scoring R-CNN CVPR 2019, Gaussian YOLOv3 ICCV 2019, FCOS ICCV 2019, PolarMask CVPR 2020)、加权平均后处理 (Softer-NMS CVPR 2019),引导NMS (IoU-Net ECCV 2018)。

概率建模

传统的box预测只有四个输出值,对于每一个输出值,等同于优化一个狄拉克分布

                                                                       Dirac分布

也即一个在给定区间上积分为1的概率分布,其只在 处有监督信号,而在其余地方没有监督。

为了引入box的不确定性估计,Softer-NMS与Gaussian YOLOv3均采取了高斯建模的方法,将模型的预测值由4个变为8个,分别代表四条边的均值与方差,其中方差代表了不确定性的程度。

我们知道高斯分布当方差越大时,分布越为平坦,表明了模型对均值范围内的预测不确定;方差越小时,分布越尖锐,表明模型对均值位置处的置信度越高。

从数学上来看,我们只需要一些衡量两个概率分布相似程度的损失函数,如KL散度,就能够做到用高斯分布去拟合狄拉克分布。

因此,与Softer-NMS和Gaussian YOLOv3不同的是,该文将视线转移到了Huber损失中转折点 的选用是否合适上。经过一系列理论推导,论文得出的结论是,目前的Smooth L1损失中所选用的转折点  是有问题的。

该文将转折点 与不确定度关联起来,得出了如下结果:

1. GT作为人类预测的结果,其不确定度应该比模型预测要小。

2. RPN是粗定位阶段,其不确定度理应比Fast R-CNN精细定位阶段大。

而由目前的Smooth L1的转折点  推导出的不确定性,都违反了以上两个直觉。因此该文后续的改进主要是对 进行调整。

缺点:以上这些概率建模方式,依然没有脱离对box的四个变量独立预测,无法享用目前最新的一些IoU-based损失的好处。

Generalized Focal Loss一文中,研究者尝试建模一个一般的概率分布。

既然狄拉克分布太严格了,缺乏对不确定度的估计,而高斯分布又是一种简化版本,且实际的数据所满足的概率分布应该是任意的,因此一般概率分布的建模也就应运而生。

一般分布的建模,有个直接问题是无法使用较少参数将一个连续且任意的概率分布描述出来,因此必须采取离散法。大致方法是将给定区间分成n个间隔均匀的小区间,网络输出n+1个预测值,分别代表概率。

这些概率都经过了Softmax输出,且满足概率和为1。

按照加权和,即可得到某条边的预测值

论文选用了FCOS作为基础框架,由于FCOS在边界框回归上是采取预测采样点到上、下、左、右四条边的距离,这使得回归目标的长度较为统一,可以很好地在一个固定区间上表示出来。

好处

  1. 一般分布更为灵活,可以更好地应对现实世界的复杂数据。
  2. 可以享受IoU-based损失,而高斯分布无法直接享用。
  3. 一般分布可以预测出双峰型的分布,这或许隐含了一些对数据集模棱两可位置的信息,有可能可以用于进一步数据标签校正。

这里表格的最后一行代表使用了DFL (Distribution Focal Loss),用于额外加强GT所属的小区间端点的学习,加速模型收敛。

参考文献

  • Bounding Box Regression with Uncertainty for Accurate Object Detection. CVPR 2019
  • Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving. ICCV 2019
  • An Alternative Probabilistic Interpretation of the Huber Loss. Arxiv 2019.11
  • Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection. Arxiv 2020.06
  • Acquisition of Localization Confidence for Accurate Object Detection. ECCV 2018
  • Mask Scoring R-CNN. CVPR 2019
  • FCOS: Fully Convolutional One-Stage Object Detection. ICCV 2019
  • PolarMask: Single Shot Instance Segmentation with Polar Representation. CVPR 2020
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/07/22 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一文打尽目标检测NMS | 精度提升篇
众所周知,非极大值抑制NMS是目标检测常用的后处理算法,用于剔除冗余检测框,本文将对可以提升精度的各种NMS方法及其变体进行阶段性总结。
AI算法与图像处理
2020/07/09
2.5K0
一文打尽目标检测NMS | 精度提升篇
高斯YoloV3目标检测(文中供源码链接)
在目标检测中,实时性和精确性的trade-off至关重要,YOLOv3是目前为止在这方面做得比较好的算法。通过高斯分布的特性,改进YOLOv3使得网络能够输出每个检测框的不确定性,从而提升了网络的精度。
计算机视觉研究院
2020/07/16
6720
高斯YoloV3目标检测(文中供源码链接)
目标检测算法之ICCV2019 Gaussian YOLOv3
关于YOLOv3可以看一下我前面的推文讲解:YOLOV3点这里 。前面提到过,YOLOv3在实时性和精确性都是做的比较好的,并在工业界被广泛应用。当前的目标检测算法,大都在网络结构,Anchor,IOU上做了大量的文章,而在检测框的可靠性上做文章的却非常少。所以,Gaussian YOLOv3它来了。论文地址为:点这里 。并且作者也开放了源码,地址为:点这里。所以本文就带大家来学习一下这个算法。
BBuf
2019/12/11
1K0
目标检测算法之ICCV2019 Gaussian YOLOv3
Anchor Free的目标检测方法--FCOS
全卷积的 one-stage目标检测器(FCOS),对每个像素进行预测的方式来解决目标检测问题,类似于语义分割。FCOS 不需要 anchor box,同时也不需要 proposals,由于消除了对预定义 anchor 的依赖,因此避免了与 anchor box相关的复杂计算,同时还避免了与 anchor相关的所有超参数,例如:尺寸、宽高比、数量等,通常这些参数对最终检测性能非常敏感。FCOS 优于之前的 anchor-based one-stage detectors。
OpenCV学堂
2020/03/18
1.1K0
Anchor Free的目标检测方法--FCOS
目标检测算法之CVPR2019 GIoU Loss
上周介绍了Gaussian YOLOv3以及GHM Loss,这周我们来看看斯坦福大学和澳大利亚阿德莱德大学在CVPR2019发表的《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》,论文的核心就是提出了一个新的Loss,叫做GIOU Loss,论文原文地址见附录。
BBuf
2019/12/24
9410
CVPR 2019:精确目标检测的不确定边界框回归
大规模的目标检测数据集(例如MS-COCO)在进行Ground Truth框标注时仍然存在歧义。这篇论文提出了新的边界框回归损失针对目标框的移动以及位置方差进行学习,这种方法在几乎不增加计算量的基础上提高不同结构定位的准确性。另一个关键点是,由于学习了bounding box的分布,可以将其应用在NMS阶段合并相邻目标框,进一步提升定位的准确性。代码已开源。
AI科技评论
2019/09/17
1.6K0
CVPR 2019:精确目标检测的不确定边界框回归
CVPR 2019 | 旷视提出新型目标检测损失函数:定位更精准
52CV曾经第一时间报道过Softer-NMS:CMU&旷视最新论文提出定位更加精确的目标检测算法,当时引起了不少读者对Softer-NMS的兴趣。
CV君
2019/12/27
1.7K0
Softer-NMS:CMU&旷视最新论文提出定位更加精确的目标检测算法
前天arXiv新上论文《Softer-NMS: Rethinking Bounding Box Regression for Accurate Object Detection》,来自卡内基梅隆大学与旷视科技的研究人员在文中提出了一种新的非极大抑制算法Softer-NMS,显著改进了目标检测的定位精度,代码已经开源,目前Github上的Star已超100,可谓短短两天已经引起了不小的关注。
CV君
2019/12/27
8700
Softer-NMS:CMU&旷视最新论文提出定位更加精确的目标检测算法
真Anchor Free目标检测----CenterNet详解
最近anchor free的目标检测方法很多,尤其是centernet,在我心中是真正的anchor free + nms free方法,这篇centernet对应的是"Objects as Points",不是另外一篇"CenterNet- Keypoint Triplets for Object Detection"。作者xinyi zhou也是之前ExtremeNet的作者。
SIGAI学习与实践平台
2019/07/10
9.6K0
不需要锚框:一种全卷积 One-Stage 目标检测算法(FCOS)
本文来源于 ICCV-19 上发表的一种新的目标检测技术 FCOS :全卷积 One-Stage 目标检测算法。该算法提出了一种非常直观和简单的方法来解决目标检测问题,本篇文章是对该算法的总结。
deephub
2020/05/09
1.7K0
不需要锚框:一种全卷积 One-Stage 目标检测算法(FCOS)
GWD:基于高斯Wasserstein距离的旋转目标检测 | ICML 2021
论文: Rethinking Rotated Object Detection with Gaussian Wasserstein Distance Loss
VincentLee
2022/06/29
1.5K0
GWD:基于高斯Wasserstein距离的旋转目标检测 | ICML 2021
Yes, PP-YOLOE!80.73mAP、38.5mAP,旋转框、小目标检测能力双SOTA!
上个月,百度飞桨团队开源了其最新SOTA通用检测模型——PP-YOLOE+,COCO数据集精度达54.7mAP,其l版本相比YOLOv7精度提升1.9%,V100端到端(包含前后处理)推理速度达42.2FPS,文章回顾请戳:
用户1386409
2022/11/29
1.6K0
Yes, PP-YOLOE!80.73mAP、38.5mAP,旋转框、小目标检测能力双SOTA!
【目标检测系列】非极大值抑制(NMS)的各类变体汇总
所以本文针对目标检测中的NMS作进一步研究,基本的NMS方法,利用得分高的边框抑制得分低且重叠程度高的边框。NMS方法虽然简单有效,但在更高的目标检测需求下,也存在如下缺点:
深度学习技术前沿公众号博主
2020/06/19
3.2K0
【目标检测系列】非极大值抑制(NMS)的各类变体汇总
[Intensive Reading]目标检测(object detection)系列(十三)CenterNet:no Anchor,no NMS
目标检测系列: 目标检测(object detection)系列(一) R-CNN:CNN目标检测的开山之作 目标检测(object detection)系列(二) SPP-Net:让卷积计算可以共享 目标检测(object detection)系列(三) Fast R-CNN:end-to-end的愉快训练 目标检测(object detection)系列(四) Faster R-CNN:有RPN的Fast R-CNN 目标检测(object detection)系列(五) YOLO:目标检测的另一种打开方式 目标检测(object detection)系列(六) SSD:兼顾效率和准确性 目标检测(object detection)系列(七) R-FCN:位置敏感的Faster R-CNN 目标检测(object detection)系列(八) YOLOv2:更好,更快,更强 目标检测(object detection)系列(九) YOLOv3:取百家所长成一家之言 目标检测(object detection)系列(十) FPN:用特征金字塔引入多尺度 目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作 目标检测(object detection)系列(十二) CornerNet:anchor free的开端 目标检测(object detection)系列(十三) CenterNet:no Anchor,no NMS 目标检测(object detection)系列(十四) FCOS:用图像分割处理目标检测
chaibubble
2021/11/17
5600
[Intensive Reading]目标检测(object detection)系列(十三)CenterNet:no Anchor,no NMS
Anchor-free目标检测 | 工业应用更友好的新网络(附大量相关论文下载)
随着 CVPR 2020和ICCV 2020的结束,一大批目标检测的论文在arXiv上争先恐后地露面,更多的论文都可以直接下载。
计算机视觉研究院
2020/12/29
9890
Anchor-free目标检测 | 工业应用更友好的新网络(附大量相关论文下载)
【深度学习】目标检测
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
杨丝儿
2022/03/01
2.8K0
【深度学习】目标检测
[Intensive Reading]目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作
目标检测系列: 目标检测(object detection)系列(一) R-CNN:CNN目标检测的开山之作 目标检测(object detection)系列(二) SPP-Net:让卷积计算可以共享 目标检测(object detection)系列(三) Fast R-CNN:end-to-end的愉快训练 目标检测(object detection)系列(四) Faster R-CNN:有RPN的Fast R-CNN 目标检测(object detection)系列(五) YOLO:目标检测的另一种打开方式 目标检测(object detection)系列(六) SSD:兼顾效率和准确性 目标检测(object detection)系列(七) R-FCN:位置敏感的Faster R-CNN 目标检测(object detection)系列(八) YOLOv2:更好,更快,更强 目标检测(object detection)系列(九) YOLOv3:取百家所长成一家之言 目标检测(object detection)系列(十) FPN:用特征金字塔引入多尺度 目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作 目标检测(object detection)系列(十二) CornerNet:anchor free的开端 目标检测(object detection)系列(十三) CenterNet:no Anchor,no NMS 目标检测(object detection)系列(十四)FCOS:用图像分割处理目标检测
chaibubble
2022/05/10
3720
[Intensive Reading]目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作
目标检测最新总结与前沿展望
从 2006 年以来,在 Hilton、Bengio、LeChun 等人的引领下,大量深度神经网络的论文被发表,尤其是 2012 年,Hinton课题组首次参加 ImageNet图像识别比赛,其通过构建的 CNN 网络AlexNet[1]一举夺得冠军,从此神经网络开始受到广泛的关注。深度学习利用多层计算模型来学习抽象的数据表示,能够发现大数据中的复杂结构,目前,这项技术已成功地应用在包括计算机视觉领域在内的多种模式分类问题上。计算机视觉对于目标运动的分析可以大致分为三个层次:运动分割,目标检测;目标跟踪;动作识别,行为描述[2]。其中,目标检测既是计算机视觉领域要解决的基础任务之一,同时它也是视频监控技术的基本任务。由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性,同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性,而且目标检测算法的结果将直接影响后续的跟踪、动作识别和行为描述的效果。故即使在技术发展的今天,目标检测这一基本任务仍然是非常具有挑战性的课题,存在很大的提升潜力和空间。
SIGAI学习与实践平台
2018/10/12
5K0
目标检测最新总结与前沿展望
十二篇基于Anchor free的目标检测方法
1、UnitBox: An Advanced Object Detection Network
狼啸风云
2020/06/02
2.1K0
十二篇基于Anchor free的目标检测方法
一文总结目标检测
如有排版问题,可知乎查看:zhihu.com/column/c_1255545721723191296
枫桦
2022/08/02
8371
一文总结目标检测
推荐阅读
相关推荐
一文打尽目标检测NMS | 精度提升篇
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文