前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >读论文系列:Object Detection CVPR2016 YOLO

读论文系列:Object Detection CVPR2016 YOLO

作者头像
梦里茶
发布于 2018-04-17 07:18:52
发布于 2018-04-17 07:18:52
1K0
举报
文章被收录于专栏:梦里茶室梦里茶室

CVPR2016: You Only Look Once:Unified, Real-Time Object Detection

转载请注明作者:梦里茶

YOLO,You Only Look Once,摒弃了RCNN系列方法中的region proposal步骤,将detection问题转为一个回归问题

网络结构

  • 输入图片:resize到448x448
  • 整张图片输入卷积神经网络(24层卷积+2层全连接,下面这张示意图是Fast YOLO的)
  • 将图片划分为SxS个格子,S=7
  • 输出一个SxS大小的class probability map,为图片上每个格子所属的分类
  • 输出为每个格子输出B个bounding box,每个bounding box由x,y,w,h表示,为每个bounding box输出一个confidence,即属于前景的置信度

于是输出可以表示为一个SxSx(B*(4+1)+C)的tensor,训练只需要根据数据集准备好这样的tensor进行regression就行

  • 对所有bounding box按照confidence做非极大抑制,得到检测结果

训练

Loss

  • 前两行为定位loss,λcoord为定位loss的权重,论文中取5
  • 第三行为一个bounding box属于前景时的置信度回归loss,
  • 当格子中有对象出现时,真实Ci为1,
  • 1ijobj是一个条件表达式,当bounding box“负责(is responsible for)”图中一个真实对象时为1,否则为0,
  • 所谓“负责”,指的是在当前这个格子的所有bounding box中,这个bounding box与真实的bounding box重叠率最大
  • 第四行为一个bounding box属于背景时的置信度回归loss,
  • 为了避免负样本过多导致模型跑偏, λnoobj=0.5,
  • 1ijnoobj是一个条件表达式,为1ijobj取反
  • 于是我们可以发现一个格子的两个bounding box的分工:一个贡献前景loss,一个贡献背景loss ,不论是前景背景box,我们都希望它们的confidence接近真实confidence,实际上,如果 λnoobj=1, 第四五行可以合并为一项求和,但由于背景box太多,所以才单独拆开加了权重约束
  • 第五行为分类loss,1iobj是一个条件表达式,当有对象出现在这个格子中,取1,否则取0

YOLO里最核心的东西就讲完了,其实可以把YOLO看作固定region proposal的Faster RCNN,于是可以省掉Faster RCNN里region proposal部分,分类和bounding box regression跟Faster RCNN是差不多的

细节

Leaky Relu

网络中只有最后的全连接层用了线性的激活函数,其他层用了leaky Relu:f(x)=max(x, 0.1x)

对比Relu和leaky Relu

在x小于0的时候,用了0.1x,避免使用relu的时候有些单元永远得不到激活(Dead ReLU Problem)

Fast YOLO

卷积层更少,只有9层卷积+2层全连接,每层filters也更少,于是速度更快

实验效果

  • 对比当前最好方法:

Fast YOLO速度最快,准确率不太高,但还是比传统方法好,YOLO则比较中庸,速度不慢,准确率也不太高,但也还行。

  • 再看看具体是在哪些类型的图片上出错的:

主要是定位不准(毕竟没有精细的region proposal),但是在背景上出错较少(不容易把背景当成对象)

缺点

  • 固定的格子是一种很强的空间限制,7x7的格子决定了整张图片最多预测98个对象,对于对象数量很多的图片(比如鸟群)无能为力
  • 难以泛化到其他形状或角度的物体上
  • 损失函数没有考虑不同尺寸物体的error权重,大box权重和小box权重一样

Summary

Anyway,YOLO结构还是挺优雅的,比Faster RCNN黑科技少多了,更重要的是,它是当时最快的深度学习检测模型,也是很值得肯定的。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-04-02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【目标检测系列】个人整理目标检测框架yolo v1深入剖析
faster-RCNN在目标检测精度上已经能够达到一个很高的水准,但是作为RCNN系列的最巅峰,它提出了RPN网络产生推荐性区域,但是它依旧有着一些缺点,这些区域里面有大面积是重合的,影响了计算效率。为了更好地提升目标检测的计算效率,从DPM检测中获得了相关的灵感,于是yolo网络应运而生,现在yolo网络已经有了很多的版本,yolo v1、yolo v2、yolo v3、fast yolo 等系列算法,本文针对最原始的yolo v1算法。
小草AI
2019/05/31
1.7K0
【目标检测系列】个人整理目标检测框架yolo v1深入剖析
Object Detection-深入理解YOLO v1
You Only Look Once: Unified, Real-Time Object Detection
YoungTimes
2022/04/28
6060
Object Detection-深入理解YOLO v1
【转】目标检测之YOLO系列详解
YOLO将输入图像分成SxS个格子,若某个物体 Ground truth 的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。
marsggbo
2019/05/26
1.8K0
专栏 | 目标检测算法之YOLOv1
今天开始分享一下 YOLO 系列的目标检测算法,前面介绍了 SSD 算法和 Faster-RCNN,现在公司用 Faster-RCNN 的似乎不是很多,主要集中在 YOLO,SSD 以及 CenterNet 等。我们的检测和宇宙和分割宇宙刚刚开始,之后会更新一些这些算法的代码实战等,敬请期待吧。
AI研习社
2019/11/29
6700
【转】目标检测之YOLO系列详解
YOLO将输入图像分成SxS个格子,若某个物体 Ground truth 的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。
marsggbo
2019/04/29
1.6K0
读论文系列:Object Detection NIPS2015 Faster RCNN
转载请注明作者:梦里茶 Faster RCNN在Fast RCNN上更进一步,将Region Proposal也用神经网络来做,如果说Fast RCNN的最大贡献是ROI pooling layer和Multi task,那么RPN(Region Proposal Networks)就是Faster RCNN的最大亮点了。使用RPN产生的proposals比selective search要少很多(300vs2000),因此也一定程度上减少了后面detection的计算量。 Introduction Fa
梦里茶
2018/03/30
6570
YOLO系列:V1,V2,V3,V4简介
YOLO系列是基于深度学习的回归方法。 RCNN, Fast-RCNN,Faster-RCNN是基于深度学习的分类方法。
马上科普尚尚
2020/05/11
2.6K0
目标检测(object detection)系列(五)YOLO:目标检测的另一种打开方式
版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 (Creative Commons)
chaibubble
2019/08/14
7720
Real-Time Object Detection-YOLO V1学习笔记
YOLO之前的Object Detection方法主要是通过Region Proposal产生大量的Bounding Box,再用Classifier判断每个Bounding Box是否包含Object,以及Object所属类别的Probability。
YoungTimes
2022/04/28
5820
Real-Time Object Detection-YOLO V1学习笔记
收藏 | YOLO系列综述:从V1到V4
这是继RCNN,fast-RCNN和faster-RCNN之后,rbg(RossGirshick)针对DL目标检测速度问题提出的另外一种框架。YOLO V1其增强版本GPU中能跑45fps,简化版本155fps。
小白学视觉
2022/02/14
5110
收藏 | YOLO系列综述:从V1到V4
读论文系列:Object Detection ICCV2015 Fast RCNN
Fast RCNN是对RCNN的性能优化版本,在VGG16上,Fast R-CNN训练速度是RCNN的9倍, 测试速度是RCNN213倍;训练速度是SPP-net的3倍,测试速度是SPP-net的3倍,并且达到了更高的准确率,本文为您解读Fast RCNN。 Overview Fast rcnn直接从单张图的feature map中提取RoI对应的feature map,用卷积神经网络做分类,做bounding box regressor,不需要额外磁盘空间,避免重复计算,速度更快,准确率也更高。 Rela
梦里茶
2018/03/30
7950
YOLO,You Only Look Once论文翻译——中英文对照
You Only Look Once: Unified, Real-Time Object Detection Abstract We present YOLO, a new approach to
Tyan
2017/12/28
1.7K0
YOLO,You Only Look Once论文翻译——中英文对照
一文看尽目标检测:从 YOLO v1 到 v3 的进化之路
http://www.mamicode.com/info-detail-2314392.html
小小詹同学
2019/05/15
7710
一文看尽目标检测:从 YOLO v1 到 v3 的进化之路
目标检测算法之YOLO
先假设一个场景,幼儿园老师给小朋友们出了一个题目,看谁能最快的找出笑的最美的那张脸?各位SIGAIer也可以试验下,和小朋友们比比测试下自己的辨识能力。
SIGAI学习与实践平台
2018/08/07
6930
目标检测算法之YOLO
YOLO算法最全综述:从YOLOv1到YOLOv5
来源丨https://zhuanlan.zhihu.com/p/136382095
Datawhale
2020/10/23
2.8K0
YOLO算法最全综述:从YOLOv1到YOLOv5
目标检测之YOLO-You Only Look Once(一)
简单流程图 YOLO检测的流程十分简单,如论文中的这张图所示: 1、将图像resize到448×448作为神经网络的输入 2、用卷积神经网络得到一些bounding box坐标、box中包含物体的置信度和class probabilities 3、进行nms(非极大值抑制),筛选Boxes
CristianoC
2020/06/02
1.9K0
目标检测系列之四(YOLO V1、YOLO V2、YOLO V3)
前面文章我们介绍过两阶段Two-Stage算法(目标检测系列之二(R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN)),先产生候选框再用SVM或者CNN进行分类,一阶段One-Stage算法(目标检测系列之三(SSD)),直接对输入图像学习候选框和类别和定位,下面继续介绍一代更比一代强的一阶段算法。
Minerva
2020/05/25
1.5K0
深度学习与CV教程(13) | 目标检测 (SSD,YOLO系列)
本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for Computer Vision)》的全套学习笔记,对应的课程视频可以在 这里 查看。更多资料获取方式见文末。
ShowMeAI
2022/06/09
1.7K0
深度学习与CV教程(13) | 目标检测 (SSD,YOLO系列)
最全综述 | 图像目标检测
图片分类任务我们已经熟悉了,就是算法对其中的对象进行分类。而今天我们要了解构建神经网络的另一个问题,即目标检测问题。这意味着,我们不仅要用算法判断图片中是不是一辆汽车, 还要在图片中标记出它的位置, 用边框或红色方框把汽车圈起来, 这就是目标检测问题。其中“定位”的意思是判断汽车在图片中的具体位置。
AI算法与图像处理
2019/07/11
1.4K0
最全综述 | 图像目标检测
论文笔记1 --(YOLOv2)YOLO9000:Better,Faster,Stronger
《YOLO9000:Better,Faster,Stronger》 论文:https://arxiv.org/abs/1612.08242
对角巷法师
2022/05/07
5350
论文笔记1 --(YOLOv2)YOLO9000:Better,Faster,Stronger
相关推荐
【目标检测系列】个人整理目标检测框架yolo v1深入剖析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档