❝前面我们一起学了
SSD
算法的相关知识,如下: SSD目标检测算法必须知道的几个关键点 目标检测算法SSD结构详解 ❞
今天我们学习另一系列目标检测算法YOLO
(You Only Look Once
),公众号【智能算法】回复“论文YOLOV1”即可下载该论文。Yolo
系列算法属于One-Stage
算法,是一种基于深度神经网络的对象识别和定位算法,其最大的特点是运行速度很快,可以用于实时系统。现在YOLO
已经发展到v5
版本,不过新版本也是在原有版本基础上不断改进演化的,所以本文先分析YOLO v1
版本。一起看看是如何实现的?本期主要包含以下内容:
YOLO-V1
的核心思想:就是利用整张图作为网络的输入,将目标检测作为回归问题解决,直接在输出层回归预选框的位置及其所属的类别。YOLO
和RCNN
最大的区别就是去掉了RPN
网络,去掉候选区这个步骤以后,YOLO
的结构非常简单,就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话,和普通的CNN
对象分类网络几乎没有本质的区别,最大的差异是最后输出层用线性函数做激活函数,因为需要预测bounding box
的位置(数值型),而不仅仅是对象的概率。所以粗略来说,YOLO
的整个结构就是输入图片经过神经网络的变换得到一个输出的张量,我们来看下YOLO-V1
论文中给出的的结构,如下图:
该网络架构借鉴了GoogLeNet
的思想,改造了其中的InceptionV1
网络,只是这里并没有使用原始的inception
模块,而是用一个1x1
的卷积接联一个3x3
的卷积来代替,具体的inception
模块和GoogLeNet
可参考之前的文章:
CNN经典网络之GoogLeNet
从上图中可以看到,YOLO-V1
网络的主要步骤如下:
448x448x3
,经过一个7x7x64
,stride
为2
的卷积层和一个2x2
,stride
为2
的最大化池化层后得到112x112x192
尺寸的特征图。3x3x192
的卷积层和一个2x2
,stride
为2
的最大化池化层后得到56x56x256
尺寸的特征图。这里留一个讨论题,这两步的尺寸变化有没有问题?欢迎大家评论区讨论。1x1x128
,3x3x256
,1x1x256
,3x3x512
的卷积层和2x2
,stride
为2
的最大化池化层后得到28x28x512
的特征图。1x1x256
,3x3x512
的卷积层后再经过1x1x512
,3x3x1024
的卷积层和一个2x2-s-2
的池化层后得到14x14x1024
的特征图。1x1x512
,3x3x1024
的卷积层后再经过一个3x3x1024
和stride
为2
的3x3x1024
的卷积层后得到7x7x1024
的特征图。3x3x1024
的卷积层后得到7x7x1024
的特征图。4096
的全连接层后最终得到7x7x30
(其实是一个一维向量的三维化)的检测结果。整个算法的大致流程就是这样,接下来我们看下为什么最终会得到7x7x30
的结果?
YOLO-V1
将一副448x448
的原图分割成了7x7=49
个网格,每个网格要预测两个bounding box
的坐标(x,y,w,h)
和box
内是否包含物体的置信度confidence
(每个bounding box
有一个confidence
),以及该网格包含的物体属于20
类别中每一类的概率(YOLO
的训练数据为voc2012
,它是一个20
分类的数据集)。所以一个网格对应一个(4x2+2+20)=30
维度的向量。如下图:
知道了网络的结构,上面提到的候选框怎么生成呢?
上面提到7x7
的每个网格都要预测两个bounding box
的坐标和置信度,如下图,以红色网格为例,生成两个大小形状不同的蓝色box
,box
的位置坐标为(x,y,w,h)
,其中x
和y
表示box
中心点与该格子边界的相对值,也就是说x
和y
的大小被限制在[0,1]
之间,假如候选框的中心刚好与网格的中心重合,那么x=0.5,y=0.5
。
w
和h
表示预测box
的宽度和高度相对于整幅图片的宽度和高度的比例,比如图中的框住狗的蓝色网格的宽度w
大致为1/3
,高度h
大致为1/2
。这样(x,y,w,h)
就都被限制在[0,1]
之间,与训练数据集上标定的物体的真实坐标(Gx,Gy,Gw,Gh)
进行对比训练,每个网格负责预测中心点落在该格子的物体的概率。
YOLO-V1候选框生成
每个box
预测的置信度只是为了表达box
内有无物体的概率(类似于Faster R-CNN
中RPN
层的softmax
预测anchor
是前景还是背景的概率),并不预测box
内物体属于哪一类。那么这个置信度有什么用呢?
这里面的置信度跟前面学的置信度有一些些不同。以前我们理解的置信度只是一个简单的得分,一个对该物体预测的概率值。YOLO
中的置信度公式如下:
其中前一项表示有无人工标记的物体落入网格内,如果有,则为1
,否则为0
.第二项表示bounding box
和真实标记的box
之间的IOU
,值越大则表示box
越接近真实位置。confidence
是针对bounding box
的,每个网格有两个bounding box
,所以每个网格会有两个confidence
与之对应。
知道了网络框架,候选框的生成,以及置信度的定义,我们看下YOLO-V1
预测工作流程是怎么样的?
bounding boxes
.class
信息和bounding boxes
预测的confidence
信息相乘,得到每个bounding box
预测具体物体的概率和位置重叠的概率PrIOU
其中
为每个网格预测的class
信息,
为confidence
。3. 最后对于每个类别,对PrIOU
进行排序,去除小于阈值的PrIOU
,然后做非极大值抑制。
至此,我们学习了目标检测算法YOLO-V1
算法的结构框架和工作流程,明白了YOLO-V1
模型的基本知识,下期我们深入一步学下该模型的损失函数以及优缺点。