这是一篇挺老的论文了,98 年诞生的。主要是利用图片的 Haar wavelets (小波)特征 + SVM 来进行目标检测,这在当时是很 novel 的一个方法。论文中的 Haar-wavelet 特征也是 Rapid Object Detection using a Boosted Cascade of Simple Features 这篇论文中提出的 Haar 特征的前身。
从此之后,小波特征相关的变换开始主导视觉识别和目标检测领域。该类方法的本质是通过将图像从像素点转换为一组小波系数来学习。
当时目标检测面临的困境:
本篇论文主要应用提出的 Haar 小波表示方法对人脸和行人进行目标检测。
Haar wavelet 是一种集合基函数(set basis function),它编码不同区域平均强度的差异。为了达到检测所需的空间分辨率,提高模型的表达能力,论文中引入了四重密度变换(quadruple density transform),它是 2D Haar wavelet 的扩展,产生一组完备的基函数。对于大小为
的小波,标准 Haar 变换将每个小波移位
,四重密度变换将小波在每个方向上移位
。
关于小波表征更具体的内容可以查看这篇论文:Pedestrian detection using wavelet templates
As motivated by the work on the template ratio, we were looking for an image representation which captures the relationship between average intensities of neighboring regions. Haar wavelet,which encode such relationships along different orientations.
由于对模板比率的研究,作者正在寻找一种图像表示方法来捕捉相邻区域和平均强度之间的关系。Haar 小波正是沿着不同方向编码这样的关系的一种方法。
上图(1)中所示就是三种不同的非标准 Haar 小波的类型,包括垂直,水平和对角方向。
学习框架分为两个阶段:
下面主要针对特征提取过程进行介绍。
识别重要系数的基本分析包括两个步骤。由于不同类型系数的功率分布可能不同,第一步是计算各系数的类平均,并将其对应的类平均归一化。第二步是对所有例子的归一化系数求平均值。归一化有这样的性质 - 随机 patterns 的系数的均值为 1。如果系数的均值远远大于 1,则表明系数编码为两个区域之间的边界并与类的例子一致;同样,如果系数的均值远小于 1,则该系数编码为一个均匀区域(uniform region)。
上图展示的是对人脸进行变换及计算后的小波系数的均值。每个基函数在图中被表示为一个小方块。系数均值比较大的区域使用较暗的灰度颜色来编码,系数均值比较小的区域使用较亮的灰度颜色来编码。可以发现,不同类型的小波(垂直,水平,对角)会提取到不同的面部特征,比如眼睛,鼻子和嘴。而且使用不同的尺度(scale),提取到的特征也不同。
经过统计分析,从密集和稀疏的尺度中捕捉的重要面部特征中,导出 37 个系数作为一个集合。其中包含使用 2x2 尺度得到的 12 个垂直系数,14 个水平系数和 3 个对角系数和使用 4x4 尺度得到的 3 个垂直系数,2 个水平系数和 3 个对角系数。下图显示的就是 37 个重要的特征。
对于行人的数据集也进行类似的处理: