摘要
我们在一个具有挑战性的大规模真实全景图像数据集上研究交通标志检测。核心处理是基于HOG (Histogram of Oriented Gradients)算法,该算法通过在特征向量中加入颜色信息进行扩展。颜色空间的选择对性能有很大的影响,其中我们发现CIELab和YCbCr颜色空间给出了最好的结果。颜色的使用显著提高了检测性能。我们比较了特定算法和HOG算法的性能,并表明HOG在大多数情况下比特定算法的性能高出数十个百分点。此外,我们提出了一种新的迭代支持向量机训练范式来处理背景外观的大变化。这减少了内存消耗,提高了后台信息的利用率。
1、介绍
在本文中,我们考虑了在大尺度环境下对车辆行驶图像进行交通标志检测。全景图像是用两个带有鱼眼镜头的相机拍摄的,因此会造成镜头失真。作为预处理步骤,图像增强算法用于提高图像质量。我们研究了荷兰交通标志子集的自动检测。 目标检测系统可以通过两种方式实现。第一种方法是通过使用关于对象和场景的先验知识,手动创建特定的对象模型。第二种选择是从手动标注的训练数据中自动学习通用对象模型,也称为监督学习。特定对象模型的一个优点是先验知识被显式建模,不需要带注释的训练样本。优化这样的模型需要付出很多努力,并且生成的模型不能用于其他类型的对象。然而,由于模型中使用了所有的先验知识,因此可以得到一个有效的、高效的检测算法。另一方面,通用对象模型从训练数据中自动学习,几乎没有人工交互。然而,该模型不使用先验信息,只从训练数据中提取知识。因此,良好的训练数据质量和完整性是关键要求。这种模型的一个明显优点是,它可以为不同的对象类生成,而无需手动调优。在本文中,我们比较了这两种方法在大规模交通标志检测中的应用。许多交通标志检测算法主要只关注颜色。Fleyeh和Dougherty发表了一项关于交通标志检测的调查[1]。
Viola和Jones[2]的工作描述了通用方法的首批成功应用之一。他们设计了一种灰度图像的人脸检测算法,使用24 × 24像素的检测窗口。从这个窗口中,他们提取了一些哈尔样特征。这些特征是图像梯度的局部近似,可以用积分图像有效地计算。人脸检测器使用许多示例人脸图像进行训练,但可以很容易地训练以检测其他目标。
另一种非常成功的滑动窗口目标检测器是Dalal和Triggs[3]提出的梯度直方图检测器(Histogram-of-Gradient detector, HOG)。该算法优于维奥拉-琼斯算法。作者建议将检测窗口划分为单元,并为每个单元制作图像梯度(方向)的直方图。这种类型的特征是流行的SIFT[4]技术的密集版本。然而,HOG特征不是旋转和尺度不变的。在特征生成阶段之后,使用支持向量机(SVM)对高维特征进行分类。在最近的行人检测评估中,HOG算法给出了具有竞争力的性能[5]。
最近,Baro’and Vitria[6]提出了另一种滑动窗口检测器,该检测器也被应用于交通标志检测。他们使用了一种更一般的哈尔特征,称为解离偶极子。在训练过程中,使用遗传算法迭代地向系统添加新特征,与Viola和Jones所做的穷举搜索形成对比。与标准的Viola-Jones方法相比,这种方法大大提高了性能,用于交通标志检测问题的AUC(曲线下面积)从60%增加到90%。 隐式形状模型由Leibe和Schiele在[7]中提出。他们的想法是定位图像中物体的小部分,并投票决定整个物体的一致中心位置。这个投票空间中的最大值定义了对象的位置。该技术对于相对较大的对象提供了具有竞争力的通用对象检测结果。 在本文中,我们的目的是研究一种更通用的算法,可以处理各种各样的交通标志。与Baro和Vitri ' a[6]的提议相比,我们采用HOG算法是因为它具有高性能、并行实现的可能性和快速训练。仔细观察各种算法就会发现,HOG算法隐式地利用了梯度模式和交通标志形状等特征,而不是像上述文献中的建议那样明确地构建这些特征的模型。这就是为什么我们预计至少会有类似的结果。 此外,我们建议通过使用颜色信息作为每个通道HOG特征的串联来扩展标准HOG算法。我们证明了颜色空间的选择对性能有显著影响,并且最优选择取决于交通标志的类型。
在本文中,我们比较了最先进的特定算法和我们的通用基于hog的算法。Herbschleb和De With[8]的具体检测算法采用了快速的三阶段方法,并利用了颜色和形状特征。首先,快速算法通过区分特定的颜色信息来丢弃无兴趣的图像区域。其次,通过定位几个一致的部分来检测交通标志。最后,全面的验证步骤确保检测到的标志的有效性。与此相反,我们的算法通过一种新的迭代学习过程来建模背景。由于我们的算法具有通用性,它可以重复用于交通标志以外的其他目标。
在本文中,我们比较了最先进的特定算法和我们的通用基于hog的算法。Herbschleb和De With[8]的具体检测算法采用快速的三阶段方法,并利用颜色和形状特征。首先,快速算法通过区分特定的颜色信息来丢弃无兴趣的图像区域。其次,通过定位几个一致的部分来检测交通标志。最后,全面的验证步骤确保检测到的标志的有效性。与此相反,我们的算法通过一种新的迭代学习过程来建模背景。由于我们的算法具有通用性,它可以重复用于交通标志以外的其他目标。
2、算法
Dalal和Triggs[3]的原始HOG算法在Lowe[4]的流行SIFT算法的基础上进行了密集描述。在预处理步骤中,将图像输入像素转换为HOG特征,并通过在图像上滑动检测窗口来执行目标检测。为了获得尺度不变的检测,对输入图像的缩小版本重复预处理和检测过程。应用检测器后,使用mean-shift模式查找算法合并不同尺度的检测[9]。
现在让我们更详细地讨论HOG特征生成步骤。处理步骤如图2所示。对于每个输入像素,计算梯度大小和方向。将像素的梯度幅度添加到相应的方向库中。输入像素在n × n像素的单元中进行空间量化,其中n为单元大小。每个细胞包含一个方向直方图。为了避免量化效应,在方向和两个空间维度上都应用了线性插值。利用梯度算子实现光照不变性。对比度归一化是通过方向直方图的归一化来实现的。Dalal和Triggs建议对每个b×b局部邻域(通常b = 2)对每个单元进行多次规范化。检测窗口的总特征向量是窗口中所有细胞的归一化方向直方图的拼接。
为了学习实际的检测器,我们使用线性支持向量机(SVM)。虽然内核支持向量机将提高性能(如[3]所示),但当我们在大规模数据库上执行算法时,使用线性支持向量机来提高计算效率。我们使用与Dalal和Triggs相同的实现。与Dalal和Triggs的建议不同,SVM分类器是在迭代过程中训练的。在第一次迭代中,对所有正图像进行处理,随机选取一组背景区域作为负样本。在每次迭代中,将当前检测器应用于一个没有交通标志的新图像,并将产生的假检测添加到下一次迭代的训练集中。每次迭代后,对分类器进行重新训练,丢弃所有非支持向量的负训练样本。这种技术的结果是,负面特征的集合仍然很小。这有两个优点:(1)它避免了Dalal和Triggs观察到的内存限制;(2)它允许使用更多的背景样本,从而更准确地描述背景训练集。
如前所述,我们通过在hog描述符中包含颜色信息来扩展标准算法。这是通过连接所使用颜色空间的每个颜色通道的HOG描述符来完成的。注意,结果特征的维数和检测的计算复杂度随着颜色通道的数量线性增加。
Herbschleb和De With[8]的具体检测算法采用了三阶段方法。首先,快速算法利用颜色信息去除图像的无趣区域。第一步应用颜色量化,对图像的每个像素进行红色、蓝色、黄色、白色和黑色的颜色分类,因为它们是交通标志中出现次数最多的颜色。这一步使用一个固定的映射,这是经验估计。其次,在Hessian兴趣点提取SIFT特征[4],并将其与交通标志特征字典进行匹配。该词典是根据地方当局指定的合成交通标志图像构建的。检查相邻特征的空间一致性以提高鲁棒性。如果三个或三个以上的匹配项表示相同的交通标志,则将其作为有效检测添加。最后阶段通过检查颜色一致性和模板与几个扭曲模板的匹配来验证生成的检测。这两种方法之间有根本的区别。通用HOG检测器仅检测特定类别的交通标志,而特定算法旨在检测单个算法通道中多个交通标志的所有变化。
3、实验结果
针对交通标志检测在全国范围内的应用,我们使用两台鱼眼镜头相机,用一组大约5000张带注释的高分辨率图像来评估我们的算法。在实验中,我们从图像的子集中提取交通标志以获得训练集,并使用其他图像(近似)。3000美元用于测试。 我们评估了三种不同类型的交通标志的检测:蓝圆、红圆和三角形标志,我们分别使用170、74和53个样本来训练系统。由于类内的不同征象和成像条件的不同,每个类都包含类内变异,如图1所示。不同类型的符号在训练集中的分布对整个数据集具有代表性。我们数据集中的图像分辨率为4800 × 2400像素。
使用通用HOG检测算法,我们从阳性对象样本和一组不包含交通标志的图像形式的常见负样本中为每个类别训练不同的检测器。此外,对于每个类,将其他类的正样本作为负样本添加。正样本是在48×48像素区域内分辨率为24 × 24像素的交通标志。Dalal和Triggs[3]发现上下文信息的使用是有益的。在训练支持向量机时,采用迭代方法随机选取200个背景样本作为初始集。 我们考虑了不同版本的HOG算法。Dalal和Triggs提出在最大梯度幅度的颜色通道中使用梯度,而传统的HOG只使用单个颜色通道。RGB色彩空间的绿色通道常用于交通标志检测,但这导致了许多红蓝标志之间的误检。我们发现HSV色彩空间的h通道具有更好的效果。在我们的实验中,我们将使用h通道检测器作为单通道检测器。g通道检测器的结果被省略,因为其性能明显较低。为了合并更多的颜色信息,我们将每个颜色通道的HOG描述符连接起来。我们比较了以下颜色空间的结果:RGB, HSV, CIELab和YCbCr。 在我们的实验中,我们为我们的HOG检测器使用了以下设置:单元大小为4 × 4像素,9个方向箱和4个块归一化(b = 2)。对于每个颜色通道,特征向量的维数为2,304。使用2.7 GHz的单个cpu核,在4800 × 700图像上应用单通道HOG检测器大约需要23秒。每个图像使用1.05的缩放因子,分35步缩小。这导致检测范围从24 × 24像素到132 × 132像素的交通标志。由于特定算法中的预处理步骤,执行时间在整个图像集上变化很大。典型的执行时间从30秒到几分钟不等。请注意,在特定算法的单次通过中,同时检测所有交通标志类别,而通用检测器仅定位单一类别的标志。
我们将特定算法和HOG检测器同时应用于数据集(参见图1),结果如图4所示。AUC分数总结于表1。图2显示了CIELab检测器的示例输出图像。一般来说,我们观察到HOG检测器在大多数情况下优于专用算法。我们发现颜色空间的选择对检测性能有显著的影响。对于蓝色圆形交通标志,CIELab色彩空间的性能优于其他色彩空间。对于红色圆形交通标志,CIELab和YCbCr色彩空间的表现相似,而对于红色三角形交通标志,YCbCr空间的表现最高。在这些实验中,RGB和HSV色彩空间的检测是次优的。有趣的是,h通道中的性能几乎与hsv空间中的性能相同。这表明饱和度和强度信息在很大程度上与考虑的交通标志检测应用无关。
4、结论
我们在大规模数据集上评估了两种不同的交通标志检测算法。一个专门的算法使用三个阶段的处理链来检测交通标志,这是人工调整的。我们将其与通用的定向梯度直方图(HOG)算法进行比较,后者从一组训练图像中自动学习检测器。在标准HOG算法的基础上,提出了一种同时使用多个颜色通道信息的扩展算法,并证明其优于单通道算法。此外,我们采用迭代技术进行支持向量机训练,这在此背景下是新颖的,以处理背景外观的巨大变化。这大大降低了内存消耗,因此允许在训练过程中使用更多的背景图像。 实验结果表明,对于所考虑的任务,通用HOG算法在大多数情况下显著优于专用算法10-30%。色彩空间的选择对表现有深远的影响。我们发现CIELab和YCbCr空间提供了最好的性能,可能是由于适合交通标志的两个专用颜色通道的可用性。HSV和RGB空间不太适合用于交通标志检测。此外,我们还证明了单通道h探测器的性能几乎与hsv探测器的性能相同。这表明饱和度和强度信息在很大程度上与考虑的交通标志检测应用无关,因此颜色是主要特征。