作者简介:高永强博士,2015年毕业于中国科学院大学,主攻图像处理、计算机视觉、机器学习及深度学习方向。目前在SNG社交网络运营部数据中心知识发现组从事视频内容理解与应用相关方面的工作,已发表期刊、会议多篇,并翻译视觉界经典教材《计算机视觉,一种现代方法(第二版)》。
基于传统的图像局部二值特征的图像识别与匹配,有没有更简单的特征融合方法?
近日,SNG社交网络运营部的高永强做了一个实验:将目前四种性能较好的二值特征描述子进行融合,会怎样?
实验结果显示,融合特征呈现最好性能,而且这种融合方法同样适用于多模型融合。他的这一“ 更简单”的方法发表在《Neurocomping》期刊(隶属于JCR分区二区)后,引起了较多关注,影响因子为3.317。下文为Jason整理的部分内容——
敲黑板,都是知识点!
视觉属于人类高级感知,图像在人类感知环境中扮演着非常重要的角色。数字图像处理由成像机器获得,并可以对非人类所习惯的图像源进行加工和处理。同一张图,比如Fig. 1,人类看到的是图像画面,而计算机里存储的则是一串数字。这串数据矩阵就是图像数据,如何从这些图像数据中提取有效的图像特征,就是计算机视觉处理的前期研究工作。
Fig. 1 人眼中的图像与计算机眼中的图像显示
对于同一物体的识别,即图像识别问题,一般会采取如下几个任务步骤:
首先,提取图像特征用于表征图像;
其次,对提取特征进行建模以迎合完成不同的任务需求。
比如,采用计算K-近邻作为两种特征之间的相似度判定,而完成测试图与标准图的匹配或者识别。
在图像分类中,常常采用某个分类器预测输出这些特征标记的类别。同一个物体,由于受到拍摄环境、角度、距离、时期等影响,在图像中会呈现出不同的变化,所得到的特征就会有所区别,因此构造具有高鉴别性和鲁棒性的图像特征显得至关重要。(鲁棒性,指控制系统在一定结构、大小的参数摄动下,维持其它某些性能的特性)
图像特征是计算机视觉研究的基础,也是机器学习领域构成模式重要的一部分。特征的构造方式一般具有三种:
第一种是基于兴趣点构造,根据兴趣点的邻域构建图像块,采用人工设计或者学习的方式从该图像块提取特征,此类兴趣点通常只具有可鉴别性或者鲁棒性的点,包括比如角点、斑点、T-型点或者显著性点等;
第二种是基于稠密采样构造,根据网格对图像(或者多个尺度的图像)进行划分,在每个网格内进行人工设计或者经过学习的方式构造特征;
第三种是根据机器学习的理论框架,采用监督(非监督)的深度学习直接学习构造图像特征,采用深度学习的框架,优势在于对源图像到标记分类,完成对特征提取和分类的联合优化。
对于一幅完整的图像,人们并非对所有的图像内容感兴趣,在图像识别应用中,可以通过一些具有代表性或可鉴别的关键点来判断该物体是什么。因此,在计算机视觉领域,常规的物体识别的步骤:
首先,提取具有可鉴别性的关键点,并根据这些关键点的邻域构造图像块;
其次,在这些图像块中进行特征提取用于表征这些具有可鉴别性的关键点;
再次,分别计算对应特征之间的距离,根据距离的大小判定两个关键点是否相似(距离小于某个阈值判定为相似);
最后,根据匹配的关键点的个数来判定两幅图像是否相似。
特征描述子的应用领域很广,比如人脸识别、图像检索、场景分类和视频行为分析等。图像特征作为计算机视觉的底层运算,在视觉的中层编码/学习和高层语义理解中体现极大作用。
局部图像特征对于分析和理解图像内容具有很重要的作用。近年来,局部图像特征(local descriptor)在图像处理和计算机视觉领域取得巨大成功。
传统的局部特征描述子构建如图Fig. 2,构建步骤为:
首先,构建图像块(基于兴趣点周围形成图像块);
其次,将图像块进行归一化处理(包括主方向旋转和尺度归一化);
最后,基于图像块构建特征描述子(比如根据梯度直方图构建,SIFT、HoG、GLOH等)。
好的特征描述子除了具有很强的鉴别力,同时具有计算代价低、匹配速度快的特性。而对于特征描述子的匹配过程,往往采用彼此的距离作为度量准则,即两特征描述子的距离(欧式距离或者汉明距离等)小于某个阈值,认为该特征描述子对应的图像块是相似的,反之亦然。
然而,现实中,图像的拍摄往往存在拍摄时期、拍摄角度、当天光照和不同距离等变化因素,同时对于同一物体可能对于本身具有一定的畸变,该特征描述向量应具有很高鉴别性和鲁棒性。
Fig. 2 传统的局部特征构建方法
在先前的工作中,SIFT描述子广泛应用于多个视觉应用中,然而,描述子维度高、计算代价大等因素制约着该描述子在某些方面的应用,比如根据应用需求而需要处理更大数据量使得该特征很难在这些设备进行实时处理,又比如运行在具有较低计算能力的移动设备上……
由此可见,为了迎合这种需求,对应的特征描述子还应该具有快速生成、快速匹配和合理利用内存的特性。Calonder et al.根据成对的像素值比较进而二值化,将这些二值字符串拼接得到二值特征,即BRIEF(Binary Robust Independent Elementary Features)。BIREF描述子在特征提取和匹配过程中计算代价非常低,并在公开数据库取得非常好的性能。
常见的构造二值特征描述子方式有两种:
第一种,根据像素值之间的比较进行二值化,从而构成对应的特征描述子。BRIEF描述子对高斯随机形成的采样对进行比较,将比较的结果进行二值化;BinBoost采用AdaBoost的方法对采样对进行学习采样,同时对采样对进行比较构成二值描述子;
第二种,根据已有的浮点型特征做一次变换,从而构成相应的二值描述子,这是由于直接对像素值二值化鲁棒性低。
这里介绍两种类型的二值特征:
第一类为基于Boost技巧采样的二值特征构建方法,这类特征包括Binboost和BGM特征。他们采用boosting的方法去学复杂的非线性的局部二值特征表征,采用弱分类器族编码特定的区域和有意义的特征属性。Binboost和BGM的区别在于弱分类选择的不同:BinBoost采用的是的弱分类器为许多梯度方向图的线性组合;而BGM采用的是单个梯度方向图。
第二类的二值特征构建方法为基于感受域进行采样,包括RFD_R和RFD_G特征。RFD_G和RFD_R的区别在于感受域的定义不同,RFD_G是采用高斯函数定义的感受域,RFD_R是采用的矩形作为的感受域。Fig.3给出这三种二值特征的采用方式,其中Binboost和BGM采用左图的采样方式,RFD_R采用中间图的采样方式,RFD_G采用右图的采样方式。
Fig. 3 左图为Binboost和BGM的采样方式,中图为RFD_R的采样方式,右图为RFD_G的采样方式
实验:不同二值特征的融合
将目前四种性能较好的二值特征描述子进行融合,这四种特征分别为BinBoost,BGM,
和
。给定训练集P和N,分别代表正确匹配对和错误匹配对,我们目标是为了使得错误匹配对之间的距离大于正确匹配对之间的距离,
定义如下:
其中
分别为对应的局部图像块,
为基于两个图像块计算得到的第m组汉明距离,其中
定义如下:
其中⊗为异或操作,
。定义目标优化函数为:
并采用
范式约束,我们推导公式3为凸优化函数:
并将最后学习权重w进行整型化:
其中
。这保证每个权重系数
为小于256的正数,
为取整函数。
实验数据主要采用广泛使用的局部图像块数据集:Liberty, Yosemite和Notre Dame,见Fig. 4,从左到右顺序依次来源于Notre Dame数据库、Liberty数据库和Yosemite数据库,其中大小为原图大小的四分之一,每个数据集包括超过400k的尺度归一化和旋转归一化的局部图像块,其分辨率为64x64。每个图像块是由差分高斯检测子或者多尺度的Harris角点检测器检测,并根据领域生成对应的图像块。每个数据子集提供有100k、200k和500k标准匹配对,其中50%为正确匹配对,另外50%为错误匹配对。
采用经过差分高斯检测子检测得到的数据集,并将每个图像块调整分辨率到32x32,所有的图像块经过标准高斯分布进行滤波去噪。假阳性为95%时的召回率(FPR @95%)为测试结果,即当查找的正确匹配对为95%时的错误率。
Fig.4部分局部图像块数据库(Brown数据库)
Fig. 5给出四种基特征与融合特征的比较结果,其中训练数据集为Liberty数据库,每个特征的维度不同,测试数据集为Yosemite数据库和Notre Dame数据库,且数据量大小为100k(包括50k正确匹配对和50k错误匹配对),FPR@95的错误率为汇报结果,“Opt”列,是由四种基特征的全部特征作为输入,优化所得,即BinBoost、BGM、
和
对应特征维度分别为512、512、293和406位(b)。四种特征分别采用64、128、256 和全部可提供维度作为融合的每组维度。正如表格所示,融合特征都呈现最好的性能(最低的错误率)。
Fig. 5 实验对比结果
这里,我们提出一种非常简单的特征融合的方法,并在局部二值特征的融合上取得了非常好的效果。更多的关于局部二值特征,以及特征融合的方法可以见我们最新的论文LMBD和RMGD。
LMBD: Y. Gao,W. Huang, Y. Qiao, “Learning multiple local binary descriptors for imagematching”, Nerocomputing, 2017.
RMGD: Y. Gao, W. Huang, Y. Qiao, “Local Multi-GroupedBinary Descriptor With Ring-Based Pooling Configuration andOptimization”, IEEE Transactions onImage Processing, 24(12), pp. 4820-4833, 2015.
Binboost: L. V. Trzcinski T.,Christoudias M., P. Fua, Boosting binary keypoint descriptors, in: Proc. IEEEConf. Comput. Vis. Pattern Recognit., 2013,pp. 2874-2881.
BGM: T. Trzcinski, V. Lepetit,E_cient discriminative projections for compact binary descriptors, in: Proc.IEEE Int. Conf. Eur. Conf. Comput. Vis., 2012, pp. 228-242.
RFD: B. Fan, Q. Kong, T. Trzcinski, Z. H. Wang, C. Pan, P.Fua, Receptive felds selectioni for binary feature description, IEEE Trans.Image Process. (2014) 2583-2595.