本文是清华大学等发表在 CVPR2020 上的针对一阶段或两阶段检测器的二值化工作。由于其有限的表征能力,网络中的信息冗余会造成大量的假正例,显著地降低网络性能。本文提出了一种二值神经网络目标检测方法BiDet, BiDet能通过冗余去除来充分利用二值神经网络在目标检测中的表征能力,通过去除假正例来提高检测精度。具体来说,本文把信息瓶颈(the information bottleneck IB)准则来做目标检测,限制高层(high-level)特征图的信息量,最大化特征图和目标检测之间的互信息。与此同时,我们通过learning sparse object priors对假正例移除,使网络的后部专注于对信息检测的预测。在PACAL VOC和COCO数据集上的实验证明,本文的方法优于其他目标检测二值神经网络。
利用 XNOR-Net 的方法对目标检测网络直接进行二值化,网络中的信息冗余(如图(c)和(d)的XNOR的信息内卷)会造成大量的假正例(如图(a)所示)。
为了去除与任务无关的冗余信息,最小化输入图像和高层次特征图( the high-level feature maps )之间的互信息,以此限制检测器提取的信息量;最大化高层次特征图( the high-level feature maps )和目标检测(location & classification)之间的互信息,以此让检测器保留更多和任务相关的信息。
目标检测上的信息冗余
本文提出的方法 Bi-Det,检测结果如图 (b) 所示,相比于图 (a) ,假正例大幅度减少,而且不损失目标正例的检测准确性。图(c)和图(d)分别是训练集和测试集的动态信息,横坐标是输入图像和高层次特征图之间的互信息;纵坐标是高层次特征图和目标检测任务之间的互信息。因此,和 XNOR-Net 相比,本文的方法移除了冗余信息,性能较优。二值信息如何能有效的去除冗余信息,而不损伤真正例是值得思考的一个问题。
信息瓶颈的目标是提取关于任务输入的相关信息,因此 IB 准则在压缩领域被广泛应用。IB 准则致力于最小化输入和学习特征之间的互信息,同时最大化特征图和任务的标准(groundtruth)之间的互信息。目标检测任务从大的步骤上可以看作为马尔可夫过程,如式子 (1) 的马尔科夫链所示:
其中, X代表输入图像,F 代表 backbone part 输出的高级特征图,L 代表目标的定位,C 代表分类。
目标检测基本框架
根据Markov链,IB准则的目标函数可以写成式子(2):
是 backbone part 的参数,
是 detection part 的参数。
是随机变量 X 与 Y 之间的互信息。最小化图像输入和高层特征图之间的互信息,以此限制检测器提取的信息量;最大化高层特征图和目标检测部分的互信息,以此让检测器保留更多和任务相关的信息。最终结果保障去除了和目标检测无关的冗余信息。如上图所示,IB准则能应用于 one-stage 和 two-stage detectors。根据互信息的定义,重写式(2):
Detection part中的定位和分类是相互独立的(两者在不同的网络分支中)
代表anchor在水平和垂直方向的shift offset;
代表anchor的高和宽的scale offset。
->
;
->
,
代表
,
的第j列。
由于二值检测网络中大量的假正例(false positives), Learing sparse object priors 在检测部分可以让 detection part 致力于信息预测,有效减少假正例。
以 Faster R-CNN 为例,Faster R-CNN 的核心是 RPN(Region Proposal Network)。RPN 的输入为特征图,输出就是候选框集合,包括各候选框属于前景或背景的概率以及位置坐标,在 RPN 的输出基础上,对所有 anchor box 的前景置信度排序,挑选出前 Top-N 的框作为预选框 proposal, 接着 CNN 做进一步特征提取,最后再进行位置回归和物体种类判断。本文的 Learing sparse object priors 的目的就是减少上面提到的预选框proposal的数量。
Faster R-CNN RPN
基于 RPN,生成了候选框的集合 M,里面的元素取值为1或0。1代表该block mask为前景,0代表该block mask为背景。为了得到 sparse priors ,即用较少的 pridicted positives ,本文最小化block mask M 的 L1 范数。最小化的过程本质上是在减少置信度分数的信息熵。
其中,si 是第 i 个预测的前景物体的置信度分数。sparse priors 的实验结果如下图所示,最后通过NMS去除冗余候选框。因此,输出的前景候选框变得稀疏了,有利于detection part更好的预测信息。
sparse priors的实验结果
综上所述, BiDet的目标函数如下所示,其中 J1 代表通过信息瓶颈 IB 准则移除冗余信息,充分利用 BNN 的信息表征能力;J2 代表致力于稀疏化 object priors, 有利于 detection part 更好的预测信息。
其中
是 false positive elimination 的超参数。
参数消融分析:最优参数选择为:
=0.2 ;
=10
检测效果对比
实验结果对比
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有