泡泡图灵智库,带你精读机器人顶级会议文章
标题:SECOND:Sparsely Embedded Convolutional Detection
作者:Yan Yan,Yuxing Mao,and Bo Li
来源:sensors 2018
播音员:
编译:黄文超
审核:刘小亮
欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是——SECOND:稀疏嵌入的卷积目标检测网络。
基于LiDAR或RGB-D的物体检测已经被广泛地应用,如自动驾驶和机器视觉等等。基于体素划分的3D卷积网络已经出现了一段时间,在处理点云LiDAR数据时增强了信息的较为完整的保留。然而,有些问题仍然存在,包括推理速度慢和朝向估计的性能低等。因此,本文作者研究了一种改进的稀疏卷积方法,用于此类网络,显着提高了训练和推理的速度。作者还引入了一种新形式的角度损失回归来改善朝向估计的性能,以及一种新的数据增强方法,可以提高收敛速度和性能。所提出的网络在KITTI 3D物体检测基准测试上拥有最先进的性能,同时还能保持较快的推理速度。
主要贡献
1. 在基于LiDAR的目标检测中应用稀疏卷积,极大提升了训练和推理速度。
2. 提出了改进稀疏卷积的方法使其运行更加迅速。
3. 提出了新的角度损失回归方法,较其他方法有更好的性能。
4. 对仅基于LiDAR的学习问题引入了新的数据增强方法,极大地提升了收敛速度和性能。
算法流程
图1 SECOND检测器网络结构
如图1所示,SECOND检测器主要由三部分组成:(1) 一个体素网格特征提取器;(2) 稀疏卷积中间层;(3)区域提议网络RPN。
体素特征提取
在这一步骤中,本文与 VoxelNet [1] 执行类似的操作,即先对原始点云进行体素网格划分,随后利用 VFE 体素特征提取网络提取每个体素的特征。VFE层的结构如图2所示,更详细的介绍可以参考我们之前的文章。
图2 VFE层[1]
稀疏卷积
在前一个步骤中,从激光雷达采集的点云中划分体素之后会产生大约5k ~ 8k个体素以及约0.005的稀疏度,直接运用3D卷积将消耗巨大的计算时间以及内存,而这是可以利用稀疏卷积避免的。本文作者使用了一种称为submanifold convolution 的卷积结构,通过输入数据的稀疏性限制输出的稀疏性,从而极大减少了后续卷积操作的计算量。如图3所示,本文使用的稀疏卷积特征提取网络包含了稀疏卷积层(由黄色表示), submanifold convolution(白)以及稀疏到稠密的转换层(红)。
图3 稀疏卷积特征提取网络
区域提议网络RPN
作者使用了一种类似SSD架构的RPN,输入是特征图。RPN由三个阶段组成,每个阶段都包含一个降采样卷积层以及一系列的卷积层;随后将每个阶段的特征图上采样并且串接起来形成一个特征图,最后使用3个1x1的卷积来分别进行类别预测,位置回归以及角度回归,回归参数设置如下:
训练和推断过程
在训练过程中,角度回归损失为Sine-Error,如下式所示
而对于类别不平衡问题,作者采用了focal loss:
除此之外,作者还提出了一种数据增强方法来加速训练的收敛。从训练集的ground truths中采样形成一个数据库,在训练过程中随机选择数据库中的几个样本并且引入到当前的点云中,为了避免矛盾情况的出现还需要进行碰撞检测。作者还对样本引入了随机的角度噪声,最后还对全局的点云进行小幅度的旋转和缩放。
[1] Zhou, Y.; Tuzel, O. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.
主要结果
表1 KITTI测试集上的 3D 检测性能比较: (AP%)
表2KITTI测试集上的鸟瞰视图检测性能比较: (AP%)
领取专属 10元无门槛券
私享最新 技术干货