首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020

更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020

作者头像
CV君
发布于 2020-04-07 08:43:55
发布于 2020-04-07 08:43:55
9860
举报

近日,L4级自动驾驶解决方案提供商元戎启行的一篇关于3D物体检测的论文被CVPR2020收录,论文题为“HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection”。

CVPR(Conference on Computer Vision and Pattern Recognition,即 IEEE 国际计算机视觉与模式识别会议)是全球计算机视觉顶级学术会议。今年,CVPR共收到6656篇投稿,只有1470篇论文被接收,接受率仅有22%,创下了CVPR十年来的最低接收率。本届CVPR 的评审阵容包括198位领域主席和3664位审稿人。

元戎启行也将亮相于2020年6月16-18日在美国西雅图举办的CVPR,与全球学者共同探讨CV议题,展位号:Island in Booth 645。在盛会召开前,元戎启行也针对该论文进行了解读。

简介

3D目标检测是当前自动驾驶感知模块重要的一个环节,如何平衡3D物体检测的精度以及速度更是非常重要的一个研究话题。本文提出了一种新的基于点云的三维物体检测的统一网络:混合体素网络(HVNet),通过在点级别上混合尺度体素特征编码器(VFE)得到更好的体素特征编码方法,从而在速度和精度上得到提升。

与多种方法相比,HVNet在检测速度上有明显的提高。在KITTI 数据集自行车检测的中等难度级别(moderate)中,HVNet 的准确率比PointPillars方法高出了8.44%。

图 1 3D物体检测

在KITTI数据集上,HVNet网络在KITTI数据集上提交结果的所有已有方法中获得了最好的mAP,并且实时推理速度可以达到31 Hz

图 2 KITTI测试集上的速度-精度对比图,其中O为HVNet

研究背景

在当前点云检测模块,格网化(voxelization)是一个重要的方式。许多已有的方式都是通过格网化,然后进行离散的卷积操作。但是,在应对大规模的场景下,一个关键参数是格网voxel的大小:较小的voxel scale捕获更精细的几何体特征,并更好地定位对象,但需要较长的推理时间。较大的voxel scale导致较小的特征图和较快的推理速度,但性能较差,特别是对于较小的物体。

图 3 常见的体素特征提取网络(VFE)

为了应对上面问题带来的挑战,我们通过多尺度的点云信息,利用注意力机制(attention),提取更加细粒度的点云特征,然后映射到更大格网粒度上,从而保证速度跟精度的平衡。

传统体素特征提取网络(VFE)方法通常包含三个步骤:1.体素化:将点云指定给二维体素网格。2.体素特征提取:为每个点计算依赖于网格的逐点特征,并将其送入PointNet风格的特征编码器。3.投影:将逐点特征聚合到体素级特征,并投影回其原始网格,形成伪图像特征图。HVNet中提出的HVFE方法则将混合比例尺度下的点级别的特征聚合到全局上下文中,然后投影到动态目标尺度中的特征图上。

图 4 本文提出的HVFE方法

算法设计

整个HVNET包括:HVFE特征提取模块;2D卷积模块;以及检测的head模块,用来输出最后的预测结果。下图中第一行是HVNet的整个结构。第二行是混合体素特征提取器的结构,由四部分组成:a) x-y平面多尺度预体素化;b) 并行多流的注意力机制体素特征编码层(AVFE)编码多尺度点云特征;c) 编码特征聚合;d) 注意力机制体素特征编码输出层(AVFEO)层结合聚合特征和目标尺度信息进行动态特征投影。

图 5 网络框架图

1. HVFE layer方面,我们提取了不同尺度的voxel下点云的特征,为了融合不同尺度下的点云的特征,我们提出了attentive layer,利用原始的geometry信息,对不同尺度的点云进行特征映射以及融合,形成最终的2.5D上的特征图。在整个过程,我们提出了index-based的高效操作,使得整个聚集(scatter),以及分散(gather)的操作能够充分利用GPU并行,相比与之前方法的操作,我们的方式可以有效减少信息的损失以及GPU显存的使用。

图 6 AVFE和AVFEO层。索引张量用于索引操作:聚集(Gather)和分散(Scatter)

2. 2D 卷积部分,我们利用HVFE layer提出的多尺度的feature map,在特征图上面也进行多尺度的融合。由于点云的稀疏性和伪特征图的低分辨率性,我们提出了尺度融合金字塔网络(FFPN)来进行进一步的特征融合。多尺度特征首先在主干网络中浅层融合,然后在提出的FFPN网络中进行深度融合。

图 7 主干网络

3. detection head部分,我们利用不同层的feature map感受野不同的特性,对不同的层设计相应的anchor box进行预测。具体来说,对于不同层的feature map,在detection head部分只会对相对应的尺度的类别进行预测,这样的方式可以有效减少类别间的混淆。

结果

KITTI数据集是自动驾驶是目前自动驾驶领域最重要的测试集之一,我们在KITTI上进行了实验验证。实验结果证明了我们方法的有效性,我们的算法在KITTI上做到了Cyclist当时的最好成绩,并且在当时的leaderboard上超越了第二名2个点,同时在Car上面我们做到了第六名。

图8 HVNet 在KITTI 测试上的BEV成绩(自行车,2019年11月)

图9 HVNet 在KITTI 测试上的BEV成绩(汽车,2019年11月)

值得注意的是,很多方法在处理多类别物体检测中训练多个模型来检测不同的类别,我们仅通过单一的网络完成输出。在KITTI的多类别检测任务中,我们取得了当时最好的mAP(平均精度),同时保证了实时的效率。相比于PointPillars、Second等算法,HVNet在效率也有很大的突破。

图 10 KITTI test上的BEV成绩

相比于PointPillars、Second等算法,我们调整了Voxel的尺度,对比了和这些方法在相似的Voxel尺度下的效率和准确率。结果表明我们的方法在性能和效率方面都超过了现有方法。

图 11 KITTI val数据集中BEV上的不同Voxel设置下结果对比

思考总结

在这项工作中,我们提出了一种新型的单级三维目标探测网络HVNet。HVNet将混合尺度体素聚合成统一的逐点特征,然后在注意力特征的引导下将其投影成不同尺度的伪图像特征。HVNet的关键是对特征提取尺度和伪图像投影尺度进行解耦。此外,特征融合金字塔网络的主干获取伪图像并融合特征,以生成不同类别的紧凑表达。实验研究表明,该方法取得了目前最先进的效果,并且具有较高的实时性。

论文地址:

https://arxiv.org/abs/2003.00186

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
目标检测是计算机视觉中的经典问题之一。凭借大量可用数据、更快的 GPU 和更好的算法,现在我们可以轻松训练计算机以高精度检测出图像中的多个对象。
机器之心
2020/07/28
1.7K0
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
汇总|3D目标检测文章(CVPR2020)
今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20上在3D目标检测的一些文章。如下图所示,3D目标检测按照大方向可以分为室外和室内的目标检测,室内场景数据集一般有ScanNet等,该领域研究比较少,笔者注意到的第一篇文章是来自FAIR的voteNet,采用霍夫投票机制生成了靠近对象中心的点,利用这些点进行分组和聚合,以生成box proposals。今年在CVPR20上也至少有两篇该文章的后续工作,分别是来自pointnet之父的Imvotenet,地址是:https://arxiv.org/pdf/2001.10692.pdf;另外一篇MLCVNet来自南京大学和卡迪夫大学的联合工作 ,文章地址:https://arxiv.org/pdf/2004.05679,该文章在vote的基础上利用自注意力机制融合Multi-scale的特征。 此外,在室外场景的目标检测中,可以大致按照输入分为lidar-input,image-input和multi-sensors-fusion的研究工作。
3D视觉工坊
2020/12/11
9570
3D-VID:基于LiDar Video信息的3D目标检测框架|CVPR20
paper地址:https://arxiv.org/pdf/2004.01389.pdf
3D视觉工坊
2020/12/11
1K0
3D-VID:基于LiDar Video信息的3D目标检测框架|CVPR20
CVPR2019 | PointPillars点云检测网络
标题:PointPillars: Fast Encoders for Object Detection from Point Clouds
点云乐课堂
2020/05/18
1.6K0
地平线提出AFDet:首个Anchor free、NMS free的3D目标检测算法
在嵌入式系统上运行的高效点云3D目标检测对于许多机器人应用(包括自动驾驶)都非常重要。大多数以前的工作试图使用基于Anchor的检测方法来解决它,这有两个缺点:后处理相对复杂且计算量大;调整Anchor点参数非常棘手,并且是一个tricky。本文是第一个使用AFDet( anchor free and Non-Maximum Suppression free one stage detector)来解决这些缺点的公司。借助简化的后处理环节可以在CNN加速器或GPU上高效地处理整个AFDet。并且,在KITTI验证集和Waymo Open Dataset验证集上,AFDet无需花哨的技巧,就可以与其他Anchor-based的3D目标检测方法竞争。
Amusi
2020/06/29
3.6K0
地平线提出AFDet:首个Anchor free、NMS free的3D目标检测算法
智驾车技术栈 | 两万字综述:自动驾驶中基于Lidar点云的3D目标检测深度学习方法
本文为《A comprehensive survey of LIDAR-based 3D object detection methods with deep learning for autonomous driving》译文的基础上稍作修改提炼,方便大家学习理解。
小杨同学努力学习呀
2022/12/18
2.3K0
智驾车技术栈 | 两万字综述:自动驾驶中基于Lidar点云的3D目标检测深度学习方法
3DSSD:基于点云的single-stage物体检测模型 | CVPR2020
这是一篇来自CVPR2020的研究工作,于2020/4/9日开源,如下图所示,目前被接收的文章有在KITTI上的有四篇,分别是PV-RCNN,SA-SSD,Point-GNN和这一篇文章,应该说pvrcnn在精度上是独树一帜的远高于第二名的,不过这些文章在创新性上也是非常值得研究的
3D视觉工坊
2020/12/11
7120
3DSSD:基于点云的single-stage物体检测模型 | CVPR2020
一文览尽LiDAR点云目标检测方法
自动驾驶中的激光雷达点云如何做特征表达,将基于Lidar的目标检测方法分成了4类,即:基于BEV的目标检测方法,基于camera/range view的目标检测方法,基于point-wise feature的目标检测方法,基于融合特征的目标检测方法。本文对这4类方法讲解并总结,希望能帮助大家在实际使用中做出快速选择。
3D视觉工坊
2021/01/28
2.6K0
一文览尽LiDAR点云目标检测方法
ECCV20 3D目标检测新框架3D-CVF
这一篇文章主要介绍一篇发表在ECCV20上的采用多模态融合的3D目标检测的文章,并总结一下目前多多模态的方法。所谓多模态融合,即采取多种传感器数据作为深度学习网络的输入,多模态融合的好处多种传感器获取到的信息存在互补的地方,但是缺点是融合的方法比较难,需要做多方面的考虑,比如在传感器获取的信息的时序上,图像传感器像素点和点云信息的对应,以及图像存在远近导致的scale问题,在点云上并不存在同一物体在scale上的差别。 今天介绍的文章是:3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection。 文章链接:https://arxiv.org/pdf/2004.12636.pdf 发表在ECCV20,作者是汉阳大学团队
3D视觉工坊
2020/12/11
4740
融合点云与图像的环境目标检测研究进展
在数字仿真技术应用领域,特别是在自动驾驶技术的发展中,目标检测是至关重要的一环,它涉及到对周围环境中物体的感知,为智能装备的决策和规划提供了关键信息。
一点人工一点智能
2024/03/22
2.1K0
融合点云与图像的环境目标检测研究进展
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)
【导读】上周,我们在《激光雷达,马斯克看不上,却又无可替代?》一文中对自动驾驶中广泛使用的激光雷达进行了简单的科普,今天,这篇文章将各大公司和机构基于激光雷达的目标检测工作进行了列举和整合。由于文章列举方法太多,故作者将其分成上下两部分,本文为第一部分。
AI科技大本营
2019/09/19
2.9K0
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)
基于点云 / RGBD的3D视觉检测技术
3D视觉技术相较于2D视觉能获取更丰富更全面的环境信息,已经成为机器人导航、无人驾驶、增强/虚拟现实、工业检测等领域的关键技术.当前基于2D的的计算机视觉技术日趋成熟,在很多领域取得了很不错的进展,但我们真实的世界是三维空间,利用2D的技术对真实世界进行建模存在先天的缺陷——深度信息缺失,我们不能从2D图片中获得物体的绝对尺度和位置,而这一点在点云中不会存在问题.“从单幅图像到双目视觉的3D目标检测算法”介绍了基于单目(monocular)视觉以及双目(binocular)视觉的3D目标检测算法,单目做3D检测完全是数据驱动,通过机器学习模型结合摄影几何的约束去拟合3D空间的数据分布;双目视觉会有额外的视差信息,可以重建出景深信息,所以可以得到比单目视觉更强的空间约束关系,在3D目标检测任务重的精度相比单目会更好.
SIGAI学习与实践平台
2019/08/22
2.9K0
基于点云 / RGBD的3D视觉检测技术
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(下)
这是一个称为FVNet的框架,从点云生成3D前视图提议和目标检测。它包括两步:生成前视图提议和估计3D边框参数。
AI科技大本营
2019/09/25
1.4K0
值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(下)
物体可见性信息在3D检测中的探索CVPR2020(oral)
本文是一篇来自Carnegie Mellon大学和Argo AI的合作工作,目前已经被CVPR20接收(oral),该文的主要内容是基于点云的3D目标检测,与以往的研究内容不同的是,本文基于观察发现在BEV视图中无法区分free和unknown区域,如下图中(a)展示的两个红色框所示,在BEV看上去都是不包含点的free space。但是假如通过lidar的扫描的激光对该图重新绘制如图(b),其中绿色表明为激光扫描到的区域,白色为未知的区域,即白色是被前景物体所遮挡的区域,而绿色是真正被扫描到的,因此,我们可以得到的信息是左边的红框区域表示的是未知,而右边实际上是真正的freespace。因此本文的作者正是利用freespace的信息来提高检测精度。
3D视觉工坊
2020/12/11
9890
物体可见性信息在3D检测中的探索CVPR2020(oral)
【SFFAI分享】郑武:CIA-SSD:自信的IoU可知的单阶点云物体检测器【附PPT与视频资料】
随着激光雷达在机器人,无人车的领域的推广应用,三维点云的相关处理技术作为高精地图、高精定位、环境检测等方向的核心模块越来越受到重视。现有的在点云中定位物体的单阶段检测器通常将物体定位和类别分类视为分开的任务,因此定位精度和分类置信度可能无法很好地对齐。《SFFAI97期三维点云检测专题》我们邀请到了来自香港中文大学的郑武同学,分享他提出的新型检测方法,解决此问题。
马上科普尚尚
2021/02/26
6880
【SFFAI分享】郑武:CIA-SSD:自信的IoU可知的单阶点云物体检测器【附PPT与视频资料】
PointPillar:利用伪图像高效实现3D目标检测
最近几年点云的三维目标检测一直很火,从早期的PointNet、PointNet++,到体素网格的VoxelNet,后来大家觉得三维卷积过于耗时,又推出了Complex-yolo等模型把点云投影到二维平面,用图像的方法做目标检测,从而加速网络推理。
3D视觉工坊
2021/08/24
3.9K0
PointPillar:利用伪图像高效实现3D目标检测
3D目标检测深度学习方法数据预处理综述
这一篇的内容主要要讲一点在深度学习的3D目标检测网络中,我们都采用了哪些数据预处理的方法,主要讲两个方面的知识,第一个是representation,第二个数据预处理内容是数据增广。 作为本篇博文的引言,我们先给一种博主制作的比较重要的3D检测方法图鉴,如下,就笔者的个人理解,今年的CVPR出现了很多的one-stage的方法,同时出现了很多融合的方法,这里的融合有信息融合,有representation融合,同时根据近两年的发展来看,voxel-based的方法占据了主导地位,这是得益于卷积结构优越性(point-based方法采用pointnet++结构,是MLP搭建的),但是今年的oral文章3D-SSD是一篇在point-based方法上很有建树的文章,所以在3D检测中了解主要的representation代表方法也是很重要的。
3D视觉工坊
2020/12/11
6780
3D目标检测深度学习方法数据预处理综述
【美团技术解析】一文教你读懂3D目标检测
技术解析是由美团点评无人配送部技术团队主笔,每期发布一篇无人配送领域相关技术解析或应用实例,本期为您带来的是3D目标检测系列综述
美团无人配送
2019/04/26
5.3K0
【美团技术解析】一文教你读懂3D目标检测
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花
点云3D目标检测在机器人和自动驾驶的3D场景理解中起着至关重要的作用。然而,与基于图像的2D检测相比,基于LiDAR的3D检测仍然难以应对点云的稀疏和不规则性质。在本文中提出了Pillar R-CNN,这是一种基于Pillar的点云表示的Faster R-CNN类架构,可以从2D检测领域的进步中获益。
AiCharm
2023/05/15
1.5K0
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花
3D目标检测深度学习方法中voxel-represetnation内容综述(三)
前两篇文章:3D目标检测深度学习方法中voxel-represetnation内容综述(一)、3D目标检测深度学习方法中voxel-represetnation内容综述(二)分别介绍了当前voxel-representation方法的backbone和主流的研究进展。即目前主要可以分为如下的几个方向做出研究内容的改进: (1)refine(2)loss(3)fusion(4)backboe -structure(5)others。 前面的文章中已经介绍到了基于refine和loss研究工作,这一篇主要介绍剩下的在3D目标检测中做研究的思路。
3D视觉工坊
2020/12/11
7600
推荐阅读
相关推荐
做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档