前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >融合点云与图像的环境目标检测研究进展

融合点云与图像的环境目标检测研究进展

作者头像
一点人工一点智能
发布2024-03-22 15:01:33
5160
发布2024-03-22 15:01:33
举报

作者:贾明达,杨金明,孟维亮,郭建伟,张吉光,张晓鹏

来源:《中国图象图形学报》

编辑:东岸因为@一点人工一点智能公众号

在数字仿真技术应用领域,特别是在自动驾驶技术的发展中,目标检测是至关重要的一环,它涉及到对周围环境中物体的感知,为智能装备的决策和规划提供了关键信息。

近年来,随着传感器技术的进步,图像和点云成为了两种主要的感知数据源,它们各自在基于深度学习技术的目标检测方法研究中具有独特的优势。

为了更加全面地对现有基于点云和图像的目标检测方法进行研究,本文对基于图像、点云及两者联合的三类目标检测算法进行系统的梳理和总结,旨在探索如何将这两种数据源融合起来,促进提高目标检测的准确性、稳定性和鲁棒性,并对融合点云和图像的环境目标检测发展方向进行展望。

00 引言

目标检测是计算机视觉领域的一个重要任务,旨在从图像或视频中准确地识别和定位特定目标。它在许多应用中发挥着关键作用,如自动驾驶、视频监控、人脸识别等。目标检测算法的发展经历了多个阶段,逐渐从传统的基于手工特征的方法发展到了基于深度学习的方法(Arora等,2007,Aldoma等,2012)。

传统的目标检测方法通常涉及针对图像进行特征提取、目标分类和位置回归等步骤。其中常用的特征包括Harr(Viola等,2001)、HOG(Dalal等,2005)和 SIFT(Ng等,2003)(Scale-Invariant Feature Transform)。这些方法在一定程度上能够实现目标检测,但受限于手工设计的特征和分类器的性能,对于复杂场景和变化较大的目标具有局限性。随着深度学习技术的兴起,基于深度神经网络的目标检测方法逐渐成为主流。其中最具代表性的是基于卷积神经网络(Convolutional NeuralNetwork, CNN)的方法。CNN通过多层卷积和池化操作,能够自动学习图像中的特征表示。在目标检测中,基于CNN的方法通常可以按照两个主要的分类方式进行划分:单阶段(One-stage)方法和两阶段(Two-stage)方法。单阶段方法直接在图像上密集预测目标的类别和位置,通常速度较快,代表性的算法包括YOLO系列(Bochkovskiy等,2020)和SSD系列(Liu 等,2015)等。两阶段方法则首先生成候选框,然后再对候选框进行分类和位置回归,代表性的算法包括基于选择性搜索的R-CNN(Girshick等,2014)、Fast RCNN系列(Girshick,2015)和基于候选框生成的Faster R-CNN系列(Ren 等,2017)。由于两阶段方法需要进行两个步骤,会影响模型最终的计算速度。随着硬件性能的不断提升,目前基于单阶段的环境目标检测方法已经成为主流计算方法。

与此同时,随着激光雷达(Light Detection and Ranging,简称LiDAR)技术的不断发展和成本的下降,LiDAR数据也被逐渐地引入到目标检测领域。在 LiDAR数据中,任何物体都以其表面的无序离散点表示,从这些无序离散点中,准确检测出代表目标(如行人、车辆)的点云块并给出目标位姿是一个具有挑战性的任务。由于LiDAR数据的独特性,可以提供高精度的障碍物检测和距离测量,帮 助车辆感知周围的道路、车辆和行人目标。通过与其他传感器相结合,LiDAR可以实现多模态感知,从而显著提高目标检测的准确性和鲁棒性。

近年来,研究人员提出众多针对点云与图像的3D目标检测方法(Arnold等,2019, Guo等,2021),现有主流的3D目标检测方法按照输入数据模态的不同,可划分为以下三种:

1)基于图像的3D目标检测。由于2D图像本身缺少深度信息,直接使用2D图像进行3D目标检测往往十分困难。主流的基于图像的3D目标检测方式可以分为基于纯图像的3D目标检测、基于深度估计的3D目标检测、基于先验引导的3D目标检测和基于多视图的3D目标检测。尽管这些方法在数据使用或特征表示层面有所不同,但它们都从二维图像中获取目标的三维特征,以进行对目标三维位置、姿态和形状等信息的推断。

2)基于点云的3D目标检测。此类方法通常以LiDAR点云(Yan等,2018)作为输入,相比图像数据,LiDAR点云提供了更为准确和稠密的三维数据,能够更精确地描述目标的几何属性。这类方法可以分为两个大类。一类方法直接使用原始点云数据进行目标检测,对输入的三维点云数据直接进行数据预处理、特征提取和分类检测等操作。另一类方法则将原始点云先转化为其他的数据表示,如体素(Voxel)(Catmull,1998)、鸟瞰图(Bird’s Eye View或BEV)(Chen等,2017)和距离图像(Range View)(Fan等,2021)等视图,然后进行基于图像的目标检测。

3)融合点云和图像的3D目标检测(Xu等,2018)。此类算法通常使用多模态融合的方法实现3D目标检测,结合图像和激光雷达两种数据源的特点,可以获得更加丰富的融合信息,拥有更好的稳定性和鲁棒性(Feng等,2021)。

目前已有研究者对基于图像和LiDAR的3D目标检测研究进行了总结整理。已有工作包括对3D点云方法中的分类、追踪、分割等各项任务进行研究(Guo等,2021),也包括面向多模态自动驾驶中的目标检测和语义分割方法(Feng等,2021),以及自动驾驶应用技术的发展现况(Arnold等,2019)和多模态目标检测等新型融合手段(Wang等,2023)。这些综述大多针对3D目标检测的某一具体领域,并非注重不同方法之间的联系,且随着目标检测技术的迅速发展,部分综述的内容已经不能完全适用现有的研究进展。

为了研究人员可以对融合图像和点云的目标检测算法进行更好更快的了解,本文主要对已有目标检测算法进行总结提炼,按照基于点云、图像、图像和点云多模态融合的方法对目标检测算法进行分类,对各类方法进行优缺点分析及探讨可能的解决方案。同时从数据采集及表示、模型设计等不同角度对融合点云与图像的目标检测算法的发展进行更全面的综述,并对环境目标检测的未来做出展望。

本文的主要贡献如下:

1)总结概括了当前环境目标检测中的常用数据采集方式、数据集、数据形式和发展现状。

2)按照基于点云、图像、图像和点云多模态融合的方法对目标检测算法进行分类,对各类方法进行详细的介绍,对各类方法之间的联系做了分析及梳理。

3)提出环境目标检测研究中的现存问题和未来展望。

01 环境目标检测研究现状

1.1 图像及点云数据的采集

图像数据使用通用相机即可进行采集,但在三维位置信息的计算方面,常受到精度方面的限制。激光雷达通过主动发射激光束,测量光线打到物体或表面再反射回来所需要的时间,来计算激光雷达到目标点的距离,这个过程中会获取数百万计的数据点,构建出其正在测量的空间表面的复杂“地图”,称为“点云”。点云数据以离散无序的三维点的形式呈现,每个点都包含了其在空间中的准确坐标。这使得点云数据能够直接捕捉到物体的三维几何特征,而不受视角变化的影响。相比于图像数据,点云数据具有独特的优势,可以提供更加精确的深度信息,包括物体的位置、形状和大小,从而有效减轻二维图像中常见的遮挡问题(Cui等,2022)。

1.2 常用的3D目标检测数据集

在现有研究中,研究人员常常依赖于各种广泛使用的公开数据集来评估和验证他们的算法和自动驾驶系统。常用的3D目标检测数据集主要有以下几种:

1.2.1 KITTI数据集

KITTI数据集(Geiger等,2012)是一个广泛应用于自动驾驶领域,由德国卡尔斯鲁厄理工学院和丰田工业大学芝加哥分校联合赞助的用于自动驾驶领域研究的数据集。KITTI数据集使用64线的Velodyne激光雷达完成点云数据采集,并使用通用相机进行对应图像的采集,其中包含车辆、行人、自行车等常见的道路上的物体,具有较高的标注精度和相对明确的场景范围,可用于多种自动驾驶场景的视觉算法评估,如光流、深度估计、2D/3D目标检测、目标跟踪等任务。

1.2.2 nuScenes数据集

nuScenes数据集(Caesar等,2020)是由在波士顿和新加坡拍摄的不同驾驶场景组成的,也是自动驾驶领域使用的另一个广泛的公开数据集之一,是目前最权威的自动驾驶纯视觉3D目标检测评测集。nuScenes数据集注重真实世界中的多样性和复杂性,涵盖不同地点、不同时间和不同天气情况的驾驶环境,每个环境的时长为20s,其数据标注量是KITTI的7倍,且是首个包含全传感器套件的数据集。此外,KITTI数据集中大多是白天和天气条件较好的场景,而nuScenes数据集的场景包含夜晚及雨天,更具有挑战性。

1.2.3 Waymo数据集

Waymo数据集(Sun等,2020)是由谷歌旗下的Waymo公司提供的大规模3D 感知数据集。Waymo包含798个训练场景、202个验证场景和150个测试场景,每个场景的时长为20s。Waymo数据集的标注频率比nuScenes高5倍,场景数量是nuScenes数据集的3倍,有数量更多且更密集的2D/3D标签。Waymo数据集对自动驾驶算法的鲁棒性和泛化能力提出了更高的要求,是目前为止最大、最多样化的数据集。

1.3 目标检测中常见的数据表示形式

在现有研究中,环境目标检测的数据主要表示形式可以划分为以下几种。

1.3.1 图像数据

常用的视觉传感器主要包括单目相机和深度相机。单目相机通常用于获得该视角下的二维图像,即RGB图像与灰度图像,可以提供丰富的纹理信息和色彩,且这类图像的处理速度相比点云数据要更快,占用的计算资源要更少。深度相机则用于获得图像中的每一个点到相机的距离,即每一个点的三维空间坐标(Xu等,2019)。图像数据一直以来都是环境目标检测研究中十分重要的一种输入数据。

1.3.2 原始点云

原始的三维点云可使用激光雷达、深度相机或双目相机获得,能够直接作为目标检测模型的输入数据,通过深度学习网络进行深层特征提取,从而完成目标检测或语义分割任务。典型的对原始点云数据直接处理的工作有PointNet(Charles等,2017)、PointNet++(Qi等,2017)等工作。原始点云数据在笛卡尔坐标系中使用(x,y,z)进行编码,其视觉显示效果如图1所示,一般附带每个点的反射强度等相关信息。直接使用原始点云进行目标检测的计算成本相对更高,设计模型时需要考虑点云数据本身的无序性和稀疏性。

图 1 来自激光雷达扫描的原始点云数据
图 1 来自激光雷达扫描的原始点云数据

1.3.2 体素

体素是一种有效表示原始点云的数据处理方式,点云的体素化是指将连续的三维点云数据划分为离散的三维网格空间的过程。每个体素网格代表一个固定大小的三维空间,如图2所示,类似图像中的像素(Zhou等,2018)。一般这个过程需要选择合适的体素分辨率,用于确定每个体素网格的大小。更小的体素网格代表着更大的计算开销和更高的计算精度。对点云进行体素化是一种被广泛使用于环境目标检测研究的数据预处理方式。

图 2 体素数据
图 2 体素数据

1.3.3 前视图

前视图(Front View,FV)是指从一个特定视角对场景或对象进行观察和捕捉,并将观察到的信息以二维图像形式表示的数据。前视图数据通常通过摄像头、相机或其他视觉传感器进行捕获,也可以通过将三维点云数据投影到二维平面上获取(Ku等,2018),如图3所示。

图 3 前视图编码方式
图 3 前视图编码方式

通过3D点云数据获取前视图的过程可以选定不同的投影方式:正交投影和透视投影。正交投影将点云直接投影到平行于视平面的平面上,透视投影则模拟人眼观察物体时的透视视角完成投影。不同的前视图投影方式往往对应着不同的平移、缩放和旋转等坐标变换操作。

1.3.4 鸟瞰图

鸟瞰图(Bird’s Eye View或BEV)与前视图类似,属于点云数据在某一视角(即俯视角)下的投影,鸟瞰图也可以使用多种编码方式对点云进行处理,如图4所示。

图 4 鸟瞰图编码方式
图 4 鸟瞰图编码方式

在鸟瞰图表示下,前后遮挡的物体在垂直视角无相互遮掩,且每个物体都保留长度和宽度信息。使用鸟瞰图转化而来的特征便于后续模型在垂直方向上的检测和定位(Chen等,2017)。

1.3.5 柱体

柱体表示(Vora等,2020)是一种将点云数据转为柱体空间的表示方法。在柱体表示中,点云中的点被分配到一个柱形空间,类似于体素的划分网格。每个柱体以一定步长对点云在x和y方向上进行区域划分,而不对z方向上进行划分。

1.4 国内外环境目标检测研究现状

近年来自动驾驶领域迎来快速发展,从自动驾驶的环境感知算法层面来看,目前主流技术路线可以分为两种:纯视觉技术路线和使用激光雷达的技术路线。纯视觉路线仅使用相机图像对周围环境进行目标检测感知,代表公司有特斯拉和百度Apollo Lite等。使用激光雷达进行三维环境感知仍是目前大部分企业的首选,如华为、Uber、Waymo等都属于此类算法的研究团队。

就基于点云的环境目标检测算法而言,近些年来国内已有许多研究单位对此开展研究工作,同时也有多家单位具备点云数据获取的扫描设备并取得了相应成果,如北京大学提出基于BEV特征空间的视觉与LiDAR高性能融合框架(Liu等,2022)、腾讯优图提出基于点云体素化的高效多阶段目标检测(Chen等,2019)以及基于点的点云稀疏到稠密多阶段目标检测模型(Yang等,2019)、商汤科技提出利用激光雷达线索进行非监督辅助的目标检测方法(Tian等,2021)等工作,都在一定程度上推动了基于图像和点云的环境目标检测研究。

1.5 融合点云和图像多模态目标检测的现存问题

1)数据标注困难:点云和图像数据的标注工作相对复杂和耗时,尤其是对于大规模数据集。同时,由于点云数据的稀疏性和存在噪声点的影响,对点云数据进行精确的标注也是一项挑战。

2)跨模态融合:点云和图像数据是两种不同的感知模态,其数据结构和特征表示方式存在差异。如何有效地融合这两种模态的信息,提取出准确且完备的可用特征,是目前的一个研究热点。

3)大规模点云数据的处理:点云数据通常包含大量的三维坐标,相比纯图像数据而言,处理大规模点云数据对计算资源和算法效率有着更高的要求。如何高效地处理和利用大规模点云数据,也是亟待解决的问题之一。

02 基于图像的目标检测

基于图像的目标检测工作分为2D目标检测和3D目标检测两个大类。其中3D目标检测很多的研究是在2D目标检测算法的基础上进行的。

基于图像的2D目标检测可分为两种:基于候选区域的方法和基于回归的方法。基于候选区域的目标检测方法首先生成一组候选区域来进行目标的初步定位,再使用神经网络及各种附加条件进一步确认感兴趣区域(Region of Interest,ROI)中物体的位置和类别等信息(Cao等,2022)。这类工作的代表性方法有R-CNN(Girshick等,2014)、Fast R-CNN(Girshick,2015)、Faster R-CNN(Ren等,2017)和Mask R-CNN(He等,2017)等。基于回归的目标检测方法则将目标的边界定位问题转化成端到端的回归问题,舍弃了区域(Region)的思想,直接获取目标的边界描述,如SSD(Liu等,2015)、Yolov4(Bochkovskiy等,2020)、RetinaNet(Lin等,2017)、EfficientDet(Tan等,2020)等。

然而单纯使用2D的目标检测模型并不能为自动驾驶场景提供有效的物体定位,因此很多研究人员试图从2D目标检测方法出发,将其中的检测模型扩展为3D目标检测。本文侧重介绍3D目标检测的相关方法,并将其分为以下几类。

2.1 基于纯图像的单目3D检测

单目3D目标检测最直接的方案是通过神经网络直接从图像中获得物体的3D检测框参数,即与2D目标检测类似,同样可以分为基于候选区域的目标检测方法和基于回归的目标检测方法。此外这些方法也可以按照是否使用锚点(anchor)和是否为端到端方式来分类。

基于锚点的目标检测方法有基于3D锚点、2D锚点、深度锚点等不同的锚点设置,旨在将物体的位置通过度量的方法确定,用真实值与给出的锚点预测值做偏差纠正,不断优化模型的目标检测效果,如YOLO系列和RCNN系列都是使用锚点进行目标检测的经典工作,目标检测任务中的锚点如图5所示

图 5 目标检测任务中的锚点
图 5 目标检测任务中的锚点

无锚点的方法同样使用卷积神经网络对图像进行处理,区别在于无锚点方法直接对物体的相关参数进行预测,可看作网络自行学习锚点的位置与形状。无锚点预测算法有许多模型组件,包括分类头、中心点检测头、中心点偏置回归头、深度距离回归头、关键点检测头等等。代表性的无锚点目标检测工作有:FCOS(Tian等,2019)、CornerNet(Law等,2020)、CenterNet(Duan等,2019)、ExtremeNet(Zhou等,2019)等。

单阶段3D目标检测方法可以自然地借鉴2D目标检测网络架构的设计,以端到端的方式训练模型。其中基于锚点的单阶段3D目标检测方法有M3d-rpn(Brazil等,2019)、Kinematic3d(Brazil等,2020)、M3dssd(Luo等,2021)、FQNet(Liu等,2019)等。无锚点单阶段3D目标检测方法则有Smoke(Liu 等,2020)、Fcos3D(Wang等,2021)、MonoEF(Zhou等,2021)、OFT(Roddick等,2018)、MoVi-3D(Simonelli等,2020)等。

多阶段3D目标检测方法通常需要一定的手工设计将传统的两阶段2D检测体系扩展到3D目标检测,即在第一阶段利用2D检测器从输入图像生成2D目标框,然后在第二阶段通过物体2D视角的ROI来预测3D视角下的各项参数,以形成完整的3D检测框,如Gs3d(Li等,2019)、Monogrnet(Qin等,2022)、MonoRCNN(Shi等,2021)、GUPNet(Lu等,2021)。

总的来说,基于纯图像的单目3D目标检测方法通过改进的2D目标检测框架,从图像中直接回归3D检测框的参数,往往能直接受益于2D图像处理的相关研究,且其中大多数方法都可以进行端到端训练,不需要进行预训练或后处理。然而仅使用单目2D图像直接回归每个3D物体的深度是一项困难的任务。深度信息带来的误差容易成为阻碍3D目标检测任务的关键因素,该过程只有检测框级别的标注作为监督的真值,限制了模型的性能提升。

2.2 基于深度估计的单目3D检测

基于深度估计的单目3D检测是指利用深度学习方法从单张图像中推断对应深度信息并估计物体位置和姿态的目标检测方法。深度估计是这类方法中重要的一环,许多工作采用预训练辅助深度估计网络的方法,以获得准确的单目检测结果。

具体来说,这类方法需要将单目2D图像送入预训练好的深度估计器以获得深度图像,如MonoDepth(Godard等,2017)和DORN(Fu等,2018),得到的深度图像可通过基于深度图像的方法和基于伪激光雷达的方法完成后续的3D目标识别和定位(Jin等, 2023)。

基于深度图像的方法将图像和深度映射与专门的神经网络融合,生成深度感知特征,可以提高检测性能,如MultiFusion(Xu等,2018)、MonoFENet(Bao等,2020)、D4LCN(Ding等,2020)和DDMP(Wang等,2021)。而基于伪激光雷达的方法将深度图像转换为伪激光雷达点云,并将伪激光雷达点云送入基于激光雷达的3D检测器,如Pseudo-LiDAR(Wang等,2019)、AM3D(Ma等,2019)、Deep Optics(Chang等,2019)。

2.3 基于先验引导的单目3D检测

研究人员也在不断探索图像中目标的形状和场景几何等先验知识,以建立3D目标检测框在世界坐标系下和像素坐标系下的对应关系,从而去解决病态的单目3D目标检测。例如,通过引入预训练好的子网络来学习有关3D物体的先验知识,来辅助2D目标检测获得3D目标检测的能力。其中可学习的先验知识包括:目标形状先验、类别先验、尺度先验、姿态先验等等。代表性的工作有Mono3d++(He等,2019)、Roi-10d(Manhardt等,2018)、MonoPSR(Ku等,2019)、Shift r-cnn(Naiden等,2019)、Rtm3d(Li等,2020)、Kinematic3d(Brazil等,2020)等。

2.4 基于多视角图像的BEV目标检测

使用鸟瞰图(BEV)表示进行3D目标检测的优势在于,可以有效减缓目标检测中的遮挡问题,并且保留了物体的高度和宽度信息。相比于在单目3D检测过程中使用的前视图,使用BEV进行物体的定位往往拥有更小的垂直位置误差,更易获得准确的3D检测框。但是将点云转成BEV会丢失大量纵轴上的信息,对于行人、路标等物体来说,检测效果不佳。

较于点云直接转化成BEV特征进行感知,以多视角匹配的方式将多视角图像序列转化成BEV特征进行感知得到的语义信息更为丰富,同时能够得到较为准确的深度信息。常见的透视图到鸟瞰图方法可分为两大类,一类是基于集合投影将透视图转化为BEV的传统方法,另一类是以数据驱动的方式隐式利用几何关系将多视角图像转化为BEV特征。近几年来基于数据驱动的透视图到鸟瞰图方法受到了较为广泛的关注,如BEVFusion(Liu等,2022)、BEVFormer(Li等,2022)、BEVFormerV2(Yang等,2022)、M2BEV(Xie等,2022)等。

BEVFormer提出一个采用纯视觉多视角图像的3D目标检测模型,通过2D卷积神经网络提取环视图像的多尺度特征,然后将其以模型学习的方式,通过时域和空域的注意力模块对图像特征编码生成BEV特征,最后接入特征解码器实现3D目标检测和地图分割任务。

BEVFormerV2为克服BEVFormer检测器结构过于复杂导致编码器和解码器梯度流扭曲的问题,引入了透视3D检测头,即从透视视角产生的监督信号直接作用于骨干网络,指导骨干网络学习2D识别任务中丢失的3D信息,促进了模型的优化过程。同时模型也将上述透视检测头和BEV检测头合并为一个多阶段的BEV检测器,很大程度上提高了模型BEV识别的适应性和收敛速度。

随BEV感知算法的不断发展,基于多视角图像的BEV目标检测已经成为目前主流自动驾驶系统的首选感知方案,在实时系统的高效计算、路径规划等任务上都有着亮眼的表现。

03 基于点云的目标检测

基于点云的目标检测算法是近年来计算机视觉领域的研究热点之一。早期研究阶段,研究人员主要探索基于传统的几何学和机器学习方法,依赖于手工设计的特征和规则对目标点云进行分割和分类等任务,具有很大的局限性。随着深度学习的兴起,在Pointnet和Pointnet++等经典工作最早将点云数据应用于深度学习之后,研究人员开始将深度学习应用于点云目标检测中。目前基于点云的目标检测算法可以划分为基于点的目标检测、基于体素的目标检测、基于BEV的目标检测和基于距离图像的目标检测。

3.1 基于点的目标检测

基于点的目标检测是指直接通过原始点云数据来预测3D目标的位置。这类方法通常包括以下几个模块:

1)数据预处理:包括移除离群点、点云滤波等操作,以便消除点云中的噪声,从而提高点云的质量和位置的准确性。

2)特征学习器:通过深度学习的手段学习点云的特征表示,这些特征往往由局部特征和全局特征共同组成,以便更好地区分目标和背景。

3)目标检测器:即在特征提取模块之后给网络加上目标检测器。与2D目标检测器不同,点云目标检测器的输入特征往往更关注于点云的法线、周围点的分布、强度等属性,不同于直接从像素图像中提取特征。通常点云目标检测头会输出目标的类别、3D边界框的坐标和目标的置信度等信息,与基于图像的3D目标检测器并无不同。

基于点的3D目标检测器最重要的模块为特征学习器部分,可分为点云采样模块和特征学习模块:

1)点云采样:点云采样决定输入点云数据的密度和分布,对后续特征学习和目标检测的性能有重要的影响。常见的传统点云采样方式有:均匀采样、全局采样、局部采样、自适应采样等。最近工作往往关注以深度学习模型来指导点云进行采样,通过学习点云的重要性权重和点云的分布来获得更优质的采样点云。点云采样中很经典的工作是PointNet++为解决PointNet计算量过大问题时使用的最远点采样算法,即从所有的输入点云中采样了一定数量的点,希望这些点能够包含尽可能多的有用信息,以放大不同采样点之间的差异。

2)特征学习:基于点的目标检测器在对单个点进行特征提取时,可以采用单个点本身来描述该点的特征,但更有效的方式时是使用该点的邻近点来获得局部特征。这种局部特征提取的操作需要对模型的性能和开销做出一定平衡。增加邻近点的数量可以使模型具有更强的表达能力,但同时会增大内存开销,且使用过多的临近点来获取某一点对应的特征也会导致细粒度信息的丢失。减少邻近点的数量则可能导致局部特征描述不够充分,丢失相关的语义信息。

目前基于原始点云数据的目标检测研究,大多是对上述采样模块和特征学习模块两个组件及目标检测分类头进行改进的结果,如PointRCNN(Shi等,2018)、IPOD(Yang等,2018)、STD(Yang等,2019)、3DSSD(Yang等,2020)、Point-GNN(Shi等,2020)、StarNet(Ngiam等,2019)和 Pointformer(Pan等,2020)。这些基于点的目标检测方法在小规模数据集上往往有着不错的效果,能表现出比较高的检测精度,但是在大规模自动驾驶数据集上难以达到实时且高效的检测效果。

3.2 基于体素的目标检测

基于体素(Voxel)的目标检测算法将不规则的点云转化为紧凑形状的体素表示,然后通过3D卷积网络提取目标检测所需的点云特征。与基于点的目标检测算法相比,使用体素进行3D目标检测要更加高效。这种将点云体素化后再处理的方法已经受到了研究人员的广泛关注,代表性工作有Vote3D(Wang等,2015)、Vote3Deep(Engelcke等,2017)、3D-FCN(Li等,2017)、VoxelNet(Zhou等,2018)、SECOND(Yan等,2018)、PointPillars(Lang等, 2019)、CenterPoint(Yin等,2021)。

VoxelNet是基于体素进行目标检测的开山之作,是一种端到端的3D目标检测框架。VoxelNet将三维点云划分为一定数量的体素,经过点的随机采样以及归一化后,对每一个非空体素使用若干个体素特征编码器(Voxel Feature Encoding,VFE)进行局部特征提取得到体素级特征,然后经过3D中间卷积层完成进一步特征提取(增大感受野并学习几何空间表示),最后使用选框提议网络对物体进行分类检测与位置回归。相比VoxelNet,SECOND(Yan等,2018)最大的创新点在于将3D卷积替换为稀疏卷积,提高了Voxel模型的运行速度并且减少了内存占用,同时提出一种新的朝向角度损失函数和新的数据增强方法,取得了不错的效果。

SECOND算法和VoxelNet都是将点云数据划分为一个个体素,构成规则的、密集分布的体素集。而PointPillars则采用了一种不同于上述两种思路的点云建模方法,提出将点云数据转化为一个个的Pillar柱体编码。首先利用柱体的方式将点云转化为稀疏的俯视角度伪图像,再使用2D神经网络进行特征学习和物体位置回归,大大提高了基于体素的目标检测网络的性能,为后续相关工作提供了重要思路和技术基础。

总的来说,将点云表示为体素的形式,并使其规则化,有利于后续网络进行高效的特征处理。目前大多数基于体素的目标检测算法改进的内容包括以下几点:1)提高网络对体素空间的感知能力;2)改进点云的采样过程,以更好地保留物体的三维结构信息;3)和其他通用模型进行融合以及有效的结构迁移。然而体素化表示点云也存在一定缺陷,这种数据表示方式仍然难以避免因忽略有效信息而带来的量化误差,点云采样过程的不确定性也会影响检测模型结果的稳定性和一致性。

3.3 基于BEV的目标检测

对基于点云的BEV目标检测算法而言,在特征提取部分,主要有两种方式将点云数据转换为BEV表示。根据流水线顺序,可分为BEV前特征提取和BEV后特征提取方法,分别对应主干网络的输入来自3D表示和BEV表示。

BEV前特征提取算法先对原始点云进行体素化,然后对得到的体素网格表示做3D特征提取,最后转为BEV表示。如PV-RCNN(Shi等,2020)是BEV前特征提取方式中的经典工作。PV-RCNN提出一种体素到关键点的编码方法,首先将空间中的点云数据体素化,利用稀疏卷积网络进行多次的特征提取与下采样。而后PV-RCNN使用每一层的稀疏卷积网络特征图来提取多尺度特征,再将得到的特征投影到鸟瞰图上进行一阶段的目标检测,最后利用先前的多尺度特征对一阶段的目标检测结果进行优化以得到更精确的检测结果。类似基于BEV前特征提取的方法还有SA-SSD(He等,2020)、Voxel R-CNN(Deng等,2021)等。

BEV后特征提取方法则首先将原始点云数据压扁到BEV视角,再对得到的BEV视图进行2D特征提取,送到目标检测头进行物体定位。其中具有代表性且最早将点云数据转化为BEV表示的工作是MV3D(Chen等,2017)。MV3D将点云数据离散化为BEV网格后,根据网格中点的高度、强度和密度特征,获取表示BEV网格的特征。不过由于单个BEV网格有许多点,这一处理过程中,网络信息损失较大。不少的BEV后特征提取方法都遵循了类似的模式,用BEV网格中的统计数据表示点云,例如最大高度和强度平均值。前文提到的PointPillars本质上也可归类为基于BEV后特征提取的目标检测方法,其他的相关工作还有PIXOR(Yang等,2018)、BirdNet(Beltrán等,2018)、Rt3d(Zeng等,2018)、YOLO3D(Ali等,2018)等。

3.4 基于距离图像的目标检测

距离图像(Range Image)是一种密集紧凑的2D表示,如图6所示,每个像素都包含3D深度信息。距离图像的优势在于信息稠密且无需进行栅格化,可以直接使用2D卷积网络进行特征提取及快速的领域查询,且距离图像的检测范围可以和传感器真实的检测范围一样远。

图 6 距离图像
图 6 距离图像

RangeDet(Fan等,2021)是基于距离图像进行3D目标检测的经典工作之一。RangeDet认为限制距离图像性能的因素主要有三个:距离图像中尺寸变化大、距离图像中的2D卷积丢失3D信息、距离图像中提取的特征十分稠密但是难以有效利用。对此RangeDet采用距离图像金字塔以解决尺寸问题,使用Meta卷积从2D距离图像表示中获取3D几何信息,然后使用加权非最大抑制算法来充分提高检测器的性能,最终模型在Waymo(Sun等,2020)数据集上取得了不错的性能提升。其他基于距离图像进行3D目标检测的方法还有LaserNet(Meyer等,2019)、LaserFlow(Meyer等,2021)、RangeRCNN(Liang等,2020)、RangeIoUDet(Liang等,2021)、RCD(Bewley等,2021)、RSN(Sun 等,2021)等。当然基于距离图像进行3D目标检测也有其固有的局限性,这种检测方式往往很容易受到遮挡和尺度变化的影响,会导致3D信息的损失,使得模型难以处理物体之间的遮挡。因此,从距离视图中提取特征,并从BEV视图中进行目标检测有潜力成为基于距离图像进行3D目标检测最实用的解决方案。

04 融合点云和图像的目标检测

相机可以提供高分辨率的颜色图像,有助于模型提取丰富的语义特征。激光雷达则擅长3D定位,提供精确的距离和空间信息,便于准确地捕捉到物体的几何结构。为了提升3D目标检测模型的性能,许多研究工作已经将相机和激光雷达的信息进行融合。通过融合两种传感器的信息,多模态目标检测模型可以综合利用每个模态各自的优势,提高目标检测的准确性和鲁棒性(Liu等, 2024)。

4.1 按照融合阶段分类

4.1.1 前期融合

前期融合又称作数据级融合,需要点云和图像数据在各自的分支都在采用特征提取器,而后在特征层中做一定的交互,将图像的知识整合到点云中,其结构如图7所示。经过整合的点云可看作是经过图像增强的点云,模型将增强后的点云数据反馈给基于LiDAR的3D目标检测器,可以让模型获得更加丰富的语义信息。

前期融合方法通常会带来较高的推理延迟,融合步骤需要复杂的2D目标检测或语义分割网络,给模型带来较高的时间成本。

图 7 前期融合
图 7 前期融合

4.1.2 深度融合

深度融合是指在基于LiDAR的3D目标检测器的中间阶段融合图像和激光雷达特征(例如骨干网络阶段、预选框生成阶段和RoI细化阶段),其网络结构如图8所示。

相比前期融合,深度融合方法可以对多模态表示进行更深层的融合,产生更高质量的3D检测框与深层特征,且降低了前期融合所需的计算量。然而图像数据和 LiDAR数据特征本质上是异构的,深度融合过程要考虑在统一的特征空间下保留好图像数据包含的语义信息和LiDAR数据对应的空间几何信息,以免损害模型目标检测任务的性能。

图 8 深度融合
图 8 深度融合

4.1.3 后期融合

后期融合也称决策融合,是指将来自不同传感器或模态的决策输出进行综合,以得出最终的目标检测结果。与前期融合和深度融合相比,后期融合能更好地利用现有网络对每个模态的指导,容易得到每个模态的反馈。然而决策融合的缺点是:不能使用融合过程中丰富的深度融合特征,且不同模态的分支预测结果相差过大时,难以给出精确结果。

后期融合的选择需要考虑模态之间的相关性、不确定性以及任务的要求,合理的后期融合策略可以大大提高多模态环境目标检测的性能,消除不同模态之间的噪声和不一致性,使系统更加鲁棒和可靠。

图 9 后期融合
图 9 后期融合

4.2 按照数据粒度分类

随着不同的融合方式及阶段的细分,越来越多的算法不能够单纯按照融合阶段进行分类(Huang等,2023),例如MMF(Liang等,2019)不仅有深度融合,也有后期的决策融合。同样PointPainting(Vora等,2020)也不属于任何一种上述提到的融合策略,而是采用串行融合方式。尤其是前期融合和深度融合阶段,仅仅按照时间进行划分并不能较好区分不同多模态目标检测算法。

前期融合和深度融合阶段可以统称为特征级融合,特征级融合往往关注特征层之间的相互作用,关注不同特征层的数据表示,结合不同模态的特征实现多尺度和多层次融合。特征级融合可以按照特征层粒度的不同分为基于ROI粒度的特征融合(MV3D(Chen等,2017)、PointFusion(Xu等,2018)、AVOD(Ku等,2018)、F-Pointnet(Qi等,2018)、F-Convnet(Wang等,2019)、SCANet(Lu等,2019)、RoarNet(Shin等,2019)、SIFRNet(Zhao等,2019))、基于体素粒度的特征融合(ContFuse(Liang等,2018)、MVX-Net(Sindagi等,2019)、MMF(Liang等,2019)、3D-CVF(Yoo等,2020))、基于点的特征融合(IPOD(Yang等,2018)、PointPainting(Vora等,2020)、HorizonLiDAR3D(Ding等,2020)、MVAF(Wang等,2021)、VPF-Net(Wang等,2021)、PI-RCNN(Xie等,2020)、FuseSeg(Krispel等,2020)、CenterPointV2(Yin等,2021)、EPNet(Huang等,2020)、PointAugmenting(Wang等,2021))。上述不同粒度的特征融合目标检测算法按照时间排序如图10所示。早期的特征融合算法的特征粒度普遍较为粗糙,随着多模态目标检测技术的逐渐成熟,越来越多的研究者将目光投向细粒度、多种类、高性能的多模态融合算法研究。

图 10 不同粒度特征融合的目标检测算法
图 10 不同粒度特征融合的目标检测算法

4.3 常见3D目标检测数据集上的部分算法

KITTI数据集对于3D目标检测任务将标签细分为机动车、行人、自行车等目标,通过比较预测边框和真实边框的重叠程度以及阈值的大小判定3D目标定位结果的正确性,通过置信度分数和阈值的比较确定目标识别结果的正确性,最终使用平均正确率来评估单类的目标检测模型结果。

对于汽车目标,KITTI要求3D边界框重叠为70%,而对于行人和骑自行车的人,重叠率为50%即为正确。同时KITTI数据集根据边界框高度、遮挡和截断程度指标将标注目标划分为简单(Easy)、中等(Moderate)和困难(Hard)3个难度级别。以下是目前在KITTI数据集上领先的部分3D目标检测算法,表格内容为模型对应的平均正确率和用时。

表1 KITTI数据集上领先的3D目标检测算法(车辆目标)
表1 KITTI数据集上领先的3D目标检测算法(车辆目标)
表2 KITTI数据集上领先的3D目标检测算法(骑行目标)
表2 KITTI数据集上领先的3D目标检测算法(骑行目标)
表3 KITTI数据集上领先的3D目标检测算法(行人目标)
表3 KITTI数据集上领先的3D目标检测算法(行人目标)

nuScenes数据集的评价指标相对KITTI数据集要更为丰富,包括平均精度均值(mAP)、平均平移误差(mATE)、平均角度误差(mAOE)和平均属性误差(mAAE)、各项指标平均加权(NDS)等等。

以下是目前在nuScenes数据集上领先的部分3D目标检测算法,表格内容为模型对应的输入模态、mAP、mATE和mAAE。其中输入模态分别使用字母C、L和R代表图像、激光雷达和毫米波雷达。

表4 nuScenes数据集上领先的3D目标检测算法
表4 nuScenes数据集上领先的3D目标检测算法

Waymo数据集也使用常见的平均精度指标(AP),但Waymo数据集计算AP时将其计算为P-R曲线下的面积,而非KITTI使用的插值方法。此外Waymo还引入了平均精度航向(APH)指标,用以计算航向信息的相关误差。关于检测3D目标的难度,Waymo定义了两个不同的级别,即LEVEL 1和LEVEL 2。LEVEL 2中分配的目标被认为是最难检测的目标,对应的LiDAR点数量更少,对基于LiDAR和融合图像与LiDAR的目标检测算法更具挑战性。

以下是目前在Waymo数据集上领先的部分3D目标检测算法,表格内容为模型对应的输入模态、mAP、mATE和mAAE。其中输入模态分别使用字母C、L代表图像和激光雷达。

表5 Waymo数据集上领先的3D目标检测算法
表5 Waymo数据集上领先的3D目标检测算法

总体来说,在KITTI数据集上排名靠前的方法主要是基于纯点云的目标检测方法。与之不同,在最新数据集如nuScenes和Waymo数据集上,排名靠前的方法则是多模态融合方法为主。

05 总结及未来展望

本文根据环境目标检测中基于图像和点云的相关技术,对基于深度学习的环境目标检测进行了阐述。首先介绍了3D目标检测的常用数据集和数据格式,其次按照不同的数据输入形式和模型内部的数据表示形式对3D目标检测算法进行划分。

尽管环境目标检测在自动驾驶及数字仿真技术领域有着很大的潜力,但目前仍然存在着一些问题和挑战。

1)数据获取困难:与2D图像数据集相比,获取和标注3D数据要更加困难,需要使用激光雷达或深度摄像头等特殊的传感器和设备,需要更加专业的标注人员进行复杂的信息标注,如物体的三维边界框、位姿和运动轨迹等,是一项相当耗时的任务。且对于多模态目标检测算法而言,可供使用的数据增强器类型相对较少,这点同样限制了模型的性能和泛化性提升,如何在多模态数据集上做有效的数据增强仍是一个需要探索的问题。

2)传感器故障和感知状态监控:感知系统尤其是自动驾驶系统,需要能够稳健地感知环境中的物体,同样要准确地检测出传感器自身发生的故障并采取措施。比如设计者可以采用多个相同传感器来增加信息的冗余度,通过比较每个传感器的操作来确定感知系统的稳定性。尤其对于多模态感知系统而言,以防某一模态传感器发生故障导致系统无法正常工作,需要使感知系统能够使用单一模态数据进行环境目标检测,保证在部分传感器故障的情况下稳定运行。

3)恶劣天气条件下的感知:在极端恶劣天气条件下的感知也是环境目标检测所面临的一个重要挑战。如对自动驾驶感知系统而言,在多雪多雾的条件下,无论是基于图像的系统还是基于LiDAR的系统都会存在感知困难。对于基于图像的系统而言,在多雪多雾的条件下,图像中的目标物体可能被雪花、雾气或雨滴等遮挡和模糊化,从而导致目标检测的准确性下降。此外,由于光线的反射和折射,图像的对比度和清晰度也会受到影响,使得目标的边界和细节变得模糊不清。对于基于 LiDAR的系统而言,激光束可能会被雪花、雾气或雨滴等散射介质所散射和吸收。这会导致激光雷达接收到的反射信号变弱或失真,从而使得检测目标的位置和形 状难以准确地重建。基于图像和LiDAR的目标检测算法仍然需要进一步的研究和技术创新,以提高感知系统在恶劣天气条件下的鲁棒性和可靠性。

未来对环境目标检测研究的发展方向可包括以下几个方面:

1)时间序列模型引入。现实生活中人类驾驶员是依靠连续的视觉感知来得到周围的环境信息,然而目前大多数工作都是在单帧的基础上解决环境感知问题。随着目标检测过程的进行,感知系统可以不断地生成图像序列和点云序列,这些序列数据中包含着隐含的物体结构以及运动轨迹信息。以上述序列数据作为基础,以此增加时间线索和物体的位置约束,将会使得环境目标检测过程拥有更好的鲁棒性和环境理解,以实现更智能的感知模型。

2)基于2D深度估计及多视角2D图像的目标检测方法。基于2D图像的环境目标检测在性能上与基于LiDAR的方法相比,仍然相差较大。提升2D图像进行深度估计的准确性,或采用多视角2D图像都可以作为使用2D图像进行3D目标检测的有效手段。这两种使用纯图像的环境目标检测方法,不仅可以直接作为3D目标检测的骨干,也可以为基于图像和LiDAR融合的多模态3D目标检测算法奠定基础。

3)多模态感知算法精度与速度的平衡。在自动驾驶和机器人导航领域中,环境目标检测过程需要在实时性要求较高的场景下进行。这是因为自动驾驶系统需要快速响应和适应变化的道路条件和交通情况,以确保车辆的安全性和稳定性。在多模态感知算法的设计过程中,往往加入新的模态与新的高级特征会导致算法在速度上损失,同时带来过大的开销。如何有效地筛选并简化多模态目标检测模型,以保证同时达到准确、实时和高效的要求,是多模态感知算法研究的未来发展趋势。

4)基于大模型的环境目标检测。即利用大型深度学习模型为点云和图像融合提供更强大的表征学习能力。大模型的引入有望缓解点云和图像融合过程中的数据稀疏性问题,使得模型更好地捕捉图像和点云之间丰富的语义信息,更全面地理解环境中的物体,增强对于局部遮挡和复杂背景的适应性。此外,大模型与环境目标检测算法的融合,将进一步促进自动驾驶系统的感知决策一体化进程,提升感知模型的可解释性、安全性与多模块可迭代性,为未来全栈自动驾驶、智能交通等研究领域的发展提供关键支持。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 00 引言
  • 01 环境目标检测研究现状
    • 1.1 图像及点云数据的采集
      • 1.2 常用的3D目标检测数据集
        • 1.2.1 KITTI数据集
        • 1.2.2 nuScenes数据集
        • 1.2.3 Waymo数据集
      • 1.3 目标检测中常见的数据表示形式
        • 1.3.1 图像数据
        • 1.3.2 原始点云
        • 1.3.2 体素
        • 1.3.3 前视图
        • 1.3.4 鸟瞰图
        • 1.3.5 柱体
      • 1.4 国内外环境目标检测研究现状
        • 1.5 融合点云和图像多模态目标检测的现存问题
        • 02 基于图像的目标检测
          • 2.1 基于纯图像的单目3D检测
            • 2.2 基于深度估计的单目3D检测
              • 2.3 基于先验引导的单目3D检测
                • 2.4 基于多视角图像的BEV目标检测
                • 03 基于点云的目标检测
                  • 3.1 基于点的目标检测
                    • 3.2 基于体素的目标检测
                      • 3.3 基于BEV的目标检测
                        • 3.4 基于距离图像的目标检测
                        • 04 融合点云和图像的目标检测
                          • 4.1 按照融合阶段分类
                            • 4.1.1 前期融合
                            • 4.1.2 深度融合
                            • 4.1.3 后期融合
                          • 4.2 按照数据粒度分类
                            • 4.3 常见3D目标检测数据集上的部分算法
                            • 05 总结及未来展望
                            相关产品与服务
                            图数据库 KonisGraph
                            图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
                            领券
                            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档