通过阅读已有目标检测成果,可以帮助我们摸索出一条合理的学习路径。
目前点云目标检测领域的成果大致分为以下几类:
基于鸟瞰图的方法:MV3D将Li-DAR点云投射到鸟瞰图上,并为3D边界框proposal训练一个region proposal网络(RPN)。 然而,该方法在检测诸如行人和骑车人等小物体方面滞后,并且不能容易地适应具有垂直方向上的多个物体的场景。AVOD同样利用点云投影数据,克服了上述缺点。在KITTI竞赛的排行榜上目前排名第2.
基于3D的方法:3d fully convolutional network for vehicle detection in point cloud将整个场景的点云转换为体积网格,并使用3D体积CNN作为对象提议(proposal)和分类。由于3D卷积和大型3D搜索空间的昂贵成本,这些方法的计算成本通常相当高。
点云的深度学习:在特征学习之前,大多数现有方法将点云转换为图像或体积形式。 Voxnet将点云体素化为体积网格,并将图像CNN推广到3D CNN。Vote3deep设计更有效的3D CNN或利用点云稀疏性的神经网络体系结构。
基于Frustum的网络在KITTI Benchmark套件中表现出高性能。该模型在3D物体检测方面排名第二,如基于汽车,行人和骑车人的鸟瞰检测。这是唯一的方法,它使用Point-Net直接处理点云,而不使用激光雷达数据和体素创建的CNN。但是,它需要预处理,因此也必须使用相机传感器。基于另一个处理校准摄像机图像的CNN,它使用这些检测来将全局点云最小化为基于平截头体的缩减点云。这种方法有两个缺点:i)模型精确度强烈依赖于摄像机图像及其相关的CNN。因此,仅将这种方法应用于激光雷达数据是不可能的; ⅱ)总体网络必须连续运行两种深度学习方法,这会导致更高的推理时间和更低的效率。在NVIDIA GTX 1080i GPU上,参考模型的帧速率大约为7fps。
相反,周等人[3]Voxelnet提出了一个模型,只能操作激光雷达数据。 就此而言,它是KITTI中仅使用激光雷达数据进行3D和鸟瞰检测的最佳模型。 基本思想是在网格单元上运行端到端的学习,而不使用手工制作的特征。使用Pointnet方法在训练期间学习网格单元内的特征。 在顶部建立一个预测3D边界框的CNN。 尽管准确度很高,但该模型在TitanX GPU上只有4fps的低速度。
领取专属 10元无门槛券
私享最新 技术干货