三维点云数据压缩技术的最新趋势及在三维压缩域问题的挑战

一点人工一点智能

发布于 2022-12-27 10:35:26

1.5K0

用于目标检测、跟踪和分割的3D点云数据的自动处理是人工智能和数据科学领域的最新研究趋势，旨在解决自动驾驶落地的不同问题并获得实时性能。

但是，以3D点云(使用激光雷达)形式产生的数据量非常巨大，所以研究人员正在研究新的数据压缩算法来处理由此产生的大量数据。然而，尽管压缩处理在克服空间需求方面具有优势，但是由于解压缩问题，这种处理增加了对计算资源的需求，代价更大。所以，考虑开发可以直接对压缩数据进行操作/分析而不涉及解压缩和再压缩阶段(需要多次，压缩数据需要被操作或分析)的算法将是具有创新性的。这个研究领域被称为压缩域处理。

在本文中，我们将快速介绍激光雷达生成的3D点云数据压缩领域的最新发展，并强调3D点云数据压缩域处理的未来挑战。

01 介绍

由于新冠肺炎的全球影响，世界正以比预期更快的速度走向数字化和自动化，以避免与受感染的人或物体发生任何肢体接触。自动驾驶(或无人驾驶)是一项新兴技术，学术界和工业界都做出了很多努力[1]。

激光雷达(光探测和测距)传感器主要用于车辆的自主导航，因为它们能以3D点云的形式保存周围物体的几何信息，便于了解周围信息。为支持这一领域，有大量的算法程序，如分割、检测、分类和跟踪正在被研发[1]。不过，在导航过程中3D点云虽然保留了环境的重要细节，但实时处理是却是另一个更大的挑战。为此，研究人员已经尝试了不同类型的算法（通过应用不同的2D变换，使用图形算法等）来减少3D点云数据的大小。其中，克服巨大数据量的一个重要的经典技术则是使用不同的数据压缩算法[1]。但是，我们知道，如果以压缩形式捕获/存储数据，为了便于进行对数据分析则需要先对压缩数据进行解压缩，然后进行处理。然而，如果要考虑实时性能，解压缩会变得代价巨大。为了解决这个问题，最近的热点则是考虑直接处理/操作压缩数据，而不进行数据的解压缩，这被称为压缩域处理(CDP) [2][3][4]。这种方法同时具备了计算和存储优势。并且如文献[2][3][4]所报道的，CDP技术已经在许多基于图像和视频的应用中获得成功。

所以，这里主要的问题是，能不能自动处理直接在3D压缩域(3DCD)压缩的3D点云数据？

本文旨在回顾一些最新的三维点云数据压缩技术，并提供一些关于对三维点云数据进行三维压缩域分析的挑战和可能性。图1是传统压缩域和3D点云压缩域的示意图。

图1 传统3D分析和未来预期的压缩域3D分析的典型流程图

02 近期三维点云数据压缩技术综述

这里将快速回顾三维点云数据压缩的最新研究。3D点云数据是由安装在自动驾驶汽车上的激光雷达设备采集的。为了进行各种类型的处理，还存在很多与激光雷达生成的数据相关联的挑战。不过，本节仅讨论压缩3D激光雷达点云数据的问题[5-14]。

研究人员在文献[5]中提出的核心思想是采用深度学习驱动的几何技术来压缩3D点云原始数据，使用分层结构自动编码器模型。其中所提出的模型是具有创新型的，并且与PointNet++有一些相似性。该模型使用编码器利用码字压缩点云原始数据，随后使用稀疏编码进一步压缩。在解码器的帮助下，完全按照相反的过程来解压缩数据，生成不同分辨率的模型。这种方法使用稀疏多尺度损失函数，并且获得了优于PCL和Draco的高压缩比。该模型通过ShapeNet40数据集测试，具有最优的重建质量。

在文献[6]中，研究人员提出了使用RNN和残差块来压缩3D点云数据的想法。该方法对压缩比和解压缩误差具有自适应性。这种方法是将激光雷达采集的原始3D点云数据转换为2D矩阵，然后进行预处理对数据进行归一化，然后进一步使用RNN进行压缩。如前所述，这种网络结构对于压缩是很好的，但是对于高度精确的解压缩，他们使用具有残余问题的解码器(不是在所有层中，而是仅在用于高速训练少数层中)。这篇文章中使用的性能指标是衡量压缩后数据大小的每个点的比特数(bpp ),以及估计解压缩后损失的对称最近邻均方根误差。这种方法的良好性能度量为其在机器人学等实际应用中的使用提供了巨大的潜力。

文献[7]提出了一种用于压缩和优化3D点云数据、保持几何信息的有损技术。它们使用区域生长技术进行分割，随后丢弃封闭表面内的所有点以实现压缩。之后，在解压缩期间，使用多项式方程来恢复丢弃的数据。简而言之，3D点云原始数据被分成不同的段，并且为每个段映射一个平面。而每个平面使用多项式方程进行建模。当使用高度结构化的数据进行测试时，该方法产生了良好的压缩比和RMSE。性能表现在压缩比为89%，RMSE值为0.003 RMSE，处理时间在0.0643毫秒的时间范围内。不过，该方法在处理复杂的点云数据时存在局限性。

文献[8]的综述论文概述了现有的3D点云压缩技术，解释了设计原理，并强调了它们的优缺点，讨论了文献中提出的不同方法，如1D遍历、基于2D的投影和映射方法、3D技术、基于八叉树的方法、LOD、聚类和变换表示等。不过，2D技术不适合应用在像是自动驾驶等需要高精度的场景中。因此，建议完全依赖3D方法，通过有损和无损3D点云压缩提供更好的精度。文献中还提到，非结构化点云数据的处理仍然是一个极具挑战的开放问题。文献[9]简要介绍了3D点云压缩中使用的基本技术，然后详细回顾了TMC1、TMC2和TMC3以及TMC13的编码器结构，最后分析了它们在不同情况下的失真性和复杂度。结果表明，对于密集点云，TMC2的平均性能最好，而对于稀疏和噪声点云，TMC13的时间复杂度较低。

文献[10]是关于压缩由陆地激光扫描仪(TLS)采集的数目和森林的非常密集的3D形态数据。由于以往的压缩方法效率低、耗时长，基于压缩感知的新想法突破了香农-奈奎斯特采样定理。本文采用压缩感知技术模拟阔叶树点云，并采用了体素和统计滤波对点云进行了简化、去除了孤点。之后，3D数据被直接分成三个1D数据，并且由于数据量大，1D也被安排成单独的矩阵。此外，还应用了稀疏变换，并且为了下采样，还使用了部分傅立叶矩阵。之后，为了精确地重建数据，则采用了ROMP(正则化正交匹配追踪)。这种压缩感知的优点在于，它在采样过程中完成压缩，（在传统算法中，压缩是在完成完全采样之后进行的）。该方法具有计算和存储优势。

最近，树结构被用于激光雷达数据压缩，并且树的深度与激光雷达数据的分辨率成正比。在该方法中，首先，点云输入之后会被分割变成一棵有八条“枝杈”的树，这个过程一直持续到指定的深度。之后，基于树的树结构熵模型用于进行熵编码，这进一步将树结构传递给压缩字节 [11]。该方法还尝试使用深度学习方法进行3D形状分割[12]。

Chenxi Tu [13]首次使用序列网络来压缩3D激光雷达数据。这里我们在工作中使用递归神经网络方法，将完整模型分为三个部分，（1）将行数据包数据转换为带有一些附加位的2D矩阵；（2）根据传感器规格将这些数据标准化；（3）将这些数据传递到基于RNN的编码器/解码器网络中。在解压缩端，首先将压缩数据传入RNN解码器网络，然后重新排列这些数据进行原始数据的恢复。Chenxi [14]的另一项工作是使用基于Unet的深度学习网络对流式3d点云数据进行实时压缩。首先，将原始激光雷达点云流数据转换为2D矩阵形式，然后把数据拆分成两部分，I帧和B帧。之后，I帧将输入Unet架构进行数据插值。然后，Unet的输出与B帧相结合，用于下一阶段的处理。最后一个编码器网络用于最终的点云压缩。

03 传统的3D点云数据分析

本节主要是梳理最近的3D点云数据分类、分割和跟踪相关的重要贡献。

三维点云的第一个基本问题是分类，主要有两种方法：第一种是基于投影的方法，这种方法中点云数据先被转换成基于图像的2D或3D表示，然后在其上应用深度学习技术；在第二种方法中，如文献[1]中所述，直接处理和加工3D点云。不过，最近许多直接的点云处理算法，如基于卷积或基于图的网络都得到了更好的结果。

三维点云中第二个更普遍的问题是目标检测[1]，这被认为是自动驾驶汽车行业的主要挑战之一。这里通常采用两种方法——第一种方法是基于区域的方法，第二种方法是单镜头方法。第一种方法为对象生成可能的建议区域，然后应用分类和边界框回归算法。第二种方法基于两个决定对象边界框和类分数的单层网络。这种方法比方法一更快，因为它不是两级网络。

3D点云数据中的第三个常见问题是分割。这里的问题分为三类：第一类是语义分割，第二类是实例分割，第三类是部件分割（Part Segmentation）[1]。在第一类中，使用基于投影或基于点的方法。在第二类中，使用了基于提议或无提议的分割方法。最后一个是部件分割，这里[12]使用了全卷积网络(SFCN)，但这里的主要挑战是3D形状的许多褶皱。所以很难对物体的所有部分进行归纳。

04 压缩域3D点云数据分析的未来挑战

文献[2-4]的研究工作总结了在压缩域中的图像和视频处理领域中所做的各种贡献，像是特征提取、分割、分类、检测、检索等，所有这些都直接在压缩数据中完成，而不使用任何解压缩算法。具体到3D点云数据，在文献[1]中强调的基本挑战是-进行特征提取、不同类型的分割(语义、实例等)、目标检测和跟踪。因此，未来要关注的工作将是直接在3D点云数据的3D压缩域中进行相同的上述操作，而无需解压缩和再压缩数据，从而支持并实现自动驾驶的实时性能。3D压缩域的直接处理中的另一个重要挑战是对压缩数据应用深度学习模型实现实时性能，这对于世界各地的研究人员来说仍然是一个公开的问题。同时，对于图像和视频，在压缩数据上应用深度学习模型也仍然是一个待探索的热门研究课题[2][3]。