Title: VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion Paper: https://arxiv.org/pdf/2302.12251.pdf Code: https://github.com/nvlabs/voxformer
从视觉图像估计场景中完整的几何结构和语义信息对于认知和理解至关重要。为了在人工智能系统中实现这种能力,论文提出了VoxFromer,一个基于Transformer的语义场景补全(SSC,Semantic Scene Completion)框架,可以仅从二维图像中预测空间中的体素占据和类别信息。VoxFromer的框架采用两阶段设计,首先从深度估计得到一组稀疏的可见和占据的体素查询,然后进从稀疏体素生成密集的三维体素。
这种设计的一个关键思想是,二维图像上的视觉特征仅对应于可见的场景结构而不是被遮挡或空的空间,因此,从可见结构的特征化和预测开始更加可靠。一旦获得稀疏查询集,VoxFromer采用一个带掩膜的自编码器设计,通过自注意力将信息传播到所有的体素中。在SemanticKITTI数据集上的实验结果表明,VoxFormer在几何和语义方面的相对改进分别达到20.0%和18.1%,并且在训练期间将GPU内存减少了约45%,降至不到16GB。
仅从视觉图像进行完整的3D场景理解是自动驾驶汽车感知中的一个重要问题,它直接影响规划和地图构建等下游任务。然而受限于传感器有限的视野和场景物体的遮挡,获得真实世界的准确和完整的3D信息是⼀项具有挑战性的任务。
为了应对这些挑战,语义场景补全(Semantic Scene Completion, SSC)被提出来,其从有限的观察中联合推断完整的场景几何和语义。SSC解决方案必须同时解决两个子任务:可见区域的场景重建和遮挡区域的场景推断。
现有的基于视觉方案的SSC,如MonoScence,使用密集特征投影将2D图像输入提升为3D。然而,这样的投影不可避免地会将可见区域的2D特征分配给空的或被遮挡的体素。例如,被汽车遮挡的空体素仍将获得汽车的视觉特征。结果,生成的3D特征包含许多歧义,无法用于后续的几何补全和语义分割,导致性能不尽如人意。
VoxFormer的性能
与MonoScene不同,VoxFormer考虑3D到2D交叉注意力来表示稀疏查询。所提出的设计受到两个见解的启发:
VoxFormer的主要贡献如下:
VoxFromer思路
VoxFormer框架分为两阶段,第一阶段为类不可知(class-agnostic)的查询提议,第二阶段为类特定(class-specific)的语义分割。具体来说:
VoxFromer框架图
论文利用现有的单目深度估计网络得到每个像素点
的深度
,然后将预测的深度图
反向投影到点云中:
上述的深度估计质量较差,论文使用一个lightweight的UNet风格网络
来预测较低空间分辨率下的体素占用图,以帮助矫正图像深度。首先将点云转换为一个体素网格图
,输入
得到低分辨率的
。因为较低的分辨率对深度错误更鲁棒
经过深度校正后,得到基于深度图转点云输出的二进制
的query proposals
:
在阶段1之后,可以通过query proposals
来关注图像特征,以学习3D场景中丰富的视觉特征。为了提高效率,论文提出deformable attention:参考点与局部感兴趣区域相互作用,即只在参考点的邻域采样点
来计算注意力结果。每个3D的query q将由以下一般方程进行更新:
其中
表示query点投影到2D图像上对应的2D参考点,
表示2D图像输入特征,
为
点索引。
表示值生成的可学习的权重,
的注意力权重。
是邻域采样点相对于参考点在2D图像上的预测偏移量,而
是通过双线性插值提取的特征。
对于3D空间中每个proposed query,通过投影矩阵得到在的输入的连续帧
中的位置,对连续帧这些位置的特征进行加权和,作为可变形交叉注意力的输出:
在经过几层可变形的交叉注意之后,proposed query将被更新为
。结合更新后的proposed query和mask tokens得到初始体素
,然后使用可变形自注意力得到精细化的体素
:
在获得细化的体素特征
后,将其上采样并投影到输出空间,得到最终的输出
,M+1表示M个语义类和一个空类
与其它方法的定性比较
在大型自动驾驶场景中,VoxFormer可以更好地捕捉场景的布局。同时,在树干、杆等小物体方面表现出满意的性能。
表1 与最先进的camera-based SSC方法比较
如上表所示:
表2 与最先进的LiDAR-based SSC方法比较
如上表所示,目标距离越近,VoxFrorer-T和最先进的基于激光雷达的方法之间的性能差距越来越小。
表3 Ablation study for image depth
上表可以看出,基于双目的方法效果由于单目方法,因为前者利用了外极性几何结构,但后者依赖于模式识别。
表4 Ablation study for query proposal
上表可以看出:
表5 Ablation study for temporal input
上表可以看出,时序连续帧输入可以提高性能
表7 Ablation study for architecture
上表可以看出,对于阶段1,深度估计和校正都很重要,因为一组合理的体素查询可以为完整的场景表示学习奠定良好的基础。对于第二阶段,自注意和交叉注意可以通过启用voxel-to-voxel和voxel-to-image的交互来帮助提高性能。
在本文中,作者提出了VoxFormer,一个强大的单目三维语义场景补全(SSC)框架,由一个基于深度估计的类不可知查询提议和一个类特定的稀疏到密集的MAE风格的语义分割组成。VoxFormer优于最先进的基于相机的方法,甚至与基于激光雷达的方法相当。作者希望VoxFormer能激发基于摄像机的SSC及其在自动驾驶感知中的应用。