密集与稀疏特性提取, 利用自然语言Query ,2D-3D联合训练方案匹配和重复场景检测 !

AIGC 先锋科技

发布于 2024-09-25 15:39:36

890

发布于 2024-09-25 15:39:36

文章被收录于专栏：AIGC 先锋科技

为了在3D基础模型的创建方面推进前沿技术，本文引入了Condense1框架，用于利用现有预训练的2D网络和大规模多视图数据集进行3D预训练。作者提出了一种新型的2D-3D联合训练方案，在端到端 Pipeline 中提取共嵌入的2D和3D特征，通过体积渲染NeRF像似地行进过程强制2D-3D特征一致性。使用密集的每像素特性，作者能够： ①直接从2D模型中提炼学习到的先验知识到3D模型中，创建有用的3D Backbone ； ②提取更一致、噪声更小的2D特征； ③构建一个一致的嵌入空间，其中可以联合 Query 2D、3D和其他数据类型(例如自然语言提示)。此外，除了密集特性外，ConDense可以训练提取稀疏特性(例如关键点)，也与2D-3D一致性一起训练 - 将3D NeRF表示压缩成装饰有突出关键点的紧凑集合。作者的预训练模型在包括3D分类和分割的各种3D任务中提供了良好的初始化，比其他3D预训练方法显著提高性能。它还利用作者的稀疏特性，可以实现其他有用的下游任务，如将2D图像与3D场景进行匹配，检测重复的3D场景，并通过自然语言对3D场景库进行 Query 所有这些都非常高效，无需针对每个场景进行微调。

1 Introduction

3D计算机视觉的迅速发展在理解与解释三维世界方面取得了重要突破。然而，当作者尝试匹配自然语言和2D视觉领域中大规模预训练模型的成就时，要在一系列3D感知任务上实现鲁棒性能是非常具有挑战性的。通往3D基础模型的道路受到3D数据相对稀缺的阻碍，尤其是在获取质量标注方面。与此同时，3D模型需要与语言或语言-视觉模型共同存在并进行通信，以便最优地使用先验知识来感知、推理和作用于物理世界。

基于这些考虑，作者提出了一种新颖的用于大规模3D预训练的方法，该方法利用现有预训练2D网络中的知识，利用大规模多视图数据集的优势，并学习一致的2D-3D特征。

在本文中，作者介绍了名为ConDense的综合2D-3D联合训练方案，旨在在端到端 Pipeline 中提取每个像素的共嵌入2D和3D特征。作者的方法通过强制2D-3D特征一致性来实现这一点，这种一致性是通过使用Neural Radiance Fields（NeRFs）的启发式ray-marching过程进行2D-3D共识来建立的，确保在2D和3D域中学习的特征无缝衔接。

此外，ConDense将提取的特征表示为两种形式：每个像素的密集表示和基于稀疏关键点的表示。这种双重表示使作者可以充分利用两种类型特征的优势，使ConDense具有多样性和适应性，可以应对各种下游任务。例如，NeRFs使捕捉三维场景变得轻便且易于获取。作者将在NeRF形式中拥有数亿个目标和场景，于是作者需要对大量这样的数据进行组织和搜索，特别是针对通过语言和图像 Query 来 Query 它们的需求。作者的稀疏关键点表示和联合2D-3D嵌入使这种跨领域多模态 Query 成为可能。

作者的贡献可以总结如下：

作者提出了ConDense，一种新颖的3D自监督预训练方案。在利用仅大尺度2D多视图图像数据集和2D基础模型的基础上，作者能够实现具有最先进下游任务性能的3D预训练，甚至在与利用3D训练数据的方法进行比较时也是如此。
作者的方法导致了更一致且噪声较少的2D特征的创建，从而提高了现有2D视觉表示的质量，并且在各种下游2D任务上的性能优于基模型。
通过联合学习2D和3D的稀疏特征和密集特征，作者实现了几种新的任务，例如高效地将2D图像与较大的3D场景匹配，或将相同场景的三维捕捉与彼此匹配。
作者在统一的嵌入空间中建立了空间，其中2D、3D以及其他模式（例如自然语言提示）可以共同 Query ，并使用密集或高效的稀疏特征实现高效匹配。

为了验证作者的大规模预训练方法的有效性，作者进行了 extensive 实验，并展示了其在各种任务上的优越性能。此外，作者的预训练模型为下游应用开启了令人兴奋的可能性，例如通过自然语言输入 Query 3D场景，或通过利用2D图像与3D场景进行有效的匹配，所有这些都不需要对每个场景进行精细的微调。

2 Related Work

2D 表示学习与基础模型。自监督 2D 表示学习的第一项工作应用了从图像本身派生的各种预训练任务 [5, 38, 71]，等等。另一条采用策略的工作使用区分策略，例如实例分类 [20]，将每张图像视为独特的类别，并利用数据增强进行训练。最近基于patch的架构的进步，如视觉 Transformer （ViTs） [17]，在图像和特征空间中的修复都引起了兴趣。各种工作发现， Mask 自编码器（MAEs）对于下游任务提供了强大的初始化 [19]。然而，所有这些预训练特征都需要额外的监督微调。最近，在广泛任务上采用的预训练模型的基础模型（Foundation Model），其在视觉领域也取得了迅速增长，通过适应各种视觉相关任务的不同变体。值得一提的是，CLIP模型 [44] 利用广泛的图像文本对进行对比学习，以实现零样本任务迁移能力。DINO [35, 6] 通过自监督展示了其特性中的各种理想特性，促进了其在各种视觉任务上的直接应用。

3D 表示学习与基础模型。尽管 2D 表示学习和基础模型取得了进步，但是 3D 模型由于数据集和架构限制，大大落后。大量研究工作提出了针对 3D 点云的各种预训练任务 [37, 74]。最近二维视觉 Transformer （ViTs）在二维的成功也激发了其在三维领域对应物的研究。然而，所有这些模型都需要三维点云进行预训练。大多数模型都在 ScanNet [14]（约1000个场景）和 ShapeNet [7]（约5万个物体，合成）上进行预训练，因此受到可用真实世界数据的限制。

从2D到3D特征蒸馏和多模态嵌入。 随着大规模的2D基础模型的出现和多模态嵌入（例如，CLIP为图像和语言）的发展，很多人都试图从这些模型中提取知识，并将它们的应用扩展到3D数据格式。PointCLIP和PartSLIP[31, 70]通过将点云投影到2D深度图并直接应用2D预训练模型来实现零样本点云分类和分割。OpenShape，ULIP和ULIP-2 收集了文本，图像和点云三元组，并利用预对齐的视觉语言特征空间实现三元组模态的对齐。具体来说，它们固定了视觉语言嵌入空间，只调整他们的3D点云编码器来实现此对齐。这些方法主要关注点云分类任务，其设计无法轻易地扩展到其他3D任务或3D输入格式。为3D密集特征编码提出了一些方法。例如，OpenScene 在点云地标的多个视图数据集上进行训练，并从多个视图聚合的2D特征中学习一个3D点云网络。与PointCLIP和ULIP一样，OpenScene需要点云进行训练，而实际场景中的大规模点云收集则相对较少且难以获取，与多视图图像相比。这些工作还重用了2D基础模型的嵌入空间，只蒸馏了3D编码器。

最近，Neural Radiance Fields (NeRFs)[33]及其许多后续工作[72, 3]在新颖的视图合成方面取得了巨大成功。NeRF具有跨视图聚合信息的特权。一些最近的工作利用这一点来改进语义分割的质量。许多工作将特征（例如，DINO[6]和CLIP[45]）蒸馏到3D并表明它们可以用于下游任务，例如基于自然语言的 Query 。这些工作需要对每场景进行蒸馏和优化。FeatureN-eRF[65]提出了将2D基础模型的特征蒸馏到3D空间通过通用NeRFs[66, 8]。通过蒸馏，学习的模型可以将任何2D图像提升到连续3D语义特征体积。然而，这条生产线更多地作为2D到3D提升技术，无法直接处理原生3D数据。

NeRF for Perception将神经辐射场（NeRF）集成到各种判别性感知任务，如分类、检测和分割等也已经得到探索[73, 52]。这些方法通常遵循先重建然后检测的 Pipeline ，首先从多视角图像数据中创建NeRF，然后设计特定任务的分网络和损失项来解决每个感知任务。许多方法采用场景化方法，需要针对每个新场景进行重新训练和优化。最近，NeRF-Det [60] 引入了可泛化的特征条件NeRF和3D检测 Pipeline ，以实现高效的检测性能，而无需针对每个场景进行微调。作者的工作受到了这些启发，同时通过与2D基础模型的合作，创建了一个既适用于2D图像又适用于3D格式的预训练 Pipeline 。

Query 3D数据在深度学习之前，有许多工作探索了从3D到3D的相似度 Query ，主要是在目标 Level ，通过构建人类设计的整体目标特征，编码为欧几里得嵌入或分布[9, 36]。稍后的一些工作探索了学习的嵌入空间，以及图像和3D模型的共嵌入[28]。受到图像搜索中的名词袋（bag-of-words）范式的启发，“特征袋（bags-of-features）”也在3D到3D搜索中得到了研究，例如[4]。但是，这些方法都没有集成到多任务框架中，目标是像这里一样将其集成到多任务框架中，并侧重于场景，而不仅仅是物体检索。

3 Preliminaries

神经辐射场（NeRFs）[33]提供了一种新颖的三维场景表示方法，将连续的体积场景作为神经网络。作者简要描述NeRF的机制，并参考[3]和[33]关于相关NeRF模型的详细信息。 NeRF 将一个三维坐标和一个视角映射到一个颜色和密度 - , 其中颜色与点位置和视角相关，记录局部外观信息，而密度仅与点位置相关，记录局部几何信息。

从一个2D视角渲染三维场景可以形式化为体积渲染问题。给定一条光线，其中是摄像机原点，是视角的距离，光线的颜色可以计算为：

其中是光线从 (近界)到 (远界)上的累积透射率。在实际中，使用离散近似来计算这个积分。这个过程也称为光线 marching，可以作为一种通用工具从任何3D特征场渲染到2D投影特征图，如图所示[52, 73, 75]。这个特性可以用于将场景的3D特征场与2D特征图关联起来，这为作者提供了一个2D-3D一致性 Pipeline 的基础。

2D基础模型是一种广泛预在大型图像数据集上的深度学习模型。令是一个2D基础模型，它将输入图像映射到一个特征表示：。特征表示是一个高维向量，捕获了输入图像的基本属性，如几何和语义信息。特别地，作者的工作利用了DINO[35, 6]，一种在大规模图像数据集上进行自监督学习的视觉表示学习方法。其最新版本DINOv2 在没有标注数据的情况下，擅长捕捉图像的细粒度和全局上下文信息。通过从DINOv2中初始化2D编码器，作者可以切入一个信息丰富的2D密集特征资源的强大来源，从而从2D-3D知识蒸汽中启动作者的3D编码器。

4 Method

如图2（稠密特征编码）和图3（关键点预测）所示，作者的方法概述如下。作者的模型由两个分支组成，分别是分别编码2D和3D信息（见第4.1节和第4.2节）。这两个分支都以两种形式编码特征 - 稠密格式和基于关键点的稀疏格式（见第4.4节）。在训练过程中，作者使用配对的2D-3D输入，如多视角图像和对应的NeRF场景。2D和3D分支提取的信息通过2D-3D共识（见第4.3节）进行比较，以便信息可以双向流动。

2D Encoding

条件密度编码框架（ConDense）的2D编码分支（）对于从多视图图像中提取丰富的视觉特征至关重要，这些特征随后将与3D编码模块以协同学习的方式进行训练。作者遵循DINOv2 [35]的网络架构，使用ViT [17]作为基础来构建作者的2D编码器，并使用预训练的DINO权重进行初始化。ViT架构接受一个以为分辨率的非重叠连续图像 Patch 的网格作为输入。在本文中，作者使用了14个("" ViT模型)。 Patch 经过一个线性层形成一组嵌入。遵循先前的工作[6, 17]，作者还为序列添加了可学习的[CLS]标记以聚合全局信息。这些 Patch 标记和[CLS]标记会被标准的 Transformer 块处理，并通过注意力机制进行更新。

对于任一输入图像，2D分支生成稠密特征图。特征表示是一个高维向量，编码输入图像的各种重要属性，并且由于在大规模图像数据集上的预训练，可以直接使用。稍后作者将证明，结合作者的2D-3D联合训练，特征分支可以进一步提高各种下游任务的性能。

3D Encoding

三维编码分支（）是ConDense框架的一部分，旨在从各种数据格式中提取三维特征场。它被设计为两个部分的组合：，其中是输入处理头，而是实际的三维推理backbone。不同三维数据格式具有各自独立的输入处理头，但它们共享一个通用的三维推理backbone 。作者主要处理的目标是NeRF模型，同时支持其他数据格式，如点云。下面详细介绍从NeRF数据中推理三维特征场的完整 Pipeline 。

从NeRF中获取网格采样值。 对于任何一个学习的NeRF函数，作者在归一化场景边界框内均匀取一个三维晶格点，每隔取一个点，形成：

满足

其中是一个预先定义的集合，目的是尽可能捕获局部外观信息。为了减少计算成本，作者使用输入NeRF的密度场来稀疏化这些晶格。具体来说，作者通过在常规网格[60]中取消的间距项计算样本的不透明度，并过滤掉不小于的点样本。在稀疏化之后，每个晶格点的评估值和颜色值被concat嵌入到一个输入处理头，该输入处理头是一个小型的三维稀疏卷积网络：

在这里，被用作三维推理backbone的输入嵌入，而不同的输入处理头负责将来自不同输入源的数据映射到这个输入嵌入空间。对于点云输入，作者首先对数据进行体块化处理，然后将其作为输入传递给一个小的三维网络。

三维空间推理。 应用于上一步中的输入嵌入，使用稀疏卷积单元[13]实现的三维UNet得到三维特征网格。。这个模块能够在三维空间中进行推理。为了获取任意三维 Query 点的特征值，作者在网格内部使用三线性插值操作进行插值：

2D-3D Consensus with 2D Fidelity

在提出的二维和三维编码器的情况下，作者的模型可以根据输入的二维或三维数据生成共嵌入的密集特征。在训练过程中，作者使用多视角二维图像的配对数据及其相应的所学会的NeRF 来联合训练二维和三维分支。

具体来说，对于每个场景，作者首先根据第4.2节中的详细说明生成三维特征场。基于这个特征场和场景密度，作者可以将渲染方程适应为为投影特征图，就像在[52, 75]中那样：

与此同时，作者使用作者的二维分支生成二维特征图：，并采用三维渲染特征图与二维来源对应物之间的损失的一致性损失：

指代场景的多视角图像集中的所有相机光线，这些光线至少在三维特征网格中的一个活性 Voxel 上相交。这个损失鼓励信息在两种方向上流动：三维分支可以从二维多视监督中学习生成有用的三维特征场，二维分支也可以从一致的潜在三维几何中受益并学习提取较少噪声、多视图一致且三维信息的特征。

由于现有多视图像数据集的偏见和稀缺性，如果只优化这些二维-三维一致性损失，可能会由于简化解和偏见数据分布导致特征质量下降。为了防止这种情况，作者提出在第二个最后一个转换模块（见图2）之前插入一个额外的输出头，名为二维保真度头，并将其输出的应用二维保真度损失，以便其不偏离DINOv2 [6]的原始特征：

其中是预训练的DINOv2特征。在这个损失中没有使用 GT 标签，因此此损失可以应用于任何自然图像集合。作者将在作者的 Pipeline 中使用ImageNet-21k [47]。

Key Point Extraction

利用提出的2D和3D编码器以及联合训练方案，作者的模型可以针对任何输入2D图像或3D场景生成共嵌入的稠密特征。这种特性是被期望的，因为它实现了可能在2D，3D和其他模态之间的 Query 可能性。为了进一步便于这些应用，作者在2D和3D中基于现有的特征 Backbone 支持稀疏关键点检测，以实现场景尺度的有效 Query 。

如图3所示，为了在2D图像中检测关键点，作者沿用[16]的方法，将2D Backbone 特征解码为全图像分辨率的兴趣点可能性图，利用2个MLP层和softmax输出头（记作）。更多信息请参阅[16]和作者的附录。对于3D分支，作者类似地使用2个MLP层和ReLU输出头（记作）解码3D特征栅格的键点可能性，并使用上述2D-3D共识方案在2D和3D之间渲染和比较可能性地图：

(11) (12)

在测试时间，3D关键点直接从不透明的3D网格样本中选择。作者将不透明度值乘以预测的键点可能性，并使用作为3D关键点的选择标准。

图3：关键点预测：基于现有特征 Backbone 网络，在2D（）和3D（）下检测到的关键点。使用2D-3D关键点损失作为自监督信号。

作者认为，同时检测2D和3D关键点不仅有助于基于密集特征 Backbone 网络实现各种 Query 任务（第5.3节），而且是一种有用的技术来提高整体特征质量（第6节）。### 训练详情

损失项。最终损失由以下式子给出：

其中, 和是在整个训练过程中调整的标量。见附录了解更多细节。

数据集和模型细节。在主实验中包括的所有实验中，作者使用MVImgNet [67]，ScanNet [14] 和RealEstate10k [79] 作为作者的多视图预训练数据集。MVImgNet 是一个以目标为中心的数据集，包含来自超过200万种不同目标的视频捕捉的650万个帧。ScanNet 和 RealEstate10k 都是室内场景规模的数据集，每种都包含多样化的场景捕获视频片段的形式。尽管有些这些数据集提供了其他模态(e.g. 点云，语义标签等），作者在预训练时仅使用站立的图像。在将这些场景单独放入 MipNeRF-360 [3] 模型之后，它们才用于预训练。作者在图神经网络中使用 Vision Transformers (ViT-g/14) 作为2D分支的 Backbone 网络，使用 8 A100 GPU 进行训练。见附录了解更多数据预处理和模型超参数。

训练方案。 作者将全流程的ConDense训练分为四个阶段。首先，从[6]中初始化DINOv2 [6]预训练的2D特征背根。然后，作者冻结其权重，并用强制兴趣点热力图预测来适配2D关键点检测器MLP()到已经冻住的SuperPoint [16]模型。然后，阶段2，作者将和保持冻结，而和从和优化。在这个阶段，作者从2D基础模型中提取知识，以启动3D模块的学习。到了最终阶段，作者解冻所有模块，并使用定义在[14]中的损失项，共同训练所有2D和3D模块。

5 Experiments

在本节中，作者广泛评估了作者在三个方面提出的模型：1）包括3D分类和3D分割的3D任务；2）2D图像理解任务；以及3）跨模态场景 Query 。在所有实验中，除非另有说明，否则作者冻结了特征 Backbone 网络和的权重。由于篇幅限制，作者在主论文中只包括最常用的基准测试，请参阅附录中获得更多实验，包括3D检测、2D检索和2D深度估计。

3D Tasks

对于基于点云的三维任务，作者使用商用的3D特征backbone _out-of-the-box_并冻结其权重，同时训练一个点云输入head ，具有4个稀疏卷积层。对于一个三维点，作者从三维特征网格中获取插值特征作为点特征（公式6）。根据实际三维任务，可以添加不同的输出head进一步处理这些点特征。

三维分类 作者遵循之前工作的测试协议 [61, 62] 在 ModelNet40 [58] 和 ScanObjectNN [51] 上评估。ModelNet40是一个合成数据集，包含大约10000个训练样本和2500个测试样本。ScanObjectNN是一个现实世界的三维数据集，包含大约15000个目标，是从室内扫描中提取的。作者遵循与ULIP [61] 相同的数据集设置和准备协议，以确保一致的评估。在将点云输入到输入处理头之前对点云进行归一化，并使用具有平均池化和单层MLP输出（softmax）的3层稀疏卷积网络进行预测。只在这两个模块上使用标准的交叉熵损失在目标数据集上进行训练，且将3D特征backbone保持冻结。结果如表格1左侧所示。

表1：左侧：在ScanObjectNN（斜杠前）和ModelNet40（斜杠后）上的三维分类结果。右侧：在ScanNet和S3DIS上的三维分割结果（mIOU）。对于这两个任务，ConDense 在所有 Baseline （包括零样本学习方法和预训练方法）之上。ConDense 在所有 Baseline （包括零样本学习方法和预训练方法）之上。

三维分割 作者遵循之前工作的测试协议 [63, 43] 在 ScanNet [14] 和 S3DIS [2] 数据集上评估。ScanNet包含1613个室内扫描，包含20个语义类，作者在其训练子集上训练，并在验证子集上报告平均交并比（mIoU）。S3DIS包含272个场景，作者在其训练子集上训练，并在具有6倍交叉验证的验证集上评估其验证集。ScanNet和S3DIS的 Voxel 大小分别为2厘米和5厘米。作者从backbone中使用三线性插值（公式6）提取点特征，并使用一个简单的线性层（softmax）进行预测。只有输入处理头和线性层在目标数据集上使用标准交叉熵损失进行训练，而将3D特征backbone保持冻结。结果如表1右侧所示。汇总表1中的结果，作者的方法在三维分类和分割任务上都展示了优于其他零样本学习和预训练框架的优越性能。尽管只调优了输入和输出head，但作者的方法仍然超过了预训练方法的性能。此外，尽管许多其他方法在预训练时大量使用点云数据 [61, 62]，但作者的方法无需此要求即可实现显著结果。

2D Tasks

为了评估预训练的2D特征 Backbone 的性能，作者按照DINov2 [35]中提出的设置进行测试，并与常见的自监督预训练 Baseline 进行比较，包括MAE [19]，DINO [6, 35]和iBOT [77]，以及弱监督视觉语言预训练模型OpenCLIP [23]。对于分类和分割任务，作者在“线性（lin）”设置 [6, 35]下呈现结果。作者包括了“多尺度（+ms）”设置下的更多结果，以及作者附录中的更多3D基准。结果见表2。

2D分类 作者在ImageNet-1k [48]和Places205 [76]分类数据集上测试模型生成的整体图像表示的质量。在冻结的特征 Backbone 上添加了线性检测，以生成预测，遵循之前的工作[6, 35]。

2D分割 作者在语义图像分割任务上测试，以评估作者学习的表示的质量。作者训练了一个线性层来预测来自patch token的类logits，并将上采样至获得最终分割图，遵循之前的工作[6, 35]。

对于2D分类和分割基准，作者的3D-informed ConDense在原始DINov2的基础上始终表现出一致的改进，这表明作者的2D-3D共识训练 Pipeline 可以帮助改善现有2D基础模型的性能。

Cross-Modality Scene Query

利用ConDense的2D-3D联合共嵌入属性，作者可以进行跨模态 Query 。在这里，作者解决了一系列匹配任务，包括从2D图像中识别场景以及作者提出的一个新任务-3D场景复制检测。结果如表3所示。数据集和测试细节见附录。作者还包括更多2D-3D联合 Query 的实验，包括在带有2D示例（CAD渲染）的真实世界3D场景中进行实例检索，以及在附录中使用自然语言进行 Query 。

3D场景检索与单图像（2D-3D）。 在这个任务中，作者从存储库中检索一个场景，具有单个视图。为了与仅2D的方法进行比较，作者首先渲染场景中的5个视图（Ren5），并计算 Query 图像和渲染视图之间的余弦相似度，然后使用胜者全取的方案来识别场景。在表3中，可见ConDense 2D是一个强有力的基准，不仅优于其他所有2D方法，还优于ULIP-2。在2D-3D方法中，全局（使用全局平均特征）和KP（与RANSAC的点匹配）变体的ConDense都优于其他2D-3D方法。

3D场景复制检测（3D - 3D）。 作者进一步在场景 Level 测试ConDense的匹配能力，提出一个新的任务-检测大型NeRF库中的重复场景。作者的方法可扩展到NeRF和Point-Cloud输入，并在ScanNet和Replica [14, 49]上运行实验。结果见表3。在这里，Ren5方法与前述3D场景检索定义相似，场景被渲染为图像，并使用图像嵌入。作者使用θ=0.75作为确定两个嵌入是否属于同一场景的阈值。在这里，作者发现了作者的关键点的显著有效性。2D-3D方法在这个任务上存在较大差距，表明在3D特征空间中解决此任务的需要。尽管ConDense-Global与ULIP-2具有相似的性能，但ConDense-KP在场景间匹配方面显著优于其他2D-3D方法。

6 Ablation Studies and Discussions

在本节中，作者进行了实验来验证作者设计的效果。ablation study结果见表4。当作者将2D编码器冻结（就像其他方法 [39, 61] 所做的那样）时，作者观察到2D和3D任务上的性能都变得更差。作者还可以看到，作者backbone生成的特征更加3D一致，包含更多细节。请查阅作者的补充材料中的视觉化。

稀疏特征有助吗？ 稀疏特征模块是作者框架的必要组成部分，不仅使2D-3D检索具有新功能，而且作为强大的自监督信号来增强单个2D和3D任务的表现。2D保真度有助吗？ 2D保真度损失有助于防止2D特征塌陷为简单解决方案或过拟合有偏见的数据分布。不包括2D保真度模块对2D和3D任务的质量具有不利影响，如作者所做实验所证明的那样。这部分损失部分归因于多视图数据集仍然相当小，主要包含人造物体和室内场景。数据集的大小和有偏见分布可能导致特征偏差显著，从而导致更差的结果。