新视角合成旨在从多个输入图像或视频中生成新视角,近年来,3D高斯混合(3DGS)等先进技术在生成照片级渲染图像方面取得了显著的成功。 然而,在具有挑战性的设置下(如稀疏输入视角),生成高质量的新视角仍然困难,因为低采样区域的信息不足,通常会导致明显的伪影。 本文提出了一种名为3DGS-Enhancer的新流程,用于增强3DGS表示的质量。作者利用2D视频扩散先验知识来解决具有挑战性的3D视图一致性问题,将其重新表述为在视频生成过程中实现时间一致性。 3DGS-Enhancer恢复了渲染新视角的视图一致潜在特征,并通过空间-时间解码器将其与输入视角相结合。 增强后的视图随后被用于微调初始的3DGS模型,从而显著提高其渲染性能。 在无界场景的大型数据集上进行的实验表明,与最先进的方法相比,3DGS-Enhancer在重建性能和高保真渲染结果方面具有优势。 项目的网页是https://xiliu8006.github.io/3DGS-Enhancer-project。
新视角合成(NVS)在计算机视觉和图形学领域有着数十年的历史,旨在从多个输入图像或视频中生成场景的视角。最近,三维高斯分裂(3DGS)[18]在生成具有高效渲染管线的照片级渲染方面表现出色。然而,在远离现有视角渲染高质量的新视角仍然具有很大的挑战性,这在稀疏视图设置中经常遇到,因为低采样区域的信息不足。如图1所示,当只有三个输入视图时,会出现明显的椭球形和空洞状的伪影。由于实际中存在这些低质量的渲染结果,因此有必要增强3DGS,以确保其在实际应用中的可行性。
到目前为止,关于提高NVS渲染质量的增强方法的研究还很少。现有的针对NVS的增强工作[19, 43]主要集中在将深度和法向量等额外的几何约束集成到3D重构过程中,以填补观测区和未观测区之间的差距。例如,DNGaussian [19] 对辐射场几何进行了硬软混合深度正则化。然而,这些方法严重依赖额外的约束有效性,并且通常对噪声敏感。另一条研究途径利用生成先验来规范NVS流水线。例如,ReconFusion [40] 通过合成未观测区域的结构和纹理,增强了Neural Radiance Fields (NeRFs) [25]。尽管它可以生成照片般真实的新视图,但当生成视图与输入视图相距较远时,视图一致性仍具有挑战性。
在这项工作中,作者利用了2D生成先验,例如潜在扩散模型(LDMs)[31],以提高3DGS表示。LDM在各种图像生成[31]和修复任务[42]中已经证明了其强大的生成能力和鲁棒性。然而,主要挑战在于生成的2D图像之间的3D视图一致性较差,这严重阻碍了需要高度精确视图一致性的3DGS训练过程。尽管已经做出了一些努力,例如Score Distillation Sampling(SDS)损失[29],该损失蒸馏了预训练扩散模型的优化目标,但仍然无法生成3D表示,从而无法渲染高保真图像。
受多视图像之间视觉一致性[5]和视频帧之间时间一致性[6]的类比启发,作者将具有挑战性的3D一致性问题重新表述为在视频生成中实现时间一致性,这样作者就可以利用强大的视频扩散模型来恢复高质量且视图一致的图像。作者提出了一种新的3DGS增强流水线,称为3DGS-Enhancer。3DGS-Enhancer的核心是一个视频LDM,包括一个编码渲染视图潜在特征的图像编码器、一个基于视频的扩散模型来恢复时间一致的潜在特征以及一个空间-时间解码器,有效地将原始渲染图像中的高质量信息与恢复的潜在特征集成。
最初的3DGS模型将由这些增强的视图进行微调,以提高其渲染性能。所提出的3DGS-Enhancer可以轨迹无关地从稀疏视图中重构无限场景并生成两个已知视图之间的自然3D表示。与此同时,一项并行工作V3D[7]也利用了潜在视频扩散模型[4]从单张图像中生成目标级3DGS模型。相比之下,作者的3DGS-Enhancer专注于增强任何现有的3DGS模型,因此可以应用于更通用的场景,例如无界室外场景。
在实验中,作者根据DL3DV [20]在数百个无界场景中生成大规模的数据集,其中包含低质量和高质量图像的图像对,以全面评估作者新研究的3DGS增强问题。实验结果表明,所提出的3DGS-Enhancer方法在各种具有挑战性的场景中实现了卓越的重构性能,产生了更多独特且生动的渲染结果。本论文的贡献如下。
截至目前,这是首次针对提高低质量3DGS渲染结果的问题进行研究的工作,这在实际3DGS应用中广泛存在。
作者提出了一种新颖的3DGS增强 Pipeline 3DGS-Enhancer,以解决3DGS增强问题。3DGS-Enhancer将3D-一致的图像修复任务重新表述为时间一致的视频生成,这样就可以利用强大的视频LDM来生成高质量且3D-一致的图像。还设计了新的3DGS微调策略,以实现增强视图与原始3DGS表示的有效集成。
作者在大规模的无界场景数据集上进行了广泛实验,以证明所提出方法在现有最先进的少样本NVS方法中的有效性。
新颖视角合成(NVS)的目标是从一组输入图像和相机信息中生成未见过的视角。像NeRFs这样的辐射场方法将3D场景编码为辐射场,并使用体积渲染进行新颖视角的生成,实现了高保真度的结果,但训练和推理时间较长。Mip-NeRF等改进方法通过抗Aliasing提高了渲染质量,而其他方法则关注于加速过程[6,9,46,26]。最近,3D高斯插值(3DGS)[18]出现,通过将场景表示为3D高斯球并使用快速可微插值 Pipeline [49]实现了竞争渲染质量和显著更高的效率。然而,3DGS仍然需要高质量的众多输入视角来实现最佳重建,这在实际中往往是不切实际的。
少样本新视角合成。利用额外的信息生成新视角对于稀疏输入图像至关重要。各种方法采用不同的正则化技术,防止3D几何学过度拟合到训练视角。引入额外的几何信息,如深度图或粗糙网格,以增强稀疏视图下的3D重建的鲁棒性和性能。[5, 8]利用多视立体数据集学习到的先验知识作为通用先验,以提高稀疏视图重建任务的性能。[43]自由NeRF [43]在训练期间集成频率和遮挡正则化,以减少稀疏神经渲染中的过度拟合问题。同样,DietPixelNeRF [16]使用语义视图一致性损失以确保所有视图具有一致的语义,从而减轻过度拟合。然而,这些方法对网络性能非常敏感,其中不正确的深度估计或不准确的网格重构可能会显著降低最终输出。
扩散先验体用于新视角合成。最近,利用扩散模型作为先验体进行少样本新视角合成的方法被证明是一种有效的方法。DreamFusion [29] 采用 Score Distillation Sampling (SDS) 与预训练的扩散模型相结合,指导从文本 Prompt 生成3D物体。一些工作 [21, 33, 34] 将3D Aware 嵌入到2D扩散模型中,以生成多视图图像,尽管这些方法通常需要大型数据集 [48] 和显著的训练资源 [16, 27]。ReconFusion [40] 分解2D扩散先验体,从稀疏输入视图中恢复高保真度的 NeRF。更先进的算法利用视频扩散模型 [4, 12, 13, 23] 进行少样本 NVS。例如,AnimateDiff [11] 使用 LoRA [14] 微调扩散模型,同时 SVD-MV [4], V3D [36] 和 IM-3D [23] 提出控制相机的视频扩散模型,用于目标 Level 的3D生成。相比之下,作者的方法在无界室外场景中提供了更大的泛化性。
辐射场增强。一些现有研究关注通过解决由输入数据不足或质量低导致的细节保留问题来增强NeRFs。NeRF-SR [37]和Refsr-nerf [15]使用超分辨率网络来上放大训练视图图像,允许以适当细节在高分辨率合成新视角。Alignerf [17]引入光学流网络来解决对齐问题,从而提高性能。一些其他方法将2D扩散先验引入3D重构。例如,DiffusionNeRF [41]利用扩散模型学习RGBD块先验的梯度,作为场景的规范化几何和颜色。Nerfbusters [39]使用扩散先验从3D高斯中去除鬼影般的伪影。作者的工作旨在通过提出一个新的框架3DGS-Enhancer,解决辐射场增强问题,实现低质量无界3DGS表示的优越增强性能。
在这里,作者简要回顾一下3DGS[18]的公式和渲染过程。3DGS将场景表示为一组各向异性的3D高斯球,从而实现了高保真度的NVS,且渲染延迟极低。一个3D高斯球包括一个中心位置,一个缩放因子和一个旋转四元数,使得高斯分布为
其中 , 是通过 确定的缩放矩阵, 是通过 确定的旋转矩阵。为了进一步模拟视图相关的外观,高斯球还包括球谐函数(SH)系数 ,其中 k 是 SH 函数的数量,以及一个 用于透明度。颜色和透明度也通过如下所示的公式 1 中的高斯分布计算。
对于渲染,所有3D高斯球体都是通过一个可微分的高斯插值 Pipeline [49]投影到2D摄像机平面上。给定视图变换矩阵和投影变换的仿射逼近的雅可比矩阵,在摄像机坐标系中的协方差矩阵可以计算为:
不同的可微分混色方法有效地将3D高斯球投影到2D高斯分布,确保渲染时快速进行α混合和颜色监督。对于每个像素,颜色由M个高斯球渲染,这些高斯球与2D摄像平面上的像素重叠,按深度距离排序。
本研究探讨了3DGS(三维生成模型)的增强问题。具体来说,在给定的场景中,训练了一个3DGS模型,该模型基于一组输入视图 及其相应的相机位姿 。
研究的目标是增强由该3DGS模型渲染的一组低质量新视图 。通过增强处理,这些图像将进一步用于微调3DGS模型,从而提升其在重建和渲染方面的质量。
这项工作创新地将3D一致图像修复的艰巨任务转化为视频修复任务,这是基于多视图一致性和视频时间一致性的类比。作者提出了一种名为3DGS-Enhancer的新颖框架,该框架使用一个包含图像编码器、基于视频的扩散模型和空间-时间解码器的视频LDM来增强渲染图像,同时保持高3D一致性。3DGS-Enhancer还采用新颖的微调策略,选择性地将视频LDM增强的视图集成到3DGS微调过程中。3DGS-Enhancer框架的示意图如图2所示。作者将在以下部分详细讨论框架的更多细节。
在本节中,作者引入了视频扩散模型,以实现3D一致的2D图像修复。为了在生成的2D视频帧和高质量参考视图之间提高一致性,作者进一步提出将视频修复任务形式化为视频插值任务,其中视频扩散模型输入的第一帧和最后一帧是两个参考视图。这种形式化提供了视频修复过程更强的指导。令是从两个参考视图之间的轨迹拟合中获得的相机姿态样本,相应的图像渲染结果为。是视频扩散模型的输入,例如,采用交叉框架时空注意力模块和3D残差卷积的预训练图像引导稳定视频扩散(SVD)模型[4]。
不同于SVD,它将CLIP[30]中提取的单个输入图像特征重复次作为条件输入,作者将输入到CLIP编码器中,得到一系列条件输入,并通过交叉注意力将其添加到视频扩散模型中。同时,作者将输入到VAE编码器中,得到潜在特征,并通过一种无分类指导策略将其添加到扩散模型中,以包含更丰富的颜色信息。扩散U-Net 预测每个扩散步的噪声,训练目标为
其中,其中是gt潜在的,,和定义了在时间步上的噪声。学习的视频扩散模型生成了一组增强后的图像潜在,对应于渲染的低质量视图。
尽管视频扩散模型可以生成增强的图像潜在值 ,但作者观察到视频LDM的原生解码器输出的结果中存在诸如时间不一致、模糊和颜色偏移等人工制品。为了解决这个问题,作者提出了一种修改后的空间-时间解码器(STD)。
STD在原VAE解码器的基础上做了以下改进:
1)时间解码方式。 STD采用额外的时间卷积层来确保解码输出的时间一致性。与作者的视频扩散模型类似,第一帧和最后一帧是参考视图图像,中间输入是生成的视图;
2)有效集成渲染视图。 STD采用额外的条件输入,与视频扩散模型的条件输入相同,允许解码器更好地利用原始渲染图像;
3)颜色校正。为了解决颜色偏移问题,作者通过遵循StableSR[38]对解码图像进行颜色归一化。然而,作者观察到条件输入中的高度模糊和低质量图像可能会破坏颜色校正的效果。
为了解决这个问题,作者使用第一参考视图来计算均值和方差,然后将所有其他解码图像与这个参考视图对齐。令 是第i个解码图像,具有均值 和方差 , 是具有均值 和方差 的参考视图,校正后的图像 可以通过以下计算得到:
STD的优化目标包括:与真实值之间的L1重建损失和LPIPS感知损失,以及对抗损失。
是用于区分真实图像 和假图像 的对抗损失。
自信度感知的三维高斯插值。与现有的稀疏视点NVS方法不同,作者的方法不需要深度估计网络进行深度正则化。相反,作者采用纯2D视觉方法,利用视频扩散模型增强从低质量三维GS模型渲染的图像。尽管在渲染视图的质量方面有了显著提升,但在微调3DGS模型时,作者建议更多地依赖参考视图而不是恢复的新视图,因为3DGS模型对恢复视图中的微小不准确非常敏感,这些不准确在微调过程中可能会被放大。
为了最小化生成图像对高斯训练的负面影响,作者提出了信心 Aware 到的3D高斯分片。这种策略涉及两个 Level 的信心,图像 Level 和像素 Level 。对于图像 Level ,距离真实图像更近的生成图像具有较低的置信度。对于像素 Level ,用于渲染该像素的所有高斯分布的平均协方差越大,其置信度就越高。
图像级置信度。在 novel view 合成任务中,如果两个图像视图存在噪声,它们之间的近距离会增加生成冲突的可能性,破坏场景的 3D 一致性。因此,对于距离参考视图较近的新视图,仔细优化 3D 高斯核以减轻噪声的不利影响至关重要。相反,当一个新视图距离所有已知视图较远时,它干扰已经良好重构区域的概率较小。基于这种推理,作者将新视图与参考视图之间的距离规范化为 0 到 1。视角距离参考视图越远,其置信度越高。
像素级置信度。受ActiveNeRF [28]启发,该方法使用NeRF中的高斯分布来估计不确定性并识别信息增益最大的视图,作者的目标是找到能够从生成图像中获得最大信息增益的像素。如图3所示,作者观察到重构良好的区域通常由使用缩放向量计算的非常小的体积的高斯分布表示。基于这一观察,作者提出了一种计算像素级置信度的方法。
3D高斯体的独特表示允许作者使用类似于颜色渲染的过程,生成一个H×W×3的图像,其中每个通道对应于缩放向量的三个分量之一。在3DGS-Enhancer中,作者将缩放图的这三个通道相乘,以获得像素级置信度。对于生成的图像中的每个像素,置信度越高,对训练3DGS模型的监督权重就越大。
给定一组3D高斯分布,3通道置信图的渲染与颜色渲染相同,公式定义如下
以及1通道像素级置信度图 . 总体而言,在作者的3D高斯训练过程中,损失函数被定义为
结构相似性指数(SSIM)是图像 Level 的信心图,是图像级信心图,的积,是Hadamard的积,是图像级信心图,是真实像素值。
鉴于3DGS表示的增强是一项新任务,作者创建了一个数据集来模拟3DGS表示的各种假象。这个数据集也作为更全面的基准,用于评估少样本NVS方法的性能。现有的少样本NVS算法[43, 19]主要关注正面评估[24],其中测试视角与输入视角有显著重叠。然而,这种评估方法并不适用于大规模无界户外场景。因此,作者提出了一种数据集处理策略,使作者能够将任何现有的多视图数据集后处理为生成大量训练图像对,这些图像对包括由少样本NVS引起的典型假象。
更具体地,对于每个场景,作者拥有个视角,这些视角作为高质量3DGS模型的输入。作者从中统一采样一小部分视角,这些视角作为低质量3DGS模型的输入。通过线性拟合高质量摄像机位姿,作者在上随机选择一个摄像机轨迹,并使用高质量和低质量3DGS模型渲染图像对。这创建了一组用于训练作者视频扩散模型的高质量和低质量图像对。
作者将这种数据集处理策略应用到DL3DV[20]这个大规模的户外数据集,该数据集包含10000个场景。作者从原始DL3DV数据集中随机选择130个场景,形成了超过150000张图像对。作者从DL3DV中又随机选择20个场景,形成了测试集,以评估作者方法在跨场景能力上的表现。有关该方法更多实现细节,请参见附录。
表1和图4展示了在DL3DV测试集上,使用36和9输入视图的定量与定性结果。作者的方法在PSNR、SSIM和LPIPS得分上均优于所有 Baseline 。基于NeRF的方法,包括Mip-NeRF[1]和FreeNeRF[43]由于平滑不一致导致产生了模糊的新视角。相比之下,3DGS[18]由于局部极小值收敛导致产生了细长的椭圆型伪影。DNGuassian[19]通过深度正则化减少了伪影,但导致了模糊和嘈杂的新视角。
首先,在图4中的第一个示例展示了3DGS-Enhancer在保留视图一致性的同时去除伪影的能力。通过使用视频扩散模型插值输入视图,作者同时包含了更多的信息,同时保持了高的视图一致性,从而实现了高质量的新的视图,避免了局部极小值。
第二个示例突显了3DGS-Enhancer在恢复高频细节方面的优势。作者的数据处理策略和视频扩散模型可以理解不同场景下的强多视先验。因此,像树这样的非常具有挑战性的案例也可以恢复出清晰的细节。
总之,与基准方法的比较表明作者的方法有潜力显著改进无界3DGS表示,为开放环境合成高保真度的新的视图。
为了证明作者方法在非分布数据集上的泛化能力,作者在DL3DV-10K数据集[20]上训练这些方法,并在Mip-NeRF360数据集[2]上进行测试。表2和图5的结果总结表明,作者的方法在非分布环境中优于 Baseline 方法,突显了在无界环境中令人瞩目的泛化能力。
真实图像作为参考视图。表3展示了3DGS-Enhancer框架中不同组件的定量比较。视频扩散模型提供了强大的多视图先验。然而,由于其固有的限制,作者直接将原始输入视图输入到3DGS微调过程中。这导致了从输入域到3DGS微调过程的更可靠和视图一致的信息,这有助于3DGS微调,正如表3中的“真实图像”所示。
置信度感知的再加权。由于远距离的视角不太可能引起人工制品,因此作者将它们与参考视图之间的距离规范化在[0, 1]之间,从而使视频扩散结果在更远的视点上具有更高的置信度。这种策略在表格3中被称为“图像置信度”。表格3中的“像素置信度”是基于在良好重构区域中密度较小的高斯分布的像素级置信度,使用颜色渲染 Pipeline 计算体积。像素和图像 Level 的置信度策略各自改进结果,而它们的结合产生了最佳性能。
视频扩散和STD.图6分别展示了视频扩散和STD模块的影响。视频扩散去除了大部分伪影,而STD模块则增强了细粒度和高频纹理,从而产生了更逼真、更新颖的渲染结果,这些渲染结果更接近真实值。表4展示了每个模块的改进。
本文介绍了3DGS-Enhancer,这是一个统一框架,它应用视频扩散的视角一致性先验和轨迹插值方法来增强无界3DGS表示。
通过结合图像和像素级置信度与3DGS微调,作者在NVS增强方面取得了最先进的效果。
然而,作者的方法依赖于相邻视角进行连续插值,因此很难轻易地适应单视图3D模型生成。
此外,置信度感知的3DGS微调策略相对简单和直接。在未来,将信心图直接与视频生成模型集成,实现无需后处理即可与现实3D世界更一致的图像生成,将具有很大的趣味性。
同时,利用3DGS的高效数据生成能力构建一个大规模的数据集,为作者的视频生成模型提供了一个极好的机会,以增强模型的3D一致性。
这种方法也使得2D模型可以直接从2D图像中理解3D世界,无需额外的几何约束。
关于社会影响,本工作的目标是推进3D重建和NVS领域。作者工作的许多潜在社会影响,作者在这里不必特别强调。
[0]. 3DGS-Enhancer: Enhancing Unbounded 3D Gaussian Splatting with View-consistent 2D Diffusion Priors.