社区首页 >专栏 >基于NeRF的三维实景重建技术探索

基于NeRF的三维实景重建技术探索

一点人工一点智能

发布于 2024-04-29 03:46:00

2.8K0

转载自：亚信科技新技术探索

编辑：东岸因为@一点人工一点智能公众号

NeRF作为一种新型的视场合成和三维重建方法，在多个领域中都有广泛的应用，如城市测绘、机器人技术、虚拟现实/增强现实、电影制作和游戏开发。本文重点介绍了NeRF的构建流程以及目前比较流行的NeRF三维实景建模库，旨在帮助读者更好地理解和应用NeRF三维实景重建技术，为NeRF三维实景重建技术落地提供参考。

01 引言

自然资源部于2022年8月发布了《实景三维中国建设总体实施方案（2022-2025年）》，该方案明确了建设任务、技术路线与方法、主要成果与汇集、组织实施等，并提出到2025年，50%以上的政府决策、生产调度和生活规划可通过线上实景三维空间完成，2035年这一目标提升至80%。这标志着实景三维将作为国家重要的新型基础设施，全面加速开展布局建设，未来的市场发展空间不可限量。

何谓实景三维？实景三维是对人类生产、生活和生态空间进行真实、立体、时序化反映和表达的数字虚拟空间，是新型基础测绘标准化产品，是国家新型基础设施建设的重要组成部分，为经济社会发展和各部门信息化提供统一的空间基底。

NeRF（神经辐射场）是一种神经网络模型，用于从2D图像中学习并生成连续的3D场景模型。利用NeRF技术，可以在二维数据的基础上自动化构建三维模型，并进行纹理映射、光照渲染等操作，生成具有真实感和视觉冲击力的实景三维模型，克服传统方法的限制，在实景三维领域具有广泛的应用前景。

02 NeRF概述

NeRF通过深度学习的方法，将三维空间表示为一组可学习且连续的辐射场。在已知视角下，对场景进行一系列的捕获（包括拍摄到的图像以及每张图像对应的内外参），不需要中间三维重建的过程，仅根据位姿内参和图像，合成新视角下的图像。不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达，NeRF独辟蹊径，将场景建模成一个连续的5D辐射场隐式存储在神经网络中，只需输入稀疏的多角度的2D图像，就可以通过训练得到一个神经辐射场模型，根据这个模型可以渲染出任意视角下的清晰照片。

NeRF神经辐射场的优势主要包括：

高质量渲染：NeRF能够生成高度逼真的3D场景，使用神经网络模型以少量数据集为基础进行训练，从而生成高质量的渲染效果。

连续函数表示：NeRF使用连续函数表示3D场景，这种表示方法可以从任意角度进行渲染，产生令人惊叹的高质量渲染效果。

表达能力强：NeRF能够自然地表达物体的颜色和透明度，以任意精度和分辨率来表示3D模型，使得在3D重建和视图合成等任务上具有非常高的性能。

自监督学习：NeRF的训练过程不需要人工标注，仅通过一组2D图片（通常是同一个3D场景的不同视角的图片）作为输入，然后通过优化算法调整网络的参数，使得网络输出的3D辐射场能够最好地重现这组2D图片。

此外，因为NeRF生成的是连续的3D模型，而不是像传统的3D重建方法那样生成离散的3D体素或三角形网格，所以NeRF生成的模型可以具有更高的解析度和更细的细节。当然，NeRF也有一些局限性，例如训练和渲染过程需要大量的计算资源，而且对于有大量动态内容和复杂反射的场景，NeRF可能无法处理得很好。

03 NeRF构建过程

要构建NeRF，首先要从整个环境或物体周围的不同角度拍摄一系列照片。在某些情况下，录制视频更方便。这允许使用无人机捕获的视频或任何其他预先录制的内容制作NeRF，甚至可以使用这项技术重新捕获3D游戏内容作为NeRF。

通常来讲照片的生成质量比视频要好一些，前提是照片是进行特定拍摄，无明显模糊。视频操作则会更加简单一些，但是运动模糊会显著降低重建质量，为了达到最佳效果，慢慢移动手机，尽量避免快速移动，尤其是旋转。为了获得最佳效果，应该从尽可能多的独特视角捕捉物体或场景。此外，在拍摄时最好移动手机（在3D空间中），而不是从静止位置旋转它，站在同一个地方，在一个球体中向外捕捉通常不太好。

构建NeRF的流程如下：

1. 数据收集：收集一组2D图像，这些图像从不同的角度和位置捕获了同一场景。这些图片都是对同一3D场景的拍摄，所以在这个场景中，每个物体都会在多个图像中出现，只是视角和位置不同。

2. 预处理：对于每张图像，需要知道相机的参数，包括相机的位置和方向。这些参数可以用来确定从相机位置出发，经过图像上每个像素，向场景中射出的视线的方向。

3. 神经网络训练：使用这些数据训练一个深度神经网络。这个网络的目标是能够根据3D坐标和视线方向预测出那个位置的颜色和体密度。在训练过程中，使网络预测的颜色值和真实的2D图像尽可能一致，神经网络就能学习到场景的3D表示。而为了实现这个目标，通过比较网络预测的颜色和图像中的真实颜色来计算误差，然后通过反向传播算法来更新网络的参数。神经网络的输入是每个3D位置和相应的视线方向，输出是预测的颜色和密度值。