前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减

神经辐射场去掉「神经」,训练速度提升100多倍,3D效果质量不减

作者头像
机器之心
发布于 2021-12-28 08:11:05
发布于 2021-12-28 08:11:05
1.6K0
举报
文章被收录于专栏:机器之心机器之心

没有了神经网络,辐射场(Radiance Fields)也能达到和神经辐射场(Neural Radiance Fields,NeRFs)相同的效果,但收敛速度快了 100 多倍。 2020 年,加州大学伯克利分校、谷歌、加州大学圣地亚哥分校的研究者提出了一种名为「NeRF」的 2D 图像转 3D 模型,可以利用少数几张静态图像生成多视角的逼真 3D 图像。其改进版模型 NeRF-W (NeRF in the Wild)还可以适应充满光线变化以及遮挡的户外环境,分分钟生成 3D 旅游观光大片。

NeRF 模型 demo。

NeRF-W 模型 demo。

然而,这些惊艳的效果是非常消耗算力的:每帧图要渲染 30 秒,模型用单个 GPU 要训练一天。因此,后续的多篇论文都在算力成本方面进行了改进,尤其是渲染方面。但是,模型的训练成本并没有显著降低,使用单个 GPU 训练仍然需要花费数小时,这成为限制其落地的一大瓶颈。

在一篇新论文中,来自加州大学伯克利分校的研究者瞄准了这一问题,提出了一种名为 Plenoxels 的新方法。这项新研究表明,即使没有神经网络,从头训练一个辐射场(radiance field)也能达到 NeRF 的生成质量,而且优化速度提升了两个数量级。

  • 论文链接:https://arxiv.org/pdf/2112.05131.pdf
  • 项目主页:https://alexyu.net/plenoxels/
  • 代码链接:https://github.com/sxyu/svox2

他们提供了一个定制的 CUDA 实现,利用模型的简单性来达到可观的加速。在有界场景中,Plenoxels 在单个 Titan RTX GPU 上的典型优化时间是 11 分钟,NeRF 大约是一天,前者实现了 100 多倍的加速;在无界场景中,Plenoxels 的优化时间大约为 27 分钟,NeRF++ 大约是四天,前者实现了 200 多倍的加速。虽然 Plenoxels 的实现没有针对快速渲染进行优化,但它能以 15 帧 / 秒的交互速率渲染新视点。如果想要更快的渲染速度,优化后的 Plenoxel 模型可以被转换为 PlenOctree(本文作者 Alex Yu 等在一篇 ICCV 2021 论文中提出的新方法:https://alexyu.net/plenoctrees/)。

‍具体来说,研究者提出了一个显式的体素表示方法,该方法基于一个不含任何神经网络的 view-dependent 稀疏体素网格。新模型可以渲染逼真的新视点,并利用训练视图上的可微渲染损失和 variation regularizer 对校准的 2D 照片进行端到端优化。

他们把该模型称为 Plenoxel(plenoptic volume elements),因为它由稀疏体素网格组成,每个体素网格存储不透明度和球谐系数信息。这些系数被 interpolated,以在空间中连续建模完整的全光函数。为了在单个 GPU 上实现高分辨率,研究者修剪了空体素,并遵循从粗到细的优化策略。虽然核心模型是一个有界体素网格,但他们可以通过两种方法来建模无界场景:1)使用标准化设备坐标(用于 forward-facing 场景);用多球体图像围绕网格来编码背景(用于 360° 场景)。

Plenoxel 在 forward-facing 场景中的效果。

‍‍

Plenoxel 在 360° 场景中的效果。‍

该方法表明,我们可以使用标准工具从反问题中进行逼真体素重建,包括数据表示、forward 模型、正则化函数和优化器。这些组件中的每一个都可以非常简单,并且仍然可以实现 SOTA 结果。实验结果表明,神经辐射场的关键要素不是神经网络,而是可微分的体素渲染器。

框架概览‍

Plenoxel 是一个稀疏体素网格,其中每个被占用的体素角存储一个标量不透明度σ和每个颜色通道的球谐系数向量。作者将这种表征称为 Plenoxel。任意位置和观察方向上的不透明度和颜色是通过对存储在相邻体素上的值进行三线性插值并在适当的观察方向上评估球谐系数来确定的。给定一组校准过的图像,直接使用 training ray 上的渲染损失来优化模型。模型的架构如下图 2 所示。

上图 2 是稀疏 Plenoxel 模型框架的概念图。给定一组物体或场景的图像,研究者在每个体素处用密度和球谐系数重建一个:(a)稀疏体素(Plenoxel)网格。为了渲染光线,他们(b)通过邻近体素系数的三线性插值计算每个样本点的颜色和不透明度。他们还使用(c)可微体素渲染来整合这些样本的颜色和不透明度。然后可以(d)使用相对于训练图像的标准 MSE 重建损失以及总 variation regularizer 来优化体素系数。

实验结果

研究者在合成的有界场景、真实的无界 forward-facing 场景以及真实的无界 360° 场景中展示了模型效果。他们将新模型的优化时间与之前的所有方法(包括实时渲染)进行了对比,发现新模型速度显著提升。定量比较结果见表 2,视觉比较结果如图 6、图 7、图 8 所示。

另外,新方法即使在优化的第一个 epoch 之后,也能获得高质量结果,用时不到 1.5 分钟,如图 5 所示。

使用 NVIDIA Riva 快速构建企业级 ASR 语音识别助手

NVIDIA Riva 是一个使用 GPU 加速,能用于快速部署高性能会话式 AI 服务的 SDK,可用于快速开发语音 AI 的应用程序。Riva 的设计旨在帮助开发者轻松、快速地访问会话 AI 功能,开箱即用,通过一些简单的命令和 API 操作就可以快速构建高级别的语音识别服务。该服务可以处理数百至数千音频流作为输入,并以最小延迟返回文本。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
本科生新算法打败NeRF,不用神经网络照片也能动起来,提速100倍|开源
它是一个简单的全连接神经网络,使用2D图像的信息作为训练数据,还原拥有体积的3D场景。
量子位
2021/12/24
1.5K0
本科生新算法打败NeRF,不用神经网络照片也能动起来,提速100倍|开源
谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍
---- 新智元报道   编辑:LRS 【新智元导读】最近谷歌发布了全新的MobileNeRF模型,直接将神经辐射场拉入移动时代,内存需求仅为1/6,渲染3D模型速度提升10倍,手机、浏览器都能用! 2020年,神经辐射场(NeRF)横空出世,只需几张2D的静态图像,即可合成出该模型的3D场景表示,从此改变了3D模型合成的技术格局。 NeRF以一个多层感知器(MLP)来学习表示场景,评估一个5D隐式函数来估计从任何方向、任何位置发出的密度和辐射,可在体渲染(volumic rendering)框架下
新智元
2022/08/26
1.1K0
谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍
【他山之石】3D Gaussian Splatting:实时的神经场渲染
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。
马上科普尚尚
2023/12/15
3K0
【他山之石】3D Gaussian Splatting:实时的神经场渲染
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
网格和点是最常见的可以用于基于 GPU/CUDA 快速光栅化的显式三维场景表征方式。而神经辐射场基于 MLP 使用体渲染对捕捉的场景化进行自由视角合成。而提升辐射场效率的方案目前多基于体素、哈希网格或是点。辐射场方法的连续性有助于场景的优化,但是渲染过程中所需的随机采样需要的花销较大同时会带来噪声。因此,在本文中,作者提出了一种新的方法:本文所提出的 3D 高斯表达在能达到 sota 视觉质量和可比的渲染时间的同时,本文所提出的基于 tile 的 Splatting 方法可以实时渲染 1080p 的结果。
用户1324186
2023/10/10
1.8K0
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
神经辐射场利用基于学习的参数模型来产生连续的渲染图像,并保留更多的细节。然而,其耗时的随机采样,会导致性能下降和出现潜在的噪声。
用户1324186
2024/05/20
1.7K0
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
从稀疏输入合成新视图对于辐射场来说是一个挑战。神经辐射场(NeRF)的最新进展在仅使用少量输入视图就能重建出高度逼真的外观和准确的几何信息方面取得了卓越成果。然而,大部分基于稀疏视图的NeRF实现速度较慢,内存消耗也较大,导致时间和计算成本很高,限制了它们的实际应用。
用户1324186
2024/05/31
1.4K0
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
经典论文 | Nerf: 将场景表示为用于视图合成的神经辐射场
计算机视觉中一个研究方向是在 MLP 的权重中编码对象和场景,使得该 MLP 直接从 3D 空间位置映射到形状的隐式表示。然而,之前的方法无法使用离散的方式(如三角形网格或体素网格)以相同的保真度再现具有复杂几何形状的真实场景,迄今为止也仅限于表示具有低几何复杂性的简单形状,从而导致渲染过度平滑。NeRF提出将一个静态场景表示为5D输入,即:空间中某个位置的3D坐标以及观察方向,通过MLP神经网络得到该位置的颜色以及体密度,使用体绘制技术可以得到输入相机位姿条件下的视角图片,然后和 ground truth 做损失即可完成可微优化,从而渲染出连续的真实场景。
用户1324186
2022/11/07
3.7K0
经典论文 | Nerf: 将场景表示为用于视图合成的神经辐射场
谷歌给NeRF动了个小手术,2D变3D,照片视角随心换
最近,来自谷歌Research和谷歌Brain的一组研究人员开发了一个深度学习模型,仅使用非结构化的野外图片集合就能合成复杂的户外3D场景图。
新智元
2020/08/11
1.6K0
谷歌给NeRF动了个小手术,2D变3D,照片视角随心换
华为3D实景地图,30分钟构建超精细数字世界,达到厘米级
千百年来,人类都致力于记录和解释身处的物理世界。随着计算机科学的发展,将物理世界数字化重建,不仅是长远的理想,更是千行百业努力的当下工作。真实的数字化重建三维物理环境,进而从任意视角观察重建的环境,是图形学、计算机视觉领域每个人的终极梦想,也是虚拟增强现实、元宇宙等众多未来应用的基石。
机器之心
2022/12/16
7760
华为3D实景地图,30分钟构建超精细数字世界,达到厘米级
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉
模糊复杂目标的高真实感建模和渲染对于许多沉浸式 VR/AR 应用至关重要,其中物体的亮度与颜色和视图强相关。在本文中,来自上海科技大学的研究者提出了一种使用卷积神经渲染器为模糊目标生成不透明辐射场的新方案,这是首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案,并以任意新视角生成全局一致的 alpha 蒙版。
机器之心
2021/06/08
8930
上交通提出 AdR-Gaussian ,实现310%的渲染速度提升 !
新颖视角合成(NVS)旨在给定一组输入视图的情况下生成新视角的光照真实渲染结果,由于其在新颖视角合成在模型设计[Chen等人2023a; Tang等人2023]、自动驾驶[Cao等人2024; Matsuki等人2023]和虚拟现实 [Qian等人2023; Wang等人2023]等领域的广泛应用,吸引了广泛关注。3D高斯散射(3DGS)模型[Kerbl等人2023]是一种最近的3D表示方法,它使用一组3D高斯椭球来模拟3D场景,实现了复杂场景的高质量实时渲染。然而,高斯光栅化管线由于可避免的串行高斯剔除和因像素间渲染高斯数量不同导致的负载不均,存在不必要的开销,这限制了3D高斯的渲染速度并阻碍了其更广泛的应用。
AIGC 先锋科技
2024/09/25
3510
上交通提出 AdR-Gaussian ,实现310%的渲染速度提升 !
实时高保真渲染,基于PlenOctrees的NeRF渲染速度提升3000倍
机器之心专栏 作者:黄大伟 NeRF 方法拥有较好的渲染效果,但渲染速度极为缓慢,难以进行实时渲染。来自 UC 伯克利等机构的研究者使用一种名为 PlenOctrees 的数据结构为 NeRF 引入了一种新的数据表示,将渲染速度提升了 3000 多倍。 从稀疏的静态图像合成任意 3D 视角物体和场景新视图是很多 VR 和 AR 应用的基础。近年来神经辐射场(Neural Radiance Fields, NeRF)的神经网络渲染研究通过神经网络编码实现了真实的 3D 视角场景渲染。但是 NeRF 需要极端的
机器之心
2023/03/29
9140
实时高保真渲染,基于PlenOctrees的NeRF渲染速度提升3000倍
Nerf技术在三维重建中起到什么作用?
NeRF的核心思想是将三维场景建模成一个连续的函数,这个函数可以接收三维空间中的一点以及观察这个点的相机的方向,然后输出该点的颜色和不透明度。这样,通过学习这个函数,我们就可以得到整个三维场景的信息,从而可以渲染出从任何角度观察这个场景的结果。
一点人工一点智能
2024/04/02
6100
Nerf技术在三维重建中起到什么作用?
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
网格和点是最常见的三维场景表示法,因为它们是显式的,非常适合基于 GPU/CUDA 的快速光栅化。相比之下,最新的神经辐射场(NeRF)方法建立在连续场景表征的基础上,通常使用体积光线渲染优化多层感知器(MLP),对捕捉到的场景进行新视角合成。虽然这些方法的连续性有助于优化,但渲染所需的随机取样成本很高,而且会产生噪声。
机器之心
2023/09/08
2820
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
让PyTorch创始人直呼「Amazing」的视频「脑补」,动态场景NeRF合成速度提升百倍
选自arXiv 作者:Ang Cao等 机器之心编译 编辑:袁铭怿 来自的密歇根大学的研究者提出了「HexPlane」,一种能高效合成动态场景新视图的方法。该研究引起了 PyTorch 创始人 Soumith Chintala 的关注。 从一组 2D 图像中重建和重新渲染 3D 场景,一直是计算机视觉领域的核心问题,它使许多 AR/VR 应用成为可能。过去几年,重建静态场景方面取得了巨大的进展,但也存在局限性:现实世界是动态的,在复杂场景中,运动应是常态的,而非例外情况。 目前许多表征动态 3D 场景的
机器之心
2023/02/23
4050
让PyTorch创始人直呼「Amazing」的视频「脑补」,动态场景NeRF合成速度提升百倍
7 Papers & Radios | E2E视觉语言预训练模型SOHO;微软分层ViT模型霸榜多个CV任务
论文 1:BART based semantic correction for Mandarin automatic speech recognition system
机器之心
2021/04/21
6110
7 Papers & Radios | E2E视觉语言预训练模型SOHO;微软分层ViT模型霸榜多个CV任务
CVPR2024 | HUGS:人体高斯溅射
真实渲染和人体动态是一个重要的研究领域,具有在AR/VR、视觉特效、虚拟试衣、电影制作等众多应用。早期的工作创建人类化身依赖于多相机捕捉设置中的高质量数据捕捉、大量计算和大量手工努力。最近的工作通过使用3D参数化身体模型如SMPL,直接从视频生成3D化身来解决这些问题,这些模型具有高效光栅化和适应未见变形的能力。然而,参数化模型的固定拓扑结构限制了对衣物、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人类化身,通常使用参数化身体模型作为建模变形的模版。神经场在捕捉衣物、配饰和头发等细节方面表现出色,超越了通过纹理和其他属性光栅化参数化模型所能实现的质量。然而,它们也有不足,特别是在训练和渲染效率方面较低。
用户1324186
2024/05/31
5810
CVPR2024 | HUGS:人体高斯溅射
SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes
图 1:我们的 3D 高斯混合形状类似于经典参数化人脸模型中的网格混合形状,以表情系数线性混合,实时合成逼真的人脸动画。
用户1324186
2024/06/13
5150
SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes
六问Nerf | 简单易懂的神经辐射场入门介绍
最近零散时间,翻了一批讲Nerf原理的CSDN/知乎/B站文章和视频,有些讲的还是不错的,但是有些实在是让人感觉,作者本身就没搞懂啥是神经辐射场。所以本文使用自问自答的方式,尝试直击要害的讲清楚Nerf是干什么的。
一点人工一点智能
2023/01/15
5.5K0
六问Nerf | 简单易懂的神经辐射场入门介绍
消费级GPU、速度提升3000倍,微软FastNeRF首次实现200FPS高保真神经渲染
选自arXiv 作者:Stephan J. Garbin等 机器之心编译 编辑:小舟、杜伟 近日,微软提出了一种基于 NeRF 的新系统 FastNeRF,用它来渲染逼真图像,速度能有多快呢?在高端消费级 GPU 上达到了惊人的 200FPS! 神经辐射场(Neural Radiance Fields, NeRF)领域的最新研究展示了神经网络编码复杂 3D 环境的方式,这类方法能以新的视角真实地渲染环境。渲染这些图像需要非常大的计算量,即使在高端硬件上,这些新进展与实现交互式速率仍然相去甚远。 在本文中
机器之心
2023/03/29
3130
消费级GPU、速度提升3000倍,微软FastNeRF首次实现200FPS高保真神经渲染
推荐阅读
本科生新算法打败NeRF,不用神经网络照片也能动起来,提速100倍|开源
1.5K0
谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍
1.1K0
【他山之石】3D Gaussian Splatting:实时的神经场渲染
3K0
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
1.8K0
CVPR 2024 | Scaffold-GS:自适应视角渲染的结构化 3D 高斯
1.7K0
CVPR 2024 | DNGaussian: 全局局部深度归一化优化的稀疏三维高斯辐射场
1.4K0
经典论文 | Nerf: 将场景表示为用于视图合成的神经辐射场
3.7K0
谷歌给NeRF动了个小手术,2D变3D,照片视角随心换
1.6K0
华为3D实景地图,30分钟构建超精细数字世界,达到厘米级
7760
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉
8930
上交通提出 AdR-Gaussian ,实现310%的渲染速度提升 !
3510
实时高保真渲染,基于PlenOctrees的NeRF渲染速度提升3000倍
9140
Nerf技术在三维重建中起到什么作用?
6100
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪
2820
让PyTorch创始人直呼「Amazing」的视频「脑补」,动态场景NeRF合成速度提升百倍
4050
7 Papers & Radios | E2E视觉语言预训练模型SOHO;微软分层ViT模型霸榜多个CV任务
6110
CVPR2024 | HUGS:人体高斯溅射
5810
SIGGRAPH 2024 | 头像化身动画的 3D 高斯 Blendshapes
5150
六问Nerf | 简单易懂的神经辐射场入门介绍
5.5K0
消费级GPU、速度提升3000倍,微软FastNeRF首次实现200FPS高保真神经渲染
3130
相关推荐
本科生新算法打败NeRF,不用神经网络照片也能动起来,提速100倍|开源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档