Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SIGGRAPH 2023 | Live 3D Portrait: 用于单图像肖像视图合成的实时辐射场

SIGGRAPH 2023 | Live 3D Portrait: 用于单图像肖像视图合成的实时辐射场

作者头像
用户1324186
发布于 2023-10-29 11:11:22
发布于 2023-10-29 11:11:22
6840
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:SIGGRAPH 2023 论文题目:Live 3D Portrait: Real-Time Radiance Fields for Single-Image Portrait View Synthesis 论文链接:https://research.nvidia.com/labs/nxp/lp3d/ 论文作者:Alex Trevithick 等人 内容整理: 林宗灏 本文提出了从单张图像实时推理渲染照片级 3D 表示的单样本方法,该方法给定单张 RGB 输入图像后,编码器直接预测神经辐射场的规范化三平面表示,从而通过体渲染实现 3D 感知的新视图合成。该方法仅使用合成数据进行训练,通过结合基于 Transformer 的编码器和数据增强策略,可以处理现实世界中具有挑战性的输入图像,并且无需任何特殊处理即可逐帧应用于视频。

引言

图 1:给定单张 RGB 输入图像,我们的方法可实时生成物体的 3D 感知图像和几何,而最先进的 3D GAN 反演在经过 20 分钟的微调后仍无法生成令人满意的结果。我们的方法也可应用于视频的逐帧合成。LT 指的是我们模型的轻量级快速版本,其质量与完整的模型几乎相同。

从单张图像中以数字方式再现物体的 3D 外观是计算机图形学和视觉的一个长期目标。EG3D 提出了一种高效的三平面 3D 表示法,结合基于 NeRF 的表示和 GAN,展现了实时 3D 感知图像渲染,其质量可与 2D GAN 相媲美。3D GAN 生成器训练完成后,可通过 GAN 反演和测试阶段微调用于单图像 3D 重建任务。然而,目前基于 3D GAN 反演的方法面临着一些挑战:(1)由于 NeRF 的多视图性质,在单视图设置中训练需要细致的优化目标和额外的 3D 先验,以避免在新视图下出现不理想的结果;(2)测试阶段的优化需要精确的相机姿态作为输入或进行联合优化;(3)对每幅图像进行上述优化非常耗时,限制了该技术在实时视频应用中的应用。

在这项工作中,我们提出了一种从单张图像(如人脸肖像)实时(消费级硬件上 24fps)推理渲染照片级 3D 表示的单样本方法。给定单张 RGB 输入图像,我们的图像编码器直接预测神经辐射场的规范化三平面表示,从而通过体渲染实现 3D 感知的新视图合成。我们仅使用合成数据训练我们的三平面编码器管线,并展示了如何将预训练 3D GAN 的知识蒸馏至前馈编码器中。通过结合基于 Transformer 的编码器和数据增强策略,我们的方法可以处理现实世界中具有挑战性的输入图像,与需要在测试阶段微调的强 GAN 反演基线相比,能够生成更高质量的结果,并且无需任何特殊处理即可逐帧应用于视频。本文的主要贡献总结如下:

  • 我们提出了一个前馈编码器模型,从单张输入图像直接推理三平面表示,且无需在测试阶段优化。
  • 我们提出了一种新的训练策略,仅使用从预训练 3D 感知图像生成器生成的合成数据来训练用于 3D 反演的前馈三平面编码器。
  • 实验证明,我们的方法能在给定单张图像的情况下实时推理照片级 3D 表示。结合基于 Transformer 的编码器和即时增强策略,我们的方法能够鲁棒地处理具有挑战性的侧视图和遮挡图像。

方法

图 2:推理和训练管线。在推理阶段,我们以单张图像作为输入,使用 DeepLabV3 提取低分辨率特征。这些特征经过 ViT 和卷积输出,与高分辨率特征串联,再通过 ViT 和卷积解码为三平面表示,从而为体渲染过程提供条件,生成深度、特征、颜色和超分辨率图像。在训练阶段,我们从 EG3D 中采样一个身份,渲染两个监督视图。第一个视图作为编码器输入,预测三平面,然后根据这两个视角进行体渲染,并将渲染结果与 EG3D 的结果进行比较优化。

我们的目标是将训练好的 EG3D 生成模型知识蒸馏至前馈编码管线,该管线只需一次前馈网络传播即可将单张图像直接映射为规范的三平面 3D 表示,同时允许对输入在自由视角下进行实时渲染。我们的贡献集中于图像到三平面编码器和相关的合成数据训练方法。我们使用 EG3D 中的 MLP 体渲染器和超分辨率架构,并对所有组件进行端到端的训练。

三平面编码器

从任意 RGB 图像中推理规范化的 3D 表示,同时从输入中合成精确的主体特定细节是一项非常棘手的任务。我们将这一挑战分为两个目标:1)从图像中生成主体的规范化 3D 表示;2)渲染高频率的主体特定细节。我们开发并训练了一种混合卷积-Transformer 编码器,将一张 RGB 图像映射到规范的三平面表示。

如图 2 的上半部分所示,我们的编码器架构先使用 DeepLabV3 提取鲁棒的低分辨率特征

F_{low}

。然后,这些特征被送入 ViT(和 CNN)来对中间输出特征进行全局归纳偏置,即

F=Conv(ViT(F_{low})) \quad (1)

其中,Conv 使用了 CNN,ViT 使用了 Segformer 来将输入快速映射到类似于三平面的高分辨率输出空间,高效的自注意力机制允许使用高分辨率的中间特征映射,从而使所有的信息都能从输入流向三平面。我们认为 ViT 特征足以成功创建主体的规范化 3D 表示(完成了第一个目标),并在实验中发现这种浅层的编码器足以合理地规范化主体,但还无法表示例如头发丝、胎记等重要的高频或主体特定的细节。

为了同时实现第二个目标(增加高频细节),我们对高分辨率特征进行了整合。我们使用编码器

E_{high}

对输入图像进行一次降采样的卷积编码,得到特征

F_{high}

。这些特征与提取的全局特征

F

串联,送入另一个 ViT 中,最后卷积解码为三平面,即

T=E(I)=Conv(ViT(F \oplus F_{high})) \quad (2)

其中,

\oplus

表示沿通道维度串联。

训练

如图 2 下半部分所示,我们使用合成数据训练三平面编码器。我们首先采样一个隐向量并送入 EG3D 生成器得到对应的三平面

T

,这样即可在给定相机参数

P

的情况下通过冻结的 EG3D 生成器和三平面

T

渲染任意视角的图像。在每个梯度传播步下,我们从一个参考相机

P_{ref}

和另一个用于多视角监督的相机

P_{mv}

合成两组相同身份的图像,每组包含四张图像:特征图

I_f

、原始图像

I_{128}

、最终图像

I_{512}

、稠密深度图

I_D

。我们将由参考相机

P_{ref}

渲染的高分辨率图像

I_{512}

送入编码器

E

编码得到三平面

\bar{T}

。然后,我们使用

\bar{T}

在相机

P_{ref}

P_{mv}

下渲染得到另外两组图像,记为

\bar{I}_f

\bar{I}_{128}

\bar{I}_{512}

\bar{I}_D

。我们的损失函数包含 EG3D 和我们的编码器的合成结果比较与对抗生成目标:

L=L_{tri}+L_{col}+L_{LPIPS}+L_{feat}+\lambda_1 L_{adv}+\lambda_2 L_{cate} \quad (3)

其中,

L_{tri}

T

\bar{T}

之间的 L1 损失;

L_{col}

是两组数据对

(I_{128},\bar{I}_{128})

(I_{512},\bar{I}_{512})

之间的平均 L1 损失;

L_{LPIPS}

是两组数据对

(I_{128},\bar{I}_{128})

(I_{512},\bar{I}_{512})

之间的 LPIPS 感知损失;

L_{feat}

是数据对

(I_f,\bar{I}_f)

之间的平均 L1 损失;

L_{adv}

是使用 EG3D 中预训练的双重判别器计算的对抗损失,该判别器在训练过程中进行了微调;

\lambda_1

对参考图像取

0.1

,对多视角图像取

0.025

L_{cate}

是可选的种类特定损失,对于人脸使用 ArcFace 的人脸身份特征并设定

\lambda_2

1

,对于猫脸

\lambda_2

0

我们的目标优化是端到端的,渲染、上采样和双重判别器模块根据预训练的 EG3D 进行微调。不同之处在于,我们的双重判别器通过训练以区分编码器模型渲染的图像和冻结的 EG3D 渲染的图像,不依赖于任何真实数据。

即时增强

简单地优化上述目标将产生一个在合成数据上表现几乎完美的模型,但缺乏了对真实图像的泛化能力。为了弥补这一缺陷,我们对标准 EG3D 方法进行了增强。我们从随机分布中采样相机的翻滚角、焦距、主点和距离来选择相机参数

P_{ref}

P_{mv}

则与 EG3D 一样选择固定值。对于

P_{ref}

,我们从相对正脸

\pm 26^\circ

俯仰角和

\pm 49^\circ

偏航角范围内对相机进行采样;对于

P_{mv}

,则从相对正脸

\pm 26^\circ

俯仰角和

\pm 36^\circ

偏航角范围内对相机进行采样。这样,我们的模型就可以在相机姿态变化较大的情况下进行监督,迫使模型学会有效规范化与推理具有挑战性的图像。

实验

定量结果

表 1:在单个 RTX 3090 GPU 上将输入图像编码和渲染所需的时间。我们的模型与轻量级模型的端到端运行时间明显快于基线方法。

表 2:在 500 张 FFHQ 图像上使用 LPIPS、DISTS、SSIM、姿态准确性(Pose)和身份一致性(ID)的定量评估。

表 3:使用 H3DS 数据集中的真值几何进行尺度和平移不变的深度评估。

定性结果

图 3:定性结果显示了我们的模型与 HeadNeRF、ROME 和 EG3D-PTI 等基线方法关于图像质量(左)和重建几何(右)的对比。当输入为侧视图时,EG3D-PTI 偶尔会出现受损的 3D 几何,表明仅靠学习到的 3D 先验数据不足以确保重建的鲁棒性。

图 4:H3DS 数据集上的几何与验证视图比较。由于 H3DS 真值数据存在不一致的光照,因此验证视图中的光照差异也在预料之中。

图 5:在不同俯仰角下与基线的比较。

图 6:在不同偏航角下与基线的比较。

图 7:由我们的模型(左)和轻量级模型(右)生成的 FFHQ 和 AFHQ 定性结果。我们展示了重建的输入视图、新视图以及学习到的几何。我们的模型能够在有遮挡的情形下推理出与输入一致的结构。

图 8:定性结果显示了我们的模型将域外的由 StyleGAN2 生成的画像提升至 3D 的能力,展现了我们模型的通用性。

消融实验

表 4:关于相机增强和 Transformer 模块的消融实验。去除增强,模型会像自编码器一样将真实图像映射到与输入图像相似的任意 3D 表示(高 ID 评分),但实际上并非 3D(低 Pose 评分)。去除 Transformer,编码器能对输入图像进行规范化 3D 表示(高 Pose评分),但无法表现输入图像中的细节(低 ID 评分)。我们的完整方法既能达到较好的 Pose 和 ID 得分,又能获得较高的重建质量。

表 5:关于判别器的消融实验。

图 9:关于 Transformer 模块的消融实验对比。无 Transformer 模块的模型使用参数量相似、分辨率一致的残差 CNN 替代。

图 10:关于相机增强的消融实验对比。我们对输入图像进行了非中心旋转和裁剪。在没有增强的情况下,我们的结果和 EG3D-PTI 均出现了伪影。

图 11:关于判别器的消融实验对比。不使用判别器进行训练将导致图像模糊。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
在计算机视觉和图形领域,由于神经渲染和生成模型的进步,三维视觉内容的合成引起了显著关注。尽管出现了许多处理单个任务的方法,例如单视图/多视图三维重建和三维内容生成,但开发一个综合框架来整合多个任务的最新技术仍然是一个主要挑战。例如,神经辐射场(NeRF)在通过每个场景的拟合解决逆向渲染问题方面展示了令人印象深刻的新视图合成结果,这适用于密集视图输入,但难以泛化到稀疏观察。相比之下,许多稀疏视图三维重建方法依赖于前馈图像到三维编码器,但它们无法处理遮挡区域的不确定性并生成清晰的图像。在无条件生成方面,三维感知的生成对抗网络(GAN)在使用单图像鉴别器方面部分受限,这些鉴别器无法推理跨视图关系以有效地从多视图数据中学习。 在这篇论文中,作者通过开发一个全面模型来从多视图图像中学习可泛化的三维先验,提出了一种统一的方法来处理各种三维任务。受到二维扩散模型成功的启发,论文提出了单阶段扩散NeRF(SSDNeRF),它使用三维潜在扩散模型(LDM)来模拟场景潜在代码的生成先验。 虽然类似的LDM已经应用于之前工作中的二维和三维生成,但它们通常需要两阶段训练,其中第一阶段在没有扩散模型的情况下预训练变分自编码器(VAE)或自解码器。然而,在扩散NeRF的情况下,作者认为两阶段训练由于逆向渲染的不确定性特性,特别是在从稀疏视图数据训练时,会在潜在代码中引入噪声模式和伪影,这阻碍了扩散模型有效地学习清晰的潜在流形。为了解决这个问题,论文引入了一种新的单阶段训练范式,使扩散和NeRF权重的端到端学习成为可能。这种方法将生成和渲染偏差协调地融合在一起,整体上提高了性能,并允许在稀疏视图数据上进行训练。此外,论文展示了无条件扩散模型学习到的三维先验可以在测试时从任意观察中灵活地采样用于三维重建。 论文在多个类别单一对象场景的数据集上评估了SSDNeRF,整体展示了强大的性能。论文的方法代表了朝着各种三维任务统一框架的重要一步。总结来说,论文的主要贡献如下:
用户1324186
2024/03/20
4880
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
VoxGRAF:基于稀疏体素的快速三维感知图像合成
对场景进行高分辨率的高保真渲染是计算机视觉和图形学领域的一个长期目标。实现这一目标的主要范式是精心设计一个场景的三维模型,再加上相应的光照模型,使用逼真的相机模型渲染输出高保真图像。生成对抗网络(GAN)已经成为一类强大的可以实现高保真高分辨率图像合成的生成模型。这种二维模型的好处之一是他们可以使用便于获得的大量图像进行训练。然而,将 GAN 扩展到三维则相对困难,因为用于监督的三维真实模型难以获得。近期,3D-aware GAN 解决了人工制作的三维模型以及缺乏三维约束的用于图像合成的 2D GAN 之间的不匹配问题。3D-aware GAN 由三维生成器、可微分渲染以及对抗训练组成,从而对新视角图像合成过程中的相机位姿以及潜在的场景的对象形状、外观等其他场景性质进行显式控制。GRAF 采用了 NeRF 中基于坐标的场景表示方法,提出了一种使用基于坐标的 MLP 和体渲染的 3D-aware GAN,将基于 3D 感知的图像合成推进到更高的图像分辨率,同时基于物理真实且无参数的渲染,保持了场景的三维一致性。然而在三维场景进行密集采样会产生巨大的消耗,同时三维的内容经常与观察视角纠缠在一起,而进行下游应用时,场景的三维表征往往需要集成到物理引擎中,因此难以直接获得场景三维内容的高分辨率表征。许多近期的方法通过将 MLP 移出场景表征从而加速了新视角合成的训练速度,通过优化稀疏体素证明了 NeRF能够获得高保真图像的原因不是由于其使用了 MLP ,而是由于体渲染和基于梯度的优化模式。
用户1324186
2022/11/07
1.3K0
VoxGRAF:基于稀疏体素的快速三维感知图像合成
CVPR 2023 | Next3D: 用于 3D 感知头部头像的生成神经纹理栅格化
动画肖像合成对于电影后期制作、视觉效果、增强现实 (AR) 和虚拟现实 (VR) 远程呈现应用程序至关重要。高效的可动画肖像生成器需要能在细粒度级别上全面控制刚性头部姿势、面部表情和凝视方向来合成不同的高保真肖像。该任务的主要挑战在于如何在生成设置中通过动画建模准确的变形并保留身份,即仅使用 2D 图像的非结构化语料库进行训练。
用户1324186
2023/09/09
9950
CVPR 2023 | Next3D: 用于 3D 感知头部头像的生成神经纹理栅格化
4K4D:对4K分辨率实现实时4D视角合成
动态视图合成旨在从捕捉到的视频中重建动态3D场景,并创建沉浸式虚拟回放,这是计算机视觉和计算机图形学领域长期存在的研究问题。对这项技术的实用性至关重要的是它能够以高保真度实时渲染,使其能够应用于VR/AR、体育广播和艺术表演。最近,隐式神经表示在通过可微分渲染从 RGB 视频重建动态 3D 场景方面取得了巨大成功。尽管动态视图的合成结果令人印象深刻,但现有的方法通常由于昂贵的网络评估过程需要几秒钟甚至几分钟才能以 1080p 的分辨率渲染图像。
用户1324186
2023/11/02
8590
4K4D:对4K分辨率实现实时4D视角合成
CVPR 2024 | ConTex-Human:纹理一致的单视图人体自由视图渲染
自由视角人体合成或渲染对于虚拟现实、电子游戏和电影制作等各种应用都是必不可少的。传统方法通常需要密集的相机或深度传感器来重建几何形状并细化渲染对象的纹理,从而产生繁琐和耗时的过程。
用户1324186
2024/04/26
6000
CVPR 2024 | ConTex-Human:纹理一致的单视图人体自由视图渲染
NeurIPS 2022 | GeoD:用几何感知鉴别器改进三维感知图像合成
‍‍原文:Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator
一点人工一点智能
2022/12/27
6680
NeurIPS 2022 | GeoD:用几何感知鉴别器改进三维感知图像合成
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
摘要:本文提出了InstantMesh,这是一个用于从单视角图像生成即时3D网格的前馈框架,具有当前非常优秀的生成质量和显著的训练可扩展性。
一点人工一点智能
2024/04/18
3K0
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控
目前用于人类生成相关的「可动画3D感知GAN」方法主要集中在头部或全身的生成,不过仅有头部的视频在真实生活中并不常见,全身生成任务通常不会控制人物的面部表情,并且很难提高生成质量。
新智元
2023/09/22
7000
3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控
CLIFF : 结合整帧位置信息的人体姿态和形状估计
基于参数化人体从单张RGB图像重建三维人体姿态与形状,由于图片的深度模糊性,是一个欠约束问题。由于这个问题在 AR/VR 、动作分析等领域的重要性,它引起了很多关注。
用户1324186
2022/11/07
1.7K0
CLIFF : 结合整帧位置信息的人体姿态和形状估计
撸猫何必要真猫,一张靓照也可以!斯坦福英伟达3D版神笔马良连屠两榜,3D合成7倍速
然而,让AI仅用单一视角的2D照片集合,无监督地生成高质量的多视角图像和3D形状,可真是要把它难倒了。
新智元
2021/12/27
4490
撸猫何必要真猫,一张靓照也可以!斯坦福英伟达3D版神笔马良连屠两榜,3D合成7倍速
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
近年来,在自动驾驶领域,鸟瞰视角(BEV)空间中的3D目标检测取得了很大的进展。作为激光雷达(LiDAR)方法的替代方案,使用周围摄像头生成伪激光雷达点在自动驾驶领域被视为一种既经济又具有前景的解决方案。因此,为了将感知任务集成到BEV空间中,提出了许多方法。
集智书童公众号
2023/12/19
1.4K0
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
网格和点是最常见的可以用于基于 GPU/CUDA 快速光栅化的显式三维场景表征方式。而神经辐射场基于 MLP 使用体渲染对捕捉的场景化进行自由视角合成。而提升辐射场效率的方案目前多基于体素、哈希网格或是点。辐射场方法的连续性有助于场景的优化,但是渲染过程中所需的随机采样需要的花销较大同时会带来噪声。因此,在本文中,作者提出了一种新的方法:本文所提出的 3D 高斯表达在能达到 sota 视觉质量和可比的渲染时间的同时,本文所提出的基于 tile 的 Splatting 方法可以实时渲染 1080p 的结果。
用户1324186
2023/10/10
1.8K0
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
CVPR 2023 | OTAvartar:具有可控三平面渲染交互的单样本说话脸化身
图 1:OTAvatar 动画结果。OTAvatar 以单张肖像为参考对 HDTF 数据集中的源主体进行动画化。我们使用 3DMM 姿态和表情系数来表示运动并驱动化身。此处的主体均不包括于 OTAvatar 的训练数据中。
用户1324186
2023/09/19
6990
CVPR 2023 | OTAvartar:具有可控三平面渲染交互的单样本说话脸化身
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
近日,Stability AI发布消息,公开3D重建新方法SPAR3D的设计原理、代码、模型权重等。
新智元
2025/02/15
1300
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 随便一张照片,就可生成3D头像。而且光线真实,任意角度可调。 这是苹果的最新黑科技生成框架FaceLit。 正如其名,FaceLit的特色就是可以将人脸“点亮”。 “自带光环”的FaceLit在易用性上也不输同类,甚至更胜一筹—— 进行3D建模时,需要的照片素材无需专门选择角度,数量上也只需一张。 甚至对表情、发型、眼镜等元素进行调节时,也不需要额外素材。 而传统的头像合成工具或者需要多张图片才能工作,或者对照片角度有刁钻的要求。 正是凭借这一创新,
量子位
2023/05/06
4440
一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?
证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023
转载自 微软亚洲研究院 量子位 | 公众号 QbitAI 一张2D证件照,几秒钟就能设计出3D游戏化身! 这是扩散模型在3D领域的最新成果。例如,只需一张法国雕塑家罗丹的旧照,就能分分钟把他“变”进游戏中: △RODIN模型基于罗丹旧照生成的3D形象 甚至只需要一句话就能修改装扮和形象。告诉AI生成罗丹“穿着红色毛衣戴着眼镜的造型”: 不喜欢大背头?那就换成“扎着辫子的造型”: 再试试换个发色?这是“棕色头发的时尚潮人造型”,连胡子颜色都搞定了: (AI眼中的“时尚潮人”,确实有点潮过头了 )
量子位
2023/03/21
8450
证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023
基于 Transformer 的多模态融合方法用于语义分割 !
环境语义分割是自动驾驶中的一个挑战性课题,并在诸如操纵、路径规划和场景理解等智能车辆相关研究中发挥着关键作用。由于深度神经网络的进步,特别是卷积神经网络(CNN),以及开放数据集的可用性,语义分割领域已取得了巨大进展。早期研究采用相机的RGB图像作为输入,并用具有相对单调场景的数据集进行测试。近年来,感知传感器行业的蓬勃发展以及严格的安全要求推动了涉及不同传感器和综合场景的语义分割研究。在各种研究中,激光雷达传感器(LiDAR)参与最多。流行的仅激光雷达方法包括VoxNet[6]、PointNet[7]和RotationNet[8]。然而,多模态传感器融合被视为解决自动驾驶问题的有前途的技术,并已成为语义分割的主流选择。
未来先知
2024/08/20
1.1K0
基于 Transformer 的多模态融合方法用于语义分割 !
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。
公众号-arXiv每日学术速递
2023/08/26
1.3K0
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
SIGGRAPH Asia 2023 | 利用形状引导扩散进行单张图像的3D人体数字化
现有方法的生成外观,特别是在遮挡区域,逼真性很差。我们认为现有方法的性能不佳是由于训练数据的有限多样性导致的。然而,扩展现有的2D服装人类数据集还需要大量的人工注释。为了解决这个限制,我们提出了一种简单而有效的算法,可以从单一图像中创建一个3D一致纹理的人类,而无需依赖经过策划的2D服装人类数据集进行外观合成。
用户1324186
2023/11/29
5420
SIGGRAPH Asia 2023 | 利用形状引导扩散进行单张图像的3D人体数字化
深度学习背景下的图像三维重建技术进展综述
三维重建是指从单张二维图像或多张二维图像中重建出物体的三维模型,并对三维模型进行纹理映射的过程。三维重建可获取从任意视角观测并具有色彩纹理的三维模型,是计算机视觉领域的一个重要研究方向。传统的三维重建方法通常需要输入大量图像,并进行相机参数估计、密集点云重建、表面重建和纹理映射等多个步骤。近年来,深度学习背景下的图像三维重建受到了广泛关注,并表现出了优越的性能和发展前景。
一点人工一点智能
2023/01/07
6.7K0
深度学习背景下的图像三维重建技术进展综述
推荐阅读
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
4880
VoxGRAF:基于稀疏体素的快速三维感知图像合成
1.3K0
CVPR 2023 | Next3D: 用于 3D 感知头部头像的生成神经纹理栅格化
9950
4K4D:对4K分辨率实现实时4D视角合成
8590
CVPR 2024 | ConTex-Human:纹理一致的单视图人体自由视图渲染
6000
NeurIPS 2022 | GeoD:用几何感知鉴别器改进三维感知图像合成
6680
InstantMesh:利用稀疏视图大规模重建模型从单张图像高效生成3D网格
3K0
3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控
7000
CLIFF : 结合整帧位置信息的人体姿态和形状估计
1.7K0
撸猫何必要真猫,一张靓照也可以!斯坦福英伟达3D版神笔马良连屠两榜,3D合成7倍速
4490
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
1.4K0
SIGGRAPH 2023 | 用于实时辐射场渲染的 3D Gaussian Splatting
1.8K0
CVPR 2023 | OTAvartar:具有可控三平面渲染交互的单样本说话脸化身
6990
单图秒变3D对象,还可交互实时编辑!Stability AI中科大校友新作
1300
一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?
4440
证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023
8450
基于 Transformer 的多模态融合方法用于语义分割 !
1.1K0
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
1.3K0
SIGGRAPH Asia 2023 | 利用形状引导扩散进行单张图像的3D人体数字化
5420
深度学习背景下的图像三维重建技术进展综述
6.7K0
相关推荐
ICCV 2023 | 单阶段扩散神经辐射场:3D生成与重建的统一方法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档