Generative 3D相关
Reality3DSketch: Rapid 3D Modeling of Objects from Single Freehand Sketches
https://arxiv.org/abs/2310.18148
Tianrun Chen, Chaotao Ding, Lanyun Zhu, Ying Zang, Yiyi Liao, Zejian Li, Lingyun Sun
浙江大学、湖州师范学院、新加坡科技设计大学
AR/VR的新兴趋势对3D内容提出了巨大的需求。 然而,大多数现有软件需要专业知识,对于新手用户来说很难使用。 在本文中,我们的目标是创建基于草图的建模工具,以实现用户友好的 3D 建模。 我们引入了 Reality3DSketch,它是一种沉浸式 3D 建模体验的新颖应用,用户可以使用单目 RGB 相机捕捉周围场景,并可以在实时重建的 3D 场景中绘制对象的单个草图。 通过输入单个草图的新颖神经网络,生成 3D 对象并将其放置在所需位置。 我们的神经网络可以预测绘图的姿势,并将单个草图转换为具有视图和结构意识的 3D 模型,这解决了稀疏草图输入和视图模糊性的挑战。 我们对合成数据集和真实数据集进行了广泛的实验,并在草图视图估计和 3D 建模性能方面取得了最先进的 (SOTA) 结果。 根据我们的用户研究,我们在场景中执行 3D 建模的方法比传统方法快 5 倍以上。 与现有方法的结果相比,用户对生成的 3D 模型也更满意。
HyperFields: Towards Zero-Shot Generation of NeRFs from Text
https://arxiv.org/abs/2310.17075
Sudarshan Babu,Richard Liu,Avery Zhou,Michael Maire,Greg Shakhnarovich,Rana Hanocka
Toyota Technological Institute at Chicago、University of Chicago
我们引入了 HyperFields,这是一种通过单次前向传递和(可选)一些微调来生成文本条件神经辐射场 (NeRF) 的方法。我们方法的关键是:(i)动态超网络,它学习从文本标记嵌入到 NeRF 空间的平滑映射;(ii) NeRF 蒸馏训练,它将各个 NeRF 中编码的场景蒸馏成一个动态超网络。这些技术使单个网络能够适应一百多个独特的场景。我们进一步证明,HyperFields 学习文本和 NeRF 之间更通用的映射,因此能够预测新的分布内和分布外场景——无论是零样本还是通过一些微调步骤。微调超场受益于学习通用映射的加速收敛,并且能够比现有基于神经优化的方法快 5 到 10 倍地合成新场景。我们的消融实验表明,动态架构和 NeRF 蒸馏对于超场的表现力至关重要。
Deep3DSketch+\+: High-Fidelity 3D Modeling from Single Free-hand Sketches
https://arxiv.org/abs/2310.18178
Ying Zang, Chaotao Ding, Tianrun Chen, Papa Mao, Wenjun Hu
湖州师范学院、浙江大学、Moxin Tech
AR/VR 的兴起导致对 3D 内容的需求增加。然而,使用计算机辅助设计 (CAD) 创建 3D 内容的传统方法是一个劳动密集型且需要技能的过程,使得新手用户难以使用。基于草图的 3D 建模利用人机交互的直观特性提供了一种有前景的解决方案。然而,由于草图的稀疏性和模糊性,生成准确反映创作者想法的高质量内容可能具有挑战性。此外,新手用户常常发现从多个角度创建准确的绘图或遵循现有方法中的分步说明具有挑战性。为了解决这个问题,我们在工作中引入了一种突破性的端到端方法,支持通过单个手绘草图 Deep3DSketch+∖+ 进行 3D 建模。我们的方法通过利用对称先验和结构感知形状鉴别器解决了使用单个草图的稀疏性和模糊性问题。我们对不同的数据集(包括合成数据和真实数据)进行了全面的实验,以验证我们方法的有效性并展示其最先进的(SOTA)性能。根据我们的用户研究,用户对我们的方法生成的结果也更加满意。我们相信我们的方法有潜力为新手用户提供直观且易于使用的解决方案,从而彻底改变 3D 建模过程。
NVS
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image
https://arxiv.org/abs/2310.17994
Kyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu
斯坦福大学、Google Research
我们引入了一种 3D 感知扩散模型 ZeroNVS,用于野外场景的单图像新颖视图合成。虽然现有的方法是针对具有遮蔽背景的单个对象而设计的,但我们提出了新技术来解决具有复杂背景的野外多对象场景所带来的挑战。具体来说,我们在捕获以对象为中心的室内和室外场景的混合数据源上训练生成先验。为了解决数据混合带来的问题,例如深度尺度模糊性,我们提出了一种新颖的相机调节参数化和归一化方案。此外,我们观察到分数蒸馏采样(SDS)在 360 度场景蒸馏过程中倾向于截断复杂背景的分布,并提出“SDS 锚定”来提高合成新颖视图的多样性。我们的模型在零样本设置下的 DTU 数据集上的 LPIPS 中取得了新的最先进结果,甚至优于专门在 DTU 上训练的方法。我们进一步采用具有挑战性的 Mip-NeRF 360 数据集作为单图像新颖视图合成的新基准,并在此设置中展示了强大的性能。
Jason陪你练绝技B站更新地址:https://space.bilibili.com/455056488
NeRF相关工作整理Github repo:https://github.com/yangjiheng/nerf_and_beyond_docs
领取专属 10元无门槛券
私享最新 技术干货