1.Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image(ICCV 2023)
标题:Metric3D:从单个图像进行零样本度量 3D 预测
作者:Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen
文章链接:https://arxiv.org/abs/2307.10984
项目代码:https://github.com/YvanYin/Metric3D
摘要:
从图像重建精确的 3D 场景是一项长期存在的视觉任务。由于单图像重建问题的不适定性,大多数成熟的方法都是建立在多视图几何之上的。最先进的(SOTA)单目度量深度估计方法只能处理单个相机模型,并且由于度量模糊而无法执行混合数据训练。同时,在大型混合数据集上训练的 SOTA 单目方法通过学习仿射不变深度实现零样本泛化,但无法恢复真实世界的指标。在这项工作中,我们表明零镜头单视图度量深度模型的关键在于大规模数据训练和解决各种相机模型的度量模糊性的结合。我们提出了一个规范的相机空间转换模块,它明确地解决了模糊性问题,并且可以轻松地插入现有的单目模型中。配备我们的模块后,单目模型可以使用数千个相机模型使用超过 800 万张图像进行稳定训练,从而实现对未见过的相机设置的野外图像的零样本泛化。实验证明了我们的方法在 7 个零样本基准上的 SOTA 性能。值得注意的是,我们的方法在第二届单目深度估计挑战赛中获得了冠军。我们的方法能够在随机收集的互联网图像上准确恢复度量 3D 结构,为合理的单图像计量铺平道路。潜在的好处延伸到了下游任务,只需插入我们的模型就可以显着改善这些任务。例如,我们的模型缓解了单目 SLAM 的尺度漂移问题(图 1),从而实现高质量的度量尺度密集映射。该代码可从此 https URL 获取。
2.Neural Haircut: Prior-Guided Strand-Based Hair Reconstruction
标题:神经理发:事先引导的基于股的头发重建
作者:Vanessa Sklyarova, Jenya Chelishev, Andreea Dogaru, Igor Medvedev, Victor Lempitsky, Egor Zakharov
文章链接:https://arxiv.org/abs/2306.05872
项目代码:https://samsunglabs.github.io/NeuralHaircut/
摘要:
使用图像或视频数据生成逼真的人体 3D 重建对于各种通信和娱乐应用至关重要。虽然现有方法在身体和面部区域取得了令人印象深刻的结果,但由于其机械复杂性较高,真实的头发建模仍然具有挑战性。这项工作提出了一种能够根据在不受控制的照明条件下捕获的单眼视频或多视图图像在股线级别上精确重建头发几何形状的方法。我们的方法有两个阶段,第一阶段使用隐式体积表示对粗毛和胸围形状以及头发方向进行联合重建。然后,第二阶段通过在单个优化过程中协调粗略体积约束与从合成数据中学习的发束和发型先验来估计发束级头发重建。为了进一步提高重建保真度,我们使用新的可微渲染器将基于图像的损失合并到拟合过程中。该组合系统名为“神经理发”,实现了重建发型的高度真实感和个性化。
3.MonoNeRF: Learning Generalizable NeRFs from Monocular Videos without Camera Pose
标题:MonoNeRF:从没有相机姿势的单目视频中学习可推广的 NeRF
作者:Yang Fu, Ishan Misra, Xiaolong Wang
文章链接:https://arxiv.org/abs/2210.07181
项目代码:https://oasisyang.github.io/mononerf/
摘要:
我们提出了一种可推广的神经辐射场 - MonoNeRF,它可以在静态场景中移动的大规模单目视频上进行训练,而无需任何深度和相机姿势的真实注释。MonoNeRF遵循基于自动编码器的架构,其中编码器估计单目深度和相机姿态,解码器基于深度编码器特征构造多平面NeRF表示,并使用估计的相机渲染输入帧。学习受到重建误差的监督。一旦学习了模型,它就可以应用于多种应用,包括深度估计、相机姿态估计和单图像新颖视图合成。更多定性结果可在以下网址获得:此 https URL 。