转载自:模式识别实验室NLPR
2026年6月3日至7日,国际权威学术会议The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026(CVPR 2026)在美国丹佛成功举办。我实验室《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》荣获视频世界模型研讨会最佳论文奖。论文作者为杨禹雪、范略、史子骐、彭君然、王峰、张兆翔,指导教师为我实验室张兆翔研究员。


论文简介
NeoVerse是一个面向通用场景的4D世界模型。当前4D世界模型建模方法在可扩展训练上存在局限性,这主要归结于昂贵的多视角数据或是过于繁琐的离线预处理流程。NeoVerse旨在突破这一瓶颈,其核心理念是将整个训练管线扩展至海量开放场景单目视频。通过引入无需位姿的前馈4D高斯重建与创新的在线单目退化模拟机制,NeoVerse在百万级单目视频上进行训练,具备强大的泛化能力。它打破了对特定数据的依赖,仅需输入单目视频即可在30秒内(单卡A800下)高效实现4D场景构建与新轨迹视频生成。目前,该模型在各项重建与生成指标上均处于先进水平,并且在影视创作、具身智能、自动驾驶等领域展现了广泛的应用潜力,支持4D重建、精准相机漫游、多视角生成、视频编辑、视频稳像、三维点跟踪及反事实长尾数据生成等丰富任务。

图 1 NeoVerse示意图。NeoVerse通过前馈方式从单目视频重建4D高斯。这些4D高斯可以从新视角渲染出退化画面、深度等信息,并将以退化信息作为条件生成高质量的新视角视频。

图 2 NeoVerse框架。在重建部分,我们提出了无需姿态输入的前馈4DGS重建模型并支持双向运动建模。4DGS在新视角下的退化渲染作为条件输入给视频生成模型。在训练过程中,我们通过单目退化模拟构建退化条件,并将原始视频本身作为训练目标。
论⽂链接:https://arxiv.org/abs/2601.00393
GitHub:https://github.com/IamCreateAI/NeoVerse
HuggingFace:https://huggingface.co/Yuppie1204/NeoVerse
项⽬主⻚:https://neoverse-4d.github.io
本文系学术转载,如有侵权,请联系CVer小助手删文