跨越虚幻与物理世界的鸿沟 | 一张图生成一个 3D 游戏世界正在成为现实

AIGC新知

发布于 2024-12-05 12:19:49

3710

文章被收录于专栏：AIGC新知AIGC新知

李飞飞的World Labs 发布了他们空间智能的首个预览版本，上线了一个浏览器可访问的 AI 3D demo可以试玩。通过单张图片生成完整3D世界，而且还能与之交互就像是让你“走进”一张图片，探索其生成的三维场景.

体验网站：https://www.worldlabs.ai/blog

李飞飞的 AI 3D waitlis：https://docs.google.com/forms/d/e/1FAIpQLSf9jHsaDq1IwM_FADQP0Gbd82tbW4CBOI5YfUAdPfqrFrWEeA/viewform

核心内容

李飞飞空间智能首个项目发布，能够仅凭一张图片生成一个可交互的3D游戏世界。
- 交互性：生成的3D世界可以像玩游戏一样自由移动相机探索，支持浅景深、希区柯克变焦等操作。
- 实时渲染：场景在浏览器中实时渲染，支持摄像机效果和可调节的模拟景深（DoF）。
- 动态调整：用户可以改变物体颜色、调整背景光影、插入其他对象。
- 3D场景预测：与大多数生成模型不同，该AI系统直接预测3D场景，遵循3D几何物理规则。
- 网友反响：评论区“难以置信”一词刷屏，知名人士如Shopify创始人Tobi Lutke等点赞。
- VR应用：网友认为这为VR打开了新世界。
官方表示这只是3D原生生成AI未来的一个缩影，并正在努力将技术尽快交到用户手中。
李飞飞本人分享了这项成果，强调通过一张照片或一句话生成的3D场景互动体验难以用语言描述。

相机效果

场景生成后，将使用虚拟相机在浏览器中实时渲染。对相机的精确控制可实现艺术摄影效果。

我们可以模拟浅景深，其中只有距相机一定距离的物体才处于焦点：

我们还可以模拟移动变焦，同时调整相机的位置和视野：

3D效果

大多数生成模型预测像素。预测 3D 场景有很多好处：

持久的现实：世界一旦生成，就会一直存在。即使你移开视线再回头看，场景也不会在你背后改变。
实时控制：生成场景后，您可以实时在场景中移动。你可以停留在花朵的细节上，或者从角落里偷看，看看里面有什么。
正确的几何形状：我们生成的世界遵循 3D 几何的基本物理规则。它们具有扎实感和深度感，与某些人工智能生成的视频的梦幻性质形成鲜明对比。

可视化 3D 场景的最简单方法是深度图，其中每个像素根据其到相机的距离进行着色：

我们可以利用3D场景结构来构建交互效果——点击场景即可与之交互！

worldlabs让您以新的方式体验标志性的艺术作品。从梵高、霍珀、修拉和康定斯基最喜欢的作品中生成了世界。

原画中没有的任何东西都是由模型生成的。

3D 世界生成自然地与其他 AI 工具组合在一起。这使得创作者可以使用他们已知的工具来实现新的体验。

例如，我们可以通过首先使用文本到图像模型生成图像来从文本创建世界。不同的模型有自己的风格，我们的世界可以继承这些风格。

在这里，我们使用不同的文本到图像模型生成同一场景的四个变体， ([4])全部使用相同的提示：

一间充满活力的卡通风格的青少年卧室，里面有一张铺着彩色毯子的床，一张杂乱的桌子，上面有一台电脑，墙上贴着海报，还有散落的运动装备。一把吉他靠在墙上，中间是一张舒适的带图案的地毯。窗外的光线为房间增添了温暖、年轻的氛围。

我们已经让一些创作者提前了解了我们的技术，开始尝试 3D 原生生成 AI 工作流程带来的可能性。

Eric Solorio展示了我们的模型如何填补他的创意工作流程中的空白，使场景中的角色轻松上演并指导精确的摄像机移动：

Brittani Natali使用将 World Labs 技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合的工作流程，在我们生成的世界中精心设计了摄像机路径，以在三部短片中唤起不同的情绪：

视频

一张照片标志着旅程的开始，而一个栩栩如生、互动性强、充满活力的虚拟世界则是我们的目的地，World Labs 正在努力缩小这两者之间的差距。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-12-03，如有侵权请联系 cloudcommunity@tencent.com 删除

渲染

本文分享自 AIGC新知微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度