首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >3个月估值10亿,李飞飞空间智能首个模型诞生!一张图生成3D世界,视频游戏要变天

3个月估值10亿,李飞飞空间智能首个模型诞生!一张图生成3D世界,视频游戏要变天

作者头像
新智元
发布于 2025-02-15 06:25:18
发布于 2025-02-15 06:25:18
1500
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:编辑部 HYZ

【新智元导读】李飞飞的World Labs首个「空间智能」模型,刚刚诞生了!一张图生成一个3D世界,网友惊呼:太疯狂了,我们进入了下一轮革命,这就是视频游戏、电影的未来。

AI生成3D世界成真了!

就在刚刚,AI教母李飞飞创立的World Labs首次官宣「空间智能」模型,一张图,即可生成一个3D世界。

用李飞飞的话说,「无论怎样理论化这个想法,都很难用语言描述一张照片或一句话生成3D场景的互动体验。」

这是迈向空间智能的第一步。

交互传送门:https://www.worldlabs.ai/blog#footnote1

所有场景都能在浏览器中实时渲染,还能实现可控的相机效果、可调节的模拟景深。

未来,游戏NPC的虚拟世界可以随意切换,都是分分钟生成的事情。

英伟达高级研究科学家、李飞飞高徒Jim Fan总结道,「GenAI正在创造越来越高维度的人类体验快照。Stable Diffusion是2D快照;Sora是2D+时间维度的快照;而World Labs是3D、完全沉浸式的快照」。

今年4月,李飞飞被曝出开始自创业,专注于空间智能,新公司私下融资直接晋升10亿美元独角兽。

直到9月,这家名为World Lab正式亮相,并在新一轮融资2.3亿美金,得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持。

World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞

如今酝酿半年多,空间智能终见雏形。

网友们激动地表示,太疯狂了,我们即将迎来一个像是80年代、90年代那样的革命。这将让许多人实现他们的创意,有望降低开发成本,帮助工作室的新知识产权更大胆冒险。

这就是视频游戏、电影的未来。

VR从此有了更多可能性。

探索一个新世界

不论是Midjourney、FLUX,还是Runway、DreamMachine,我们熟知的大多数GenAI工具仅能制作图像/视频2D内容。

若是实现了在3D中生成,视频的控制性、一致性能得到极大的改善。

这也就意味着,制作电影、游戏、模拟器等其他物理世界的数字表现形式,将会发生翻天覆地的变化。

World Labs成立开始的初衷便是,空间智能的AI对世界进行建模,还能3D时空中物体/地点/交互进行推理。

这次,他们首次展示了这个3D生成的世界。

如下,是在浏览器中进行的实时渲染演示(注:AI图像均由FLUX 1.1 pro/Ideogram/Midjourney生成)。

输入一张AI生成的古色古香的村庄图像,然后就可以得到一个3D的世界。

提示:这是一个古色古香的村庄,鹅卵石铺就的街道,茅草屋顶的小木屋,中央广场上有一口石井,周围是花坛

一座富丽堂皇的宫殿,AI把光与影都展现得淋漓尽致。

一幅AI生成的折纸类图片,立刻活灵活现了起来。

又或者输入一张博物馆取景照片,谁又能想到这周围是什么样子的呢?

AI帮你设想出了一切,出入门,下一间相邻的展馆、展品.....

再比如这张实景图,AI也能想象出周围的世界。

相机效果

你还可以体现不同相机效果,场景生成后,会使用虚拟相机在浏览器中进行实时渲染。

通过对这个相机的精准控制,便可以实现艺术摄影特效。

比如模拟不同的景深,让只有在相机特定距离范围内的物体保持清晰:

还可以模拟滑动变焦(dolly zoom),通过同时调整相机的位置和视场角来实现这一效果:

左右滑动查看

3D特效

大多数生成式模型都是预测像素的。而预测3D场景有很多好处:

- 场景持久性:一旦生成了一个世界,它就会稳定存在。即使你转开视线后再次观看,场景也不会在你看不见时发生变化。

- 实时控制:生成场景后,你可以在其中实时移动。你可以仔细观察花朵的细节,或是探头查看角落后面有什么。

- 几何精确性:这个生成的世界遵循基本的3D几何物理规则。它们具有真实的立体感和空间深度,与某些AI生成视频的虚幻效果形成鲜明对比。

可视化3D场景最简单的方法是,就是使用深度图(depth map)。在深度图中,每个像素都会根据其到相机的距离来着色:

我们不仅可以利用3D场景结构来创建交互特效:

还可以创建自动运行的动态效果,为场景注入生命力:

左右滑动查看

名画中的3D世界也可实时交互了。

走进梵高的露天咖啡馆

现在,我们可以以全新的方式,体验标志性的艺术作品了!

原画中没有任何东西,是由模型生成的。

下面,就让我们走进从梵高、霍珀、修拉和康定斯基最喜欢的作品中生成的世界。

左右滑动查看

创意工作流

现在,3D世界生成可以十分自然地和其他AI工具组合在一起,创作者们可以使用已知的工具,获得无比丝滑的全新体验了。

首先,可以通过使用文本到图像模型生成图像,来从文本创建世界。

不同的模型都有自己的不同风格,而空间智能世界可以继承这些风格。

下面就是使用不同的文本到图像模型生成同一场景的四个变体, 它们使用的都是相同的提示。

提示:一间充满朝气的动漫风格青少年卧室,床上铺着五颜六色的毯子,书桌上杂乱地摆着一台电脑,墙上贴满了海报,各种运动器材随意地散落在房间里。一把吉他斜靠在墙边,房间中央铺着一块带有精美图案的舒适地毯。窗外透进的阳光为整个房间营造出温馨活力的青春氛围。

左右滑动查看

现在,已经有一些创作者提前试用了。

比如Eric Solorio就使用这个模型,填补了自己创意工作流程中的空白,可以让场景中的角色可以上阵,甚至还能指导摄像机精确移动。

Brittani Natail则将World Labs技术与Midjourney、Runway、Suno、ElevenLabs、Blender和CapCut等工具相结合,在生成的世界中精心设计了摄像机路径。

因此,得以在三部短片中唤起不同的情绪。

现在,候补名单已经开放了,话不多说了,赶快去申请吧。

空间智能,计算机视觉下一个前沿

此前,李飞飞在一次活动中,首次详细揭秘了何谓「空间智能」:

视觉化为洞察,看见成为理解,理解导致行动。

她将人类智能归结为两大智能,一是语言智能,另一个便是空间智能。虽然语言智能备受关注,但空间智能将对AI产生重大的影响。

而在4月公开的TED演讲中,李飞飞也分享了自己关于空间智能的更多思考,同时预示着World Labs的目标所在。

她表示,「所有空间智能的生物所具备的行动能力,是与生俱来的。因为,它能够将感知与行动进行关联」。

「如果想让AI超越其自身当前的能力,我们需要的是,不仅仅能够看到、会说话的AI,而是一个可以行动的AI」。

就连英伟达高级计算机科学家Jim Fan称,「空间智能,是计算机视觉和实体智能体的下一个前沿」。

正如World Labs的官博所阐述的那样,人类智能包含了诸多方面。

语言智能,可以让我们通过语言与他们进行交流和联系。而其中最为基础的便是——空间智能,能够让我们理解,并与周围世界进行互动。

此外,空间智能具备了极强的创造力,可以将我们脑海中的画面,在现实中呈现。

正是有了空间智能,人类能够推理、行动和发明。从简单的沙堡到高耸的城市可视化设计,都离不开它。

在接受彭博最新采访中,李飞飞表示,人类的空间智能,实际上经过了数百万年的演化而来。

这是一种理解、推理、生成,甚至在一个3D世界中互动的能力。不论是你观赏美丽的花朵,尝试触摸蝴蝶,还是建造一座城市,所有这些皆是空间智能的一部分。

不仅是人类,动物身上也可以看到这一点。

那么,如何让计算机也能具备空间智能的能力呢?其实我们已经取得了巨大的进步,过去十年AI领域的发展相当振奋人心。

一句提示,AI生成图像、视频,真知还能讲述故事。这些模型已经以全新的方式,重塑人类的工作和生活方式。

而我们仅是看到了GenAI革命前夜的第一章。

下一步,如何超越?

需要将这些能力,如何带到3D领域。因为现实世界,就是3D的,同时人类空间智能是建立在非常「原生」的理解和操作3D的能力之上的。

如今,单个图像生成3D世界模型,让我们对空间智能有了初步的理解。

参考资料:

https://x.com/DrJimFan/status/1863646433435586903

https://x.com/drfeifei/status/1863618536318345688

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯混元发布业界首个原生 3D 重建漫游模型,登顶世界模型能力榜首
2025 年 9 月 2 日,腾讯混元团队正式推出世界模型系列最新力作 ——HunyuanWorld-Voyager(混元 Voyager)。作为业界首个支持原生 3D 重建的超长漫游世界模型,其在斯坦福大学李飞飞团队主导的 WorldScore 基准测试中以 77.62 分的综合成绩问鼎榜首,刷新了视频生成与 3D 场景建模的技术天花板。
疯狂的KK
2025/09/03
4490
腾讯混元发布业界首个原生 3D 重建漫游模型,登顶世界模型能力榜首
全网热评的李飞飞世界生成模型,真的能构建物理世界吗?
还记得《爱丽丝梦游仙境》开头那个神奇的兔子洞吗?现在你不需要追着白兔跳进去,只要点击一下鼠标就行。
小腾资讯君
2024/12/05
2160
跨越虚幻与物理世界的鸿沟 | 一张图生成一个 3D 游戏世界正在成为现实
李飞飞的World Labs 发布了他们空间智能的首个预览版本,上线了一个浏览器可访问的 AI 3D demo可以试玩。通过单张图片生成完整3D世界,而且还能与之交互就像是让你“走进”一张图片,探索其生成的三维场景.
AIGC新知
2024/12/05
2300
跨越虚幻与物理世界的鸿沟 | 一张图生成一个 3D 游戏世界正在成为现实
通用世界模型Genie 3发布,《星际争霸 II》游戏赢麻了
你就理解为,他们把游戏场景甚至我们所处世界的这种素材,拿去训练出来的模型,乍一看跟游戏/真实世界一模一样。
AIGC新知
2025/08/08
2010
通用世界模型Genie 3发布,《星际争霸 II》游戏赢麻了
李飞飞:World Labs这样实现「空间智能」
说到斯坦福大学教授李飞飞(Fei-Fei Li),她提倡的「空间智能」最近正在引领 AI 发展方向。
机器之心
2025/02/14
2800
李飞飞:World Labs这样实现「空间智能」
谷歌世界模型爆发:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。
机器之心
2025/02/14
1600
谷歌世界模型爆发:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则
当前,基于文本的图像和视频生成模型与大语言模型(LLMs)共同展示了 AI 在视觉领域的巨大潜力。这些模型已经让人们能够以全新的方式工作和创作,但这仅仅是冰山一角。为了突破现有模型的限制,我们需要具备空间智能的 AI,能够在三维空间和时间中对物体、地点及其互动进行建模和推理。——《World Labs》官方网站
AI研思录
2025/02/20
2970
李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则
李飞飞AI论文《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》快读
今日推荐:【新火种AI | AI三重问:什么是AI?什么是AI模型?什么是AI大模型?
Towserliu
2024/11/25
2.7K0
李飞飞AI论文《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》快读
李飞飞:语言之外,另一半的智能还有待实现
「在 AI 之间加一个 G 以强调其通用性,我是尊重这个想法的。从制造能够思考和帮助人们做出决策的机器的角度来看,AI 或 AGI 对我来说是同样的事情。」
机器之心
2025/02/03
1390
李飞飞:语言之外,另一半的智能还有待实现
首个「空间智能」模型发布,仅需要一张图片即可生成 3D 场景
给定一张图,就可以生成一个3D的场景,这个看起来很惊艳的场景,最近被李飞飞团队实现了~
算法一只狗
2025/01/07
4260
首个「空间智能」模型发布,仅需要一张图片即可生成 3D 场景
李飞飞亲自撰文:大模型不存在主观感觉能力,多少亿参数都不行
近段时间,李飞飞开始把目光瞄准到这一领域,并为此创建了一家初创公司。她曾表示,「大自然创造了一个以空间智能为动力的观察和行动的良性循环。」她所在的斯坦福大学实验室正在尝试教计算机「如何在三维世界中行动」,例如,使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。
机器之心
2024/06/04
1520
李飞飞亲自撰文:大模型不存在主观感觉能力,多少亿参数都不行
宝可梦GO「偷家」李飞飞空间智能?全球最强3D地图诞生,150万亿参数解锁现实边界
最近,宝可梦GO团队宣布,构建出了一个大规模地理空间模型LGM,让我们距离空间智能更近了一步。
新智元
2025/02/15
1680
宝可梦GO「偷家」李飞飞空间智能?全球最强3D地图诞生,150万亿参数解锁现实边界
“人工智能教母”李飞飞创立的公司现估值10亿美元!字节将于今日首次公布视频大模型进展?|AI日报
微软研究人员推出SpreadsheetLLM!旨在理解和处理电子表格;“神农大模型 2.0”正式发布!|AI日报
可信AI进展
2024/07/19
1840
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了
人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世界展示了空间智能技术的巨大潜力。
机器之心
2025/02/14
2380
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
在购买家具时,我们会尝试回忆起我们的客厅,以想象一个心仪的橱柜是否合适。虽然估计距离是困难的,但即使只是看过一次,人类也能在脑海里重建空间,回忆起房间里的物体、它们的位置和大小。
机器之心
2025/02/15
1150
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
CNCC | 李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017
AI 科技评论报道:中国计算机学会 CCF 举办的中国计算机大会CNCC 2017已于10月26日在福州市海峡国际会展中心开幕。参加会议的人数众多,主会场座无虚席。 AI 科技评论也派出记者团全程参与大会报道。 26日上午开幕式结束后,多位特邀嘉宾进行了现场演讲,主题涵盖计算机科学发展中的新技术和应用、自然语言利净额、AI如何服务于人、人工智能在信息平台的应用等等。斯坦福大学副教授、谷歌云首席科学家、机器学习界的标杆人物之一的李飞飞进行了题目为「A Quest for Visual Intelligen
AI科技评论
2018/03/14
1K0
CNCC | 李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017
一图一3D世界,视频还可交互,昆仑万维「空间智能」开年首秀来了
这个春节,动画电影《哪吒 2》爆火,不仅登上中国影史票房榜首,还不断地刷新全球票房榜单。3D 版本中的山河社稷图、石矶娘娘变身的石头山、最后的仙魔大战…… 这些场景让我们感受到了极度震撼的 3D 动效。
机器之心
2025/02/19
1910
一图一3D世界,视频还可交互,昆仑万维「空间智能」开年首秀来了
李飞飞高徒:斯坦福如何打造基于视觉的智能医院?
每年,死于医院内感染的人数比车祸还要多。这意味着去医院就医比不去医院病情加重的概率要高 1/30。
机器之心
2018/12/17
6610
OpenAI以1500亿美元公司估值向投资者筹集65亿美元!安卓版谷歌Gemini Live免费上线|AI日报
突发!OpenAI「Her」领头人离职!字节硬件与豆包联动,预推出AI耳机、眼镜等产品|AI日报
可信AI进展
2024/09/18
1510
出手即王炸?照片级真实度生成式世界模型,还获得皮克斯和Jeff Dean投资
近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。
机器之心
2025/02/15
1200
出手即王炸?照片级真实度生成式世界模型,还获得皮克斯和Jeff Dean投资
推荐阅读
腾讯混元发布业界首个原生 3D 重建漫游模型,登顶世界模型能力榜首
4490
全网热评的李飞飞世界生成模型,真的能构建物理世界吗?
2160
跨越虚幻与物理世界的鸿沟 | 一张图生成一个 3D 游戏世界正在成为现实
2300
通用世界模型Genie 3发布,《星际争霸 II》游戏赢麻了
2010
李飞飞:World Labs这样实现「空间智能」
2800
谷歌世界模型爆发:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
1600
李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则
2970
李飞飞AI论文《AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION》快读
2.7K0
李飞飞:语言之外,另一半的智能还有待实现
1390
首个「空间智能」模型发布,仅需要一张图片即可生成 3D 场景
4260
李飞飞亲自撰文:大模型不存在主观感觉能力,多少亿参数都不行
1520
宝可梦GO「偷家」李飞飞空间智能?全球最强3D地图诞生,150万亿参数解锁现实边界
1680
“人工智能教母”李飞飞创立的公司现估值10亿美元!字节将于今日首次公布视频大模型进展?|AI日报
1840
世界模型进入4D时代!单视角视频构建的自由视角4D世界来了
2380
李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了
1150
CNCC | 李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁 | CNCC2017
1K0
一图一3D世界,视频还可交互,昆仑万维「空间智能」开年首秀来了
1910
李飞飞高徒:斯坦福如何打造基于视觉的智能医院?
6610
OpenAI以1500亿美元公司估值向投资者筹集65亿美元!安卓版谷歌Gemini Live免费上线|AI日报
1510
出手即王炸?照片级真实度生成式世界模型,还获得皮克斯和Jeff Dean投资
1200
相关推荐
腾讯混元发布业界首个原生 3D 重建漫游模型,登顶世界模型能力榜首
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档