最近几个月,科技界把“世界模型”放在了聚光灯下。它被视为 AI 的下一座里程碑,李飞飞掌管的World Labs 刚刚发布的Marble更是引发了行业强烈关注。“世界模型”从实验室走向了商业化,展示出超越传统大模型的能力,也让我们开始关注这项技术真正的价值。

第一章:世界模型为何成为焦点
世界模型最早可以追溯到 1990 年代的智能体研究:如果一个智能体要在环境中行动,它必须有一种“内在世界观”。只是当时的算力和数据规模远不足以支撑。到了 2015 年后,深度学习在图像、语言上爆发,研究者开始尝试把世界模型从理论推到实证。较早的里程碑包括:
世界模型真正成为全球热点,是在 2023 年 OpenAI 的 Sora 发布之后。Sora成功的核心不是“画视频”,而是“预测下一秒会发生什么”。这让世界模型从研究走向大众视野。2周前,随着 Marbles的公测,世界模型终于走向了我们大众的视野。
全球一些在做世界模型的主流玩家们:
第二章:世界模型与 LLM 的共同点和差异
简单来说,没什么共同点。
语言大模型(LLM) 是基于现实中的文学材料训练而成的,学的是 人类语言中的知识总结。我们看到的LLM更像一个能说会道的花瓶,跟着所有人学说话,说话像模像样,但完全缺乏内核,不知道自己在说什么。
世界模型 是基于真实世界的视频训练而成,学的是 自然界最底层的变化规律。它从大量真实视频中观察物体、动作、光影、结构,推演物理因果。世界模型更像人类学习的方式,通过观察变化来理解世界的规则。
从两个核心角度看差异:
1. 学习内容不同
读万卷书不如行万里路,道理读了那么多却还是过不好这一生,有太多的名人名言告诉我们光看书没用,实践出真知,这也是大模型到现在为止最被大家诟病的地方。

2. 推理基础不同
例如:一个5秒视频,在一个桌子上第1秒球不动,手推球;2-4秒 球往右滚;这4秒展现了手、球、桌是物理结构,“手推了球,所以球会滚”是因果链条。那时空关系对第5秒的推理:球在右边停下了。
世界模型对物理世界进行学习,虽然无法抽象出F=ma的物理公式,但他能从足够多的现实场景中看到物理规律,并形成自己的总结。LLM 擅长汇报和沟通,世界模型 适合判断现实可行性。两者结合,将是未来通用人工智能(AGI)的核心能力。
第三章:世界模型的近期应用与未来
当我们把目光从技术转向业务,会发现世界模型的价值并不遥远。短期内,Marble 已经公测,并有明确可落地的商业场景目标;更长期来看,它将重塑企业理解业务、决策运作的方式,成为未来管理者的关键基础设施之一。
一、短期:Marble 已经能落地的应用能力
1. 游戏、高级视觉效果、VR
Marble生成的环境可直接用于3D游戏的背景和环境,输出格式与unity或Unreal引擎打通后,不管是可交互的组件和环境都可快速生成和落地。
我用了一句话,Marble 4分钟构建出了较为粗糙的3D场景,真实性由北京的同学仔细看看。

2. 复杂场景的预测与模拟
Marble 的核心优势在于“预测下一帧世界的可能样子”。这使得它可应用于物理类或流程类的“动态场景”,例如:
这些作用不会替代专家,却为专家提供一个高可靠性的“沙盒”,帮助提前验证方案是否可行。
二、长期:企业管理方式的深层变革
随着世界模型不断成熟,它将不仅仅是一个“工具”,更像是企业新的“认知基础设施”。新时代的仿真模拟,是未来管理者可提前布局的重点之一。
在 AI 中先跑一遍,再在真实世界落地。未来的世界模型可以理解空间、时间、行为之间的关联,这意味着企业的许多“流程变革”不再需要在真实环境中试错,而可以先在 AI 的虚拟世界中跑过一轮。变革风险更低、成本更低、决策更准确。
例子:供应链流程优化
传统工业软件通过数学和物理建模对工厂进行仿真模拟,需要对真实世界进行大量的数学抽象和人工假设。

未来,结合世界模型,企业再准备高质量流程与操作的数据记录,关键动作和布局的数字化资产(例如视频、IoT 数据)便可形成更为真实和高效的仿真模拟。帮助企业真正具备从“经验驱动”走向“模拟驱动”的能力,让每个流程优化都能提前验证风险和结果。
结语
人工智能的下一阶段,不再只是“语言理解”。世界模型正在打开一扇新的门,让 AI 具备观察和推演真实世界的能力。
对企业而言,这意味着智能化从“管理知识”迈向“管理现实”。从今天的预测、规划,到未来的自动化决策与模拟优化,世界模型会逐步成为产业数字化的重要基础设施。
这是一个刚刚开始的时代。更是一个值得提前投资、提前理解、提前布局的技术周期。