作者:Yi Yang等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2606.05979 开源链接:https://github.com/SJTU-DENG-Lab/WLA

世界模型(World Models, WMs)旨在模拟物理动力学规律,是物理人工智能(Physical AI)的基石。近期,世界-动作模型(World-Action Models, WAMs)作为一种整合了世界模型与具身控制的强有力范式脱颖而出。其世界建模接口使 WAM 能够从大规模的第一视角(Egocentric)视频预训练中获益。对物理动力学的预测为动作生成提供了强大的未来状态先验。然而,现有方法几乎完全专注于预测“下一帧视觉状态”,这使得模型背负了过多的低级像素细节负担,限制了其在语义推理和逻辑外推方面的能力。
为了弥合这一差距,本文核心见解是:下一时刻的状态应当包含“高层文本意图”和“底层物理动力学”这两个维度。 具体而言,前者提供了一种紧凑且泛化性极强的未来状态抽象表示,得益于大语言模型(LLMs)的盛行,这种表示极易获取;后者则充当了高层意图与精细运动控制之间的桥梁。物理动力学与高分辨率视觉状态的不同之处在于,它仅描述状态之间的“演变过程”,而非像素细节。
本文提出了 世界-语言-动作(World-Language-Action, WLA)模型,这是一类全新的具身基础模型,旨在将下一状态预测与动作合成紧密相连。WLA 采用自回归(AR)Transformer 作为主干网络,这与现有的基于双向扩散 Transformer(DiT)的 WAM 形成了鲜明对比。在实践中,WLA 将高层意图定义为从原始指令中分解出的“文本子任务”,并继承了视觉语言模型(VLMs)的语言建模能力与上下文管理机制。与现有的视觉-语言-动作(VLA)模型相比,WLA 能够利用高层意图同时引导物理动力学预测和动作预测——而 VLA 很少在动作预测中应用此类引导。因此,WLA 能够利用包括无动作标注的跨具身机器人视频在内的异构数据。
让自回归主干网络预测底层物理动力学具有一定的挑战性,因为这类数据缺乏直观的真值标签(Ground Truth)。WLA 通过引入专门的“世界专家”(World Expert)解决了这一难题:该专家根据当前状态以及主干网络输出的物理动力学特征来预测后续的视觉状态。这种世界建模目标将预测视觉细节的重任卸给了“世界专家”,使得主干网络只需专注于预测驱动视觉状态转换的核心信息(即“潜动作”/Latent Action)。与现有的两阶段潜动作学习方法不同,我们的框架是端到端训练的。其实现基于主干网络顶层的简单“元查询”(Meta-query)架构:元查询的输出作为世界专家的调节信号,同时引导动作专家产生可执行的动作。
为了保持 WLA 的高效性,确定了几个关键设计:发现让世界专家仅预测未来的“静态视觉帧”而非全段视频剪辑,就足以捕捉有效的物理动力学。由于世界预测是通过隐式参数更新而非显式条件建模来影响动作生成的,因此在推理时可以完全禁用世界专家。我们的首个原型版本 WLA-0(拥有 20 亿激活参数)在 NVIDIA RTX 5090 上实现了单次推理仅需 40 毫秒。实验表明,WLA-0 在模拟与真实环境中均表现卓越,例如在 RoboTwin 2.0 清洁场景中成功率达 92.94%,在 RMBench 上的成功率为 56.5%。此外,WLA-0 展现了直接从无动作标注的跨具身视频中学习新任务的巨大潜力。
本研究旨在开发一个统一的物理人工智能基础模型,将多模态输入(图像、文本、机器人状态)映射至多模态输出。在每个时间步 ,模型处理当前观测 、历史观测 、本体状态 及指令 ,预测 步动作块 ,其前导信息为文本意图 和未来视觉状态 。

WLA 采用自回归 Transformer 主干预测两个互补表征:高层文本意图与底层物理动力学。
这种隐式范式使得在推理时可以完全移除“世界专家”,显著降低延迟,摆脱了传统“先成像后行动”WAM 模式的限制。
训练目标。模型采用用于子任务生成的交叉熵损失 ,以及分别用于世界建模和动作预测的两个流匹配(flow-matching)损失 和 进行联合训练:
其中, 和 分别用于调节辅助的世界建模损失和语言损失的权重。
在仿真环境和真实世界中对 WLA-0 模型进行了广泛评估,核心发现如下:

2. 长程任务突破:在依赖记忆的 RMBench 任务中,WLA-0 凭借语言规划能力,将成功率提升至 56.5% ,几乎是此前最优基线(Mem-0, 28.5%)的两倍。



WLA,这是一个将世界建模、语言推理和动作合成融为一体的具身智能框架。通过使用自回归语言主干配合世界专家与动作专家,WLA 实现了语义层面的文本子任务建模与精细层面的物理动力学建模,赋予了机器人长程推理能力与实时控制精度。实验证明 WLA-0 在多任务性能、记忆依赖型操作以及推理效率上均达到了SOTA水平。此外,其从动作缺失的视频中学习新任务的能力,为实现可扩展的跨具身机器人学习指明了方向。
尽管成果丰硕,WLA 仍存在局限:
[1] World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis
涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。
