首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >别只盯着VLA,上交大WLA模型一统“世界建模+语言推理+动作”,推理还只要40毫秒!

别只盯着VLA,上交大WLA模型一统“世界建模+语言推理+动作”,推理还只要40毫秒!

作者头像
AI生成未来
发布2026-06-12 14:19:45
发布2026-06-12 14:19:45
1500
举报

作者:Yi Yang等

解读:AI生成未来

文章链接:https://arxiv.org/pdf/2606.05979 开源链接:https://github.com/SJTU-DENG-Lab/WLA

亮点直击

  • 开创 WLA 模型:首次提出“世界-语言-动作”(World-Language-Action)模型范式,将世界建模的物理直觉与语言模型的语义逻辑在单一架构下实现大一统。
  • 自回归(AR)主干网络替代 DiT:不同于主流 WAM 模型使用双向扩散 Transformer(DiT),该模型率先使用 AR Transformer 作为主干,使其具备了原生的文本推理和长程规划能力。
  • 推理侧“卸载”世界预测:通过元查询(Meta-queries)机制,让物理动力学在训练阶段引导动作学习,但在推理阶段可以完全禁用世界专家,显著降低了计算开销和延迟。
  • 跨具身视频学习:突破了“动作标签”数据的瓶颈,模型展现出直接从无动作标注的异构机器人视频(甚至人类视频)中提取控制策略的潜力。

解决的问题

  • 语义与物理的断层:解决 VLA 模型(视觉-语言-动作)缺乏对物理动力学理解的问题,以及传统 WAM 模型(世界-动作模型)缺乏高层语义推理、深陷底层视觉细节的问题。
  • 长程任务失效:通过子任务分解,解决了机器人在复杂、长时程、依赖记忆的任务中容易丢失目标或无法根据历史纠错的问题。
  • 推理延迟高:解决了传统世界模型在推理时必须生成图像导致速度极慢(通常数百毫秒)的痛点,使其能够适配动态、高频的实时控制场景。
  • 数据规模瓶颈:通过引入视频建模目标,缓解了标注动作数据(Action-labeled data)获取昂贵、难以规模化的问题。

提出的方案

  • 三专家协作系统
    • 主干网络(Backbone):基于自回归 VLM,预测“下一时刻状态”,包括文本意图(子任务)和物理动力学(潜动作)。
    • 世界专家(World Expert):负责将主干预测的动力学特征转化为视觉验证(Subgoal 图像预测)。
    • 动作专家(Action Expert):负责将动力学特征转化为具体的机械臂执行动作。
  • 双层状态表征
    • 高层意图:以文本子任务形式存在,用于全局逻辑指导。
    • 底层动力学:以潜动作向量形式存在,用于精细运动控制。

应用的技术点

  • 元查询架构(Meta-query):在 AR Transformer 顶层使用 64 个元查询向量,通过注意力机制聚合全局上下文,提取物理动力学特征 。
  • 流匹配(Flow-matching):在动作专家和世界专家中均采用流匹配技术,提升生成动作和图像的质量与速度。
  • 测试时缩放(TTS):引入“想象驱动”的选择机制,采样多个动作块并预测结果,选择价值函数评分最高的路径。
  • 极致工程优化
    • CUDA Graph:静态化计算图。
    • Triton 算子融合:针对 RMSNorm、RoPE 等进行深度融合。
    • KV 缓存预计算:减少重复计算,最终在 RTX 5090 上实现 40ms 的超低延迟。

达到的效果

  • 性能 SOTA
    • 模拟环境:在 RoboTwin 2.0 清洁场景成功率达 92.94% ,LIBERO 平均成功率达 98.6% ,全面超越 π0.5 和 Motus。
    • 记忆依赖任务:在 RMBench 上成功率达 56.5% ,几乎是此前行业标杆(Mem-0)的两倍。
  • 实时性与效率:推理延迟约 40ms,在涉及移动目标的“丢垃圾”任务中展现出极佳的动态响应能力。
  • 强大的泛化力:在未见过的任务(如“敲击方块”)中,仅通过加入跨具身视频监督,成功率从 13% 跃升至近 30% ,证明了其从视频中学习控制知识的能力。

引子

世界模型(World Models, WMs)旨在模拟物理动力学规律,是物理人工智能(Physical AI)的基石。近期,世界-动作模型(World-Action Models, WAMs)作为一种整合了世界模型与具身控制的强有力范式脱颖而出。其世界建模接口使 WAM 能够从大规模的第一视角(Egocentric)视频预训练中获益。对物理动力学的预测为动作生成提供了强大的未来状态先验。然而,现有方法几乎完全专注于预测“下一帧视觉状态”,这使得模型背负了过多的低级像素细节负担,限制了其在语义推理和逻辑外推方面的能力。

为了弥合这一差距,本文核心见解是:下一时刻的状态应当包含“高层文本意图”和“底层物理动力学”这两个维度。 具体而言,前者提供了一种紧凑且泛化性极强的未来状态抽象表示,得益于大语言模型(LLMs)的盛行,这种表示极易获取;后者则充当了高层意图与精细运动控制之间的桥梁。物理动力学与高分辨率视觉状态的不同之处在于,它仅描述状态之间的“演变过程”,而非像素细节。

本文提出了 世界-语言-动作(World-Language-Action, WLA)模型,这是一类全新的具身基础模型,旨在将下一状态预测与动作合成紧密相连。WLA 采用自回归(AR)Transformer 作为主干网络,这与现有的基于双向扩散 Transformer(DiT)的 WAM 形成了鲜明对比。在实践中,WLA 将高层意图定义为从原始指令中分解出的“文本子任务”,并继承了视觉语言模型(VLMs)的语言建模能力与上下文管理机制。与现有的视觉-语言-动作(VLA)模型相比,WLA 能够利用高层意图同时引导物理动力学预测和动作预测——而 VLA 很少在动作预测中应用此类引导。因此,WLA 能够利用包括无动作标注的跨具身机器人视频在内的异构数据。

让自回归主干网络预测底层物理动力学具有一定的挑战性,因为这类数据缺乏直观的真值标签(Ground Truth)。WLA 通过引入专门的“世界专家”(World Expert)解决了这一难题:该专家根据当前状态以及主干网络输出的物理动力学特征来预测后续的视觉状态。这种世界建模目标将预测视觉细节的重任卸给了“世界专家”,使得主干网络只需专注于预测驱动视觉状态转换的核心信息(即“潜动作”/Latent Action)。与现有的两阶段潜动作学习方法不同,我们的框架是端到端训练的。其实现基于主干网络顶层的简单“元查询”(Meta-query)架构:元查询的输出作为世界专家的调节信号,同时引导动作专家产生可执行的动作。

为了保持 WLA 的高效性,确定了几个关键设计:发现让世界专家仅预测未来的“静态视觉帧”而非全段视频剪辑,就足以捕捉有效的物理动力学。由于世界预测是通过隐式参数更新而非显式条件建模来影响动作生成的,因此在推理时可以完全禁用世界专家。我们的首个原型版本 WLA-0(拥有 20 亿激活参数)在 NVIDIA RTX 5090 上实现了单次推理仅需 40 毫秒。实验表明,WLA-0 在模拟与真实环境中均表现卓越,例如在 RoboTwin 2.0 清洁场景中成功率达 92.94%,在 RMBench 上的成功率为 56.5%。此外,WLA-0 展现了直接从无动作标注的跨具身视频中学习新任务的巨大潜力。

研究方法

本研究旨在开发一个统一的物理人工智能基础模型,将多模态输入(图像、文本、机器人状态)映射至多模态输出。在每个时间步 ,模型处理当前观测 、历史观测 、本体状态 及指令 ,预测 步动作块 ,其前导信息为文本意图 和未来视觉状态 。

世界-语言-动作模型 (WLA)

WLA 采用自回归 Transformer 主干预测两个互补表征:高层文本意图与底层物理动力学。

  • 文本意图学习 (Textual Intention Learning) :高层意图是自然语言形式的子任务。WLA 使用预训练 VLM 初始化主干网络 。训练时,模型学习预测覆盖未来动作视野 的子任务窗口 。模型利用内存缓冲区 存储历史子任务,为长程任务提供上下文。
  • 物理动力学建模 (Physical Dynamics Modeling) :通过在主干网络中加入元查询 ,模型输出紧凑的物理动力学特征 。 随后,“世界专家” 根据 和当前状态 预测未来视觉状态 的 VAE 特征。 与此同时,“动作专家” 根据 产生显式动作:

这种隐式范式使得在推理时可以完全移除“世界专家”,显著降低延迟,摆脱了传统“先成像后行动”WAM 模式的限制。

训练目标。模型采用用于子任务生成的交叉熵损失 ,以及分别用于世界建模和动作预测的两个流匹配(flow-matching)损失 和 进行联合训练:

其中, 和 分别用于调节辅助的世界建模损失和语言损失的权重。

推理优化

  • 高效模式 (Efficient Mode) :默认禁用世界专家,通过 CUDA 图捕获、算子融合等加速技术,实现实时推理。
  • 测试时缩放模式 (TTS Mode) :当算力充裕时,模型采样 个候选动作块,由世界专家“想象”每个动作后的视觉状态,并由“价值模型”评分,执行评分最高的动作块。

实验总结

在仿真环境和真实世界中对 WLA-0 模型进行了广泛评估,核心发现如下:

  1. 仿真表现优异:在 RoboTwin 2.0 双臂操作基准测试中,WLA-0 取得了 92.94% 的极高成功率。在 LIBERO 多任务学习基准中,平均成功率达 98.6% ,超越了包括 和 Motus 在内的所有强力基线。

2. 长程任务突破:在依赖记忆的 RMBench 任务中,WLA-0 凭借语言规划能力,将成功率提升至 56.5% ,几乎是此前最优基线(Mem-0, 28.5%)的两倍。

  1. 真实世界实时性:WLA-0 的推理延迟仅为 40ms,在涉及移动目标的“丢垃圾”任务中,其反应速度和轨迹预测能力远超传统 VLA 模型。
  1. 跨具身视频学习:最显著的突破是 WLA-0 能够从无动作标注的跨机器人视频(甚至不同构型的机器人)中学习新技能,这为利用海量互联网视频训练机器人提供了可行路径。

结论

WLA,这是一个将世界建模、语言推理和动作合成融为一体的具身智能框架。通过使用自回归语言主干配合世界专家与动作专家,WLA 实现了语义层面的文本子任务建模与精细层面的物理动力学建模,赋予了机器人长程推理能力与实时控制精度。实验证明 WLA-0 在多任务性能、记忆依赖型操作以及推理效率上均达到了SOTA水平。此外,其从动作缺失的视频中学习新任务的能力,为实现可扩展的跨具身机器人学习指明了方向。

局限性

尽管成果丰硕,WLA 仍存在局限:

  1. 真实世界实验目前仅限于单一机器人平台的少量双臂任务,其泛化至更多种类的具身终端和复杂任务域的能力仍需进一步验证。
  2. 目前基于视频的任务学习实验主要依赖于仿真的机器人视频进行监督,人类视频与机器人视频之间的领域鸿沟(Domain Gap)仍是未来工作的挑战。

参考文献

[1] World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

涉及 内容生成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 亮点直击
  • 解决的问题
  • 提出的方案
  • 应用的技术点
  • 达到的效果
  • 引子
  • 研究方法
    • 世界-语言-动作模型 (WLA)
    • 推理优化
  • 实验总结
  • 结论
  • 局限性
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档