自变量机器人发布全球首个“事件级预测”具身智能世界模型WALL-WM

2026/05/29 15:02阅读量 1

自变量机器人(X-Square Robot)发布全球首个基于语义事件的世界模型WALL-WM,将具身智能的预测单元从固定时间帧改为语义事件(如“抓住杯子”),通过跳过冗余帧直接预演事件结果并生成动作,显著提升跨场景泛化能力。该模型在多个基准上超越现有方案,并配套发布了数据金字塔、层级化标注、分布式训练系统等工程方案。

事件概述

自变量机器人团队发布全球首个「事件级预测」具身智能世界模型 WALL-WM(论文《WALL-WM: Carving World Action Modeling at the Event Joints》)。该模型将世界模型的预测单位从时间帧转换为语义事件,使机器人能像人类一样抓住动作的关键变化,从而在跨场景泛化上表现更稳定。

核心创新

传统 VLA 模型按固定时间窗口预测动作,对真实世界中不同阶段(接近、接触、抓取、移动)的物理变化处理不佳。WALL-WM 提出 event-centric 方式:将任务切分为有语义、有物理动作变化的「事件边界」(如伸手、抓取、抬升),并在这些事件数据上训练模型。文本、视觉、动作三类信息天然具有不同的流形几何和时间尺度,WALL-WM 通过事件语义将它们真正对齐。

技术架构

WALL-WM 的核心链路分为三层:

  1. 事件指令入口:告诉模型下一步要做什么(如“抓起杯子”)。
  2. 事件世界模型:预演该事件将导致画面中的物体、场景变化。
  3. 多视角时空融合:整合头部相机、腕部相机等多视角信息,使用视锥掩码(限制空间上不可能对应的关联)和管状掩码(强制跨视角推理),并配合可学习的相机旋转位置编码,支持多本体多视角混合训练。

模型支持两种推理模式,共享同一套权重:

  • 事件模式:根据上层规划器提供的事件描述,输出长度可变的动作序列。
  • 统一模式:没有外部规划器时,VLM 在线生成推理并输出固定长度动作块,适合实时闭环控制。

视频与动作模型分工

视频模型承载互联网视频训练的动态先验,专门理解物体运动与场景变化;动作模型从零初始化,学习将视觉变化翻译成机器人轨迹。两者单向耦合(动作流读取视频流的视觉证据,视频流保留原有先验),避免动作数据「带偏」视频基座。

阶梯式思维链解码

针对传统 CoT 逐 token 生成过慢的问题,WALL-WM 采用 Staircase Layer-Relay CoT Decoding:底层只做一次共用的推理状态抽取,多个思维 token 在高层并行完成,生成连续的 CoT latent,并可通过冻结 LLM 还原为文本推理轨迹,兼顾可解释性与实时性。

数据与训练系统

  • 数据金字塔:底层为百万级网络通用视频,向上依次为人类动作视频、第一视角视频、公开机器人数据、自采视频-动作数据,顶端为真机接管与纠错数据。
  • 四级层级化标注+双聚类采样:将轨迹拆分为任务、子任务、动作、片段四层,使模型看到边界清晰的行为单元,并改善长尾样本训练分布。
  • 分布式 Muon(DMuon) 提升收敛稳定性,多事件打包降低计算浪费;部署时通过蒸馏减少去噪步数,使用 FP8 量化降低推理成本。

实验结果

  • 具身视频生成:在 Motion Quality、Semantic Consistency、Physical Plausibility 三个维度全面领先 Wan2.1/Wan2.2。
  • 3D 感知(CO3Dv2):Point Error 与 Depth Error 优于 WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2。
  • 真机 Core15 L1 基准:在基础任务、推理任务、灵巧操作、泛化场景下的任务完成分数均显著超过 π0.5、DreamZero,在抽象指令设定下是当前完成度最高的 L1 模型之一。

该模型可在新指令、新物体、新场景、新任务、新本体上完成动作推理与执行。论文引用柏拉图《斐德罗篇》中「依乎天理,因其固然」,强调沿自然「事件关节」理解世界、预测变化、生成动作。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。