自变量机器人发布全球首个“事件级预测”具身智能世界模型WALL-WM

2026/05/29 15:02阅读量 1

自变量机器人（X-Square Robot）发布全球首个基于语义事件的世界模型WALL-WM，将具身智能的预测单元从固定时间帧改为语义事件（如“抓住杯子”），通过跳过冗余帧直接预演事件结果并生成动作，显著提升跨场景泛化能力。该模型在多个基准上超越现有方案，并配套发布了数据金字塔、层级化标注、分布式训练系统等工程方案。

事件概述

自变量机器人团队发布全球首个「事件级预测」具身智能世界模型 WALL-WM（论文《WALL-WM: Carving World Action Modeling at the Event Joints》）。该模型将世界模型的预测单位从时间帧转换为语义事件，使机器人能像人类一样抓住动作的关键变化，从而在跨场景泛化上表现更稳定。

核心创新

传统 VLA 模型按固定时间窗口预测动作，对真实世界中不同阶段（接近、接触、抓取、移动）的物理变化处理不佳。WALL-WM 提出 event-centric 方式：将任务切分为有语义、有物理动作变化的「事件边界」（如伸手、抓取、抬升），并在这些事件数据上训练模型。文本、视觉、动作三类信息天然具有不同的流形几何和时间尺度，WALL-WM 通过事件语义将它们真正对齐。

技术架构

WALL-WM 的核心链路分为三层：

事件指令入口：告诉模型下一步要做什么（如“抓起杯子”）。
事件世界模型：预演该事件将导致画面中的物体、场景变化。
多视角时空融合：整合头部相机、腕部相机等多视角信息，使用视锥掩码（限制空间上不可能对应的关联）和管状掩码（强制跨视角推理），并配合可学习的相机旋转位置编码，支持多本体多视角混合训练。

模型支持两种推理模式，共享同一套权重：

事件模式：根据上层规划器提供的事件描述，输出长度可变的动作序列。
统一模式：没有外部规划器时，VLM 在线生成推理并输出固定长度动作块，适合实时闭环控制。

视频与动作模型分工

视频模型承载互联网视频训练的动态先验，专门理解物体运动与场景变化；动作模型从零初始化，学习将视觉变化翻译成机器人轨迹。两者单向耦合（动作流读取视频流的视觉证据，视频流保留原有先验），避免动作数据「带偏」视频基座。

阶梯式思维链解码

针对传统 CoT 逐 token 生成过慢的问题，WALL-WM 采用 Staircase Layer-Relay CoT Decoding：底层只做一次共用的推理状态抽取，多个思维 token 在高层并行完成，生成连续的 CoT latent，并可通过冻结 LLM 还原为文本推理轨迹，兼顾可解释性与实时性。

数据与训练系统

数据金字塔：底层为百万级网络通用视频，向上依次为人类动作视频、第一视角视频、公开机器人数据、自采视频-动作数据，顶端为真机接管与纠错数据。
四级层级化标注+双聚类采样：将轨迹拆分为任务、子任务、动作、片段四层，使模型看到边界清晰的行为单元，并改善长尾样本训练分布。
分布式 Muon（DMuon） 提升收敛稳定性，多事件打包降低计算浪费；部署时通过蒸馏减少去噪步数，使用 FP8 量化降低推理成本。

实验结果

具身视频生成：在 Motion Quality、Semantic Consistency、Physical Plausibility 三个维度全面领先 Wan2.1/Wan2.2。
3D 感知（CO3Dv2）：Point Error 与 Depth Error 优于 WAN2.1-14B、Open-Sora 2.0、V-JEPA、DINOv2。
真机 Core15 L1 基准：在基础任务、推理任务、灵巧操作、泛化场景下的任务完成分数均显著超过 π0.5、DreamZero，在抽象指令设定下是当前完成度最高的 L1 模型之一。

该模型可在新指令、新物体、新场景、新任务、新本体上完成动作推理与执行。论文引用柏拉图《斐德罗篇》中「依乎天理，因其固然」，强调沿自然「事件关节」理解世界、预测变化、生成动作。

阅读原文详情