τ0-WM发布：全球最大开源具身世界模型，真机数据成预训练主力

2026/05/31 15:38阅读量 2

上海创智学院副教授罗剑岚团队发布τ0-WM，参数量5B，预训练数据规模达3万小时，为全球最大开源预训练具身世界模型。其中1.78万小时真机遥操作数据首次成为预训练主体。模型结合测试时计算（Test-Time Computation），在长程精细操作任务上平均成功率超过π0.5和Fast-WAM。

事件概述

上海创智学院副教授、智元机器人首席科学家罗剑岚团队发布τ0-World Model（τ0-WM），参数量5B，预训练数据规模约3万小时，其中真机遥操作数据达1.78万小时，为全球最大开源预训练具身世界模型。该模型不仅预测未来画面、生成动作，还结合测试时计算（Test-Time Computation），让机器人在执行前对多个候选动作排序，选出最优方案，质量不够则调用模拟器修正后再执行。

核心信息

模型架构

τ0-WM由两个共享视频扩散backbone组件驱动：VAM（视频动作模型）负责提议动作，动作条件视频模拟器负责沙盘推演。在线推理分为三步：

提议：VAM根据当前观测和指令采样多组候选动作，生成模糊未来画面。
推演：动作条件视频模拟器针对每组候选动作生成多视角未来画面。
评估与修正：先用RCS（Re-denoising Consistency Score）给动作打分，若分数不高则触发LAR（Low-quality Action Rectification），基于最优未来重新生成动作。

训练数据

近3万小时预训练数据由三部分组成：

真机遥操作数据（1.78万小时）：双臂机器人多视角采集，动作空间与真实部署对齐，提供核心动作监督。
UMI数据（6500小时）：通用操作接口，覆盖更多物体和场景，补充行为多样性。
EgoCentric人类第一视角数据（3000小时）：无机器人动作标签，仅参与视频分支训练，帮助模型学习物体运动和场景变化。

模型通过模态特定监督掩码统一训练，有动作标签的数据同时训练视频和动作，无动作标签的数据只训练视觉分支。

实验结论

在抽纸巾放进盒子和捡笔放进盒子两个全新任务上，模型不加测试时计算时裸策略平均成功率43%，加入RCS后提升至50%，再叠加LAR后达到60%。对比其他引导方法（CFG成功率20%、ACG成功率38%），τ0-WM的测试时计算明显更优。关键在于τ0-WM评估的是“动作做完后未来世界的变化”，而非仅检查动作本身的一致性。

行业意义

τ0-WM打破了具身智能行业“真机数据太贵无法用于预训练”的固有认知，首次将大规模真机遥操作数据作为预训练主体。结合此前团队在SOP（真机数据采集回流基础设施）和LWD（大规模强化学习后训练）上的工作，具身智能的“预训练—真机部署—数据回流—再预训练”链路正式跑通。

阅读原文详情