τ0-WM发布:全球最大开源具身世界模型,真机数据成预训练主力
上海创智学院副教授罗剑岚团队发布τ0-WM,参数量5B,预训练数据规模达3万小时,为全球最大开源预训练具身世界模型。其中1.78万小时真机遥操作数据首次成为预训练主体。模型结合测试时计算(Test-Time Computation),在长程精细操作任务上平均成功率超过π0.5和Fast-WAM。
事件概述
上海创智学院副教授、智元机器人首席科学家罗剑岚团队发布τ0-World Model(τ0-WM),参数量5B,预训练数据规模约3万小时,其中真机遥操作数据达1.78万小时,为全球最大开源预训练具身世界模型。该模型不仅预测未来画面、生成动作,还结合测试时计算(Test-Time Computation),让机器人在执行前对多个候选动作排序,选出最优方案,质量不够则调用模拟器修正后再执行。
核心信息
模型架构
τ0-WM由两个共享视频扩散backbone组件驱动:VAM(视频动作模型)负责提议动作,动作条件视频模拟器负责沙盘推演。在线推理分为三步:
- 提议:VAM根据当前观测和指令采样多组候选动作,生成模糊未来画面。
- 推演:动作条件视频模拟器针对每组候选动作生成多视角未来画面。
- 评估与修正:先用RCS(Re-denoising Consistency Score)给动作打分,若分数不高则触发LAR(Low-quality Action Rectification),基于最优未来重新生成动作。
训练数据
近3万小时预训练数据由三部分组成:
- 真机遥操作数据(1.78万小时):双臂机器人多视角采集,动作空间与真实部署对齐,提供核心动作监督。
- UMI数据(6500小时):通用操作接口,覆盖更多物体和场景,补充行为多样性。
- EgoCentric人类第一视角数据(3000小时):无机器人动作标签,仅参与视频分支训练,帮助模型学习物体运动和场景变化。
模型通过模态特定监督掩码统一训练,有动作标签的数据同时训练视频和动作,无动作标签的数据只训练视觉分支。
实验结论
在抽纸巾放进盒子和捡笔放进盒子两个全新任务上,模型不加测试时计算时裸策略平均成功率43%,加入RCS后提升至50%,再叠加LAR后达到60%。对比其他引导方法(CFG成功率20%、ACG成功率38%),τ0-WM的测试时计算明显更优。关键在于τ0-WM评估的是“动作做完后未来世界的变化”,而非仅检查动作本身的一致性。
行业意义
τ0-WM打破了具身智能行业“真机数据太贵无法用于预训练”的固有认知,首次将大规模真机遥操作数据作为预训练主体。结合此前团队在SOP(真机数据采集回流基础设施)和LWD(大规模强化学习后训练)上的工作,具身智能的“预训练—真机部署—数据回流—再预训练”链路正式跑通。
