τ0-WM发布:全球最大开源具身世界模型,真机数据成预训练主力

2026/05/31 15:38阅读量 2

上海创智学院副教授罗剑岚团队发布τ0-WM,参数量5B,预训练数据规模达3万小时,为全球最大开源预训练具身世界模型。其中1.78万小时真机遥操作数据首次成为预训练主体。模型结合测试时计算(Test-Time Computation),在长程精细操作任务上平均成功率超过π0.5和Fast-WAM。

事件概述

上海创智学院副教授、智元机器人首席科学家罗剑岚团队发布τ0-World Model(τ0-WM),参数量5B,预训练数据规模约3万小时,其中真机遥操作数据达1.78万小时,为全球最大开源预训练具身世界模型。该模型不仅预测未来画面、生成动作,还结合测试时计算(Test-Time Computation),让机器人在执行前对多个候选动作排序,选出最优方案,质量不够则调用模拟器修正后再执行。

核心信息

模型架构

τ0-WM由两个共享视频扩散backbone组件驱动:VAM(视频动作模型)负责提议动作,动作条件视频模拟器负责沙盘推演。在线推理分为三步:

  • 提议:VAM根据当前观测和指令采样多组候选动作,生成模糊未来画面。
  • 推演:动作条件视频模拟器针对每组候选动作生成多视角未来画面。
  • 评估与修正:先用RCS(Re-denoising Consistency Score)给动作打分,若分数不高则触发LAR(Low-quality Action Rectification),基于最优未来重新生成动作。

训练数据

近3万小时预训练数据由三部分组成:

  • 真机遥操作数据(1.78万小时):双臂机器人多视角采集,动作空间与真实部署对齐,提供核心动作监督。
  • UMI数据(6500小时):通用操作接口,覆盖更多物体和场景,补充行为多样性。
  • EgoCentric人类第一视角数据(3000小时):无机器人动作标签,仅参与视频分支训练,帮助模型学习物体运动和场景变化。

模型通过模态特定监督掩码统一训练,有动作标签的数据同时训练视频和动作,无动作标签的数据只训练视觉分支。

实验结论

在抽纸巾放进盒子和捡笔放进盒子两个全新任务上,模型不加测试时计算时裸策略平均成功率43%,加入RCS后提升至50%,再叠加LAR后达到60%。对比其他引导方法(CFG成功率20%、ACG成功率38%),τ0-WM的测试时计算明显更优。关键在于τ0-WM评估的是“动作做完后未来世界的变化”,而非仅检查动作本身的一致性。

行业意义

τ0-WM打破了具身智能行业“真机数据太贵无法用于预训练”的固有认知,首次将大规模真机遥操作数据作为预训练主体。结合此前团队在SOP(真机数据采集回流基础设施)和LWD(大规模强化学习后训练)上的工作,具身智能的“预训练—真机部署—数据回流—再预训练”链路正式跑通。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。