地瓜机器人发布世界模型Uranus:不做大脑做裁判,瞄准具身智能评测与仿真
2026/07/03 09:19阅读量 5
地瓜机器人推出世界模型Uranus,定位为具身智能基础设施,不直接做机器人“大脑”,而是提供benchmark评测和仿真训练平台。它通过帧级闭环生成技术,实现高保真、可交互的场景模拟,支持VLA模型评测与强化学习训练,并具备跨具身零样本泛化能力。团队表示项目三分之二精力花在infra和数据工程上,认为当前具身行业瓶颈在于数据质量而非算法。
事件概述
地瓜机器人(由地平线分拆)发布世界模型「Uranus」,其定位并非具身智能的“大脑”,而是作为机器人开发的基础设施——一个同时具备benchmark评测和仿真训练能力的平台。Uranus目前主要面向manipulation(操作)领域,旨在解决当前具身赛道中评测公信力不足以及sim-to-real gap两大痛点。
核心能力
- 作为benchmark裁判:区别于传统真机评测(效率低、难复现)和仿真评测(sim-to-real gap大),Uranus可根据模型输出的动作逐帧生成环境反馈,输出成功率、轨迹偏差等指标。其评测分数与实际场景能力呈正相关,且迭代效率高、变量可控、可稳定复现。团队目标将其打造成业内最具公信力的评测基准之一。
- 作为仿真训练场地:Uranus不是传统手工构建3D场景的物理仿真器,而是从数据中学习环境演化规律——给定参考图像、关节状态、相机参数和文本描述后,直接生成下一帧画面。它采用 帧级闭环 技术:每次只生成下一帧,新帧进入历史窗口后与下一步动作一起作为输入,支持实时交互式控制(类似游戏而非预渲染视频)。尽管训练时仅见过2秒短片段,推理时能稳定运行60秒并保持画质。
- 跨具身零样本泛化:支持G1人形机器人、Franka协作臂等多本体,用户无需为不同硬件重复搭建评测环境。
- 当前限制:仅支持操作(manipulation)训练,尚未支持运动控制(locomotion),因为缺少触觉、摩擦力、电机信号等模态数据。
关键技术难点与团队策略
团队指出,做基础设施比做具身大脑更难:需要像素级生成、跨视角一致性(多个相机实时对齐)和帧级闭环处理。而项目三分之二精力投入在infra和数据工程上。
- infra方面:PB级数据需分层存储;算力短缺时设计跨云协调方案;高分辨率长视频需多卡并行计算。团队强调“没有infra就不要谈大模型”,但具身行业对此重视仍不足。
- 数据方面:目前使用几百小时开源数据,但存在丢帧、动作-画面不匹配、相机未标定等问题。通过清洗和标定修正,成功率即可提升数十个百分点。团队认为当前关键在于数据质量与多样性而非单纯堆数量(计划下半年扩至数千小时,明年达数万至十几万小时级别),并指出“模型决定下限,数据决定上限”。
值得关注
- Uranus的推出反映具身智能行业从卷“大脑”向构建标准化基础设施的转变,尤其为模型评测提供更客观、可复现的标尺。
- 帧级闭环技术克服了视频生成模型的误差累积难题,且能实现可交互的仿真环境,这可能为后续sim-to-real迁移提供更优路径。
- 地瓜机器人定位为“机器人界的英伟达”,Uranus作为其生态中的评测与训练环节,与芯片方案、开发工具形成协同。
