Motubrain双榜登顶:通用世界行动模型为具身智能“干活能力”设立标尺

2026/05/11 13:10阅读量 3

生数科技发布的通用世界行动模型Motubrain同时登顶WorldArena与RoboTwin2.0两大具身智能权威榜单,成为首个在世界理解与任务执行双维度均达行业顶尖的模型。该模型具备多任务通用、长程连贯、环境预测、跨本体适配等核心能力,通过统一建模video与action实现了数据效率与任务泛化性的质变,为机器人大脑落地干活提供了可量化的参照系。

事件概述

生数科技的通用世界行动模型(WAM)Motubrain近期同时登顶WorldArena和RoboTwin2.0两大国际具身智能权威榜单。WorldArena聚焦模型对真实世界的理解与预测能力,Motubrain总体EWM Score达63.77,总榜第一,并在Motion Quality、Flow Score、Motion Smoothness等核心运动维度均居榜首。RoboTwin2.0聚焦任务执行与泛化能力,Motubrain在Clean与Randomized场景下分别取得95.8和96.1的成绩,总榜第一,也是唯一在随机环境下平均分超过95的模型。

核心能力解析

Motubrain展现出四大核心能力:

  • 一脑多能:多任务场景下保持稳定表现,任务数量增加时平均成功率反而提升,任务间共享世界知识,相互促进。
  • 一脑贯通:无需上层规划拼接,直接学习完整任务链路,可完成超过10个原子动作的复杂长程任务(如插花、调酒)。
  • 一脑预见:将理解世界、预测世界和执行动作统一建模,能推演环境变化并生成合理动作路径。
  • 一脑多型:面向多机器人本体设计,用统一action表征适配轮式、臂式、复合式等多种形态。

技术原理与演进

Motubrain底层为通用世界行动模型(WAM),核心差异在于通过UniDiffuser统一建模和调度video与action两个连续模态。一次训练即可推理出视觉-语言-动作、世界模型、视频生成、逆动力学、视频-动作联合预测五类分布。相比传统VLA,Motubrain可同时利用纯视频数据、任务无关数据和完整轨迹数据,学习任务、环境变化和动作后果之间的共享世界知识。

Motubrain基于生数科技2025年12月开源的Motus发展而来,在Motus基础上实现五步跃迁:用任意视角数量统一建模打通不同相机配置;用统一action表征打通不同机器人本体;通过自回归+diffusion和语言-动作-视频三流MoT支持长序列任务;实现云边端协同实时闭环控制。

产业合作与落地

生数科技已与无界动力、星尘智能、深朴智能等具身智能企业达成战略合作,形成“模型能力—本体适配—场景落地”闭环。公司此前在多模态产品Vidu上积累了产品化经验,具备模型技术向产品转化的迁移能力。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。