ACE-Ego刷新具身智能SOTA：以人为中心的大规模异构数据预训练范式

2026/06/17 14:30阅读量 2

大晓机器人联合香港中文大学多媒体实验室发布ACE-Ego VLA模型，提出大规模第一视角人类视频与多型机器人数据联合预训练新范式。该模型在RoboCasa GR1 TableTop基准上以72.8%成功率登顶，在RoboTwin 2.0双臂操作基准上以90.62%成功率领先，并已在零售场景中验证全链路操作能力。

事件概述

大晓机器人（ACE ROBOTICS）与香港中文大学多媒体实验室（CUHK MMLab）联合发布具身操作VLA模型ACE-Ego，并开源。该模型基于“以人为中心（Human-centric）”的ACE研发范式，首次实现大规模第一视角人类视频与多型机器人数据的高效协同预训练，为具身模型规模化训练开辟新路径。

核心成绩

RoboCasa GR1 TableTop（人形桌面操作基准）：ACE-Ego平均成功率72.8%，刷新纪录。对比其他模型：小鹏DIAL（70.2%）、英伟达GR00T-N1.6（47.6%）、京东JoyAI-RA（63.2%）、高德ABot-M0（58.3%）。24项任务中盘子叠放、托盘移锅等任务成功率突破98%。
RoboTwin 2.0（双臂操作基准）：Easy模式成功率91.12%，Hard模式（强域随机化）90.62%，性能仅衰减0.5个百分点，远低于行业平均。超越腾讯混元Hy-VLA（90.9%/90.1%）、京东JoyAI-RA（90.48%/89.28%）、蚂蚁灵波LingBot-VLA等模型。

技术突破：四大核心机制

ACE-Ego面对人-机数据在空间、结构、时间、监督信号四个维度的异构难题，提出以下机制：

第一视角统一动作空间表达：以头部相机坐标系为基准，将人类手部运动与机器人末端轨迹投影到同一坐标系，免去跨平台坐标校准。
URDF本体形态映射：将机器人URDF文件编码为统一中间层，对于人类数据引入“代理形态嵌入”，使模型识别执行主体。
时间对齐动态分块：按物理时长而非固定帧数划分动作块，并采用分桶采样策略，解决不同频率数据混训时的时序混乱。
可靠性自适应目标函数：对机器人传感器数据全权重监督，对人类重建动作数据按通道级、数据集级、帧级三级加权，平衡多样性与精度。

实验表明，引入第一视角人类视频联合预训练后，RoboCasa基准成功率从68.3%提升至72.8%（+4.5%）。

应用验证

ACE-Ego已能稳定完成塑料袋打包、鞋子装入鞋盒、咖啡定量分装等长周期复杂操作，覆盖商品整理、打包履约等零售场景，突破此前模型仅能完成简单桌面抓取的能力边界。模型在面对ARX双臂机器人等未知机型时，仅需不到200条动作数据即可快速适配。

后续规划

大晓机器人表示将继续深化ACE范式，推动VLA模型与具身世界模型融合，并将技术从零售场景扩展至工业产线、柔性制造等实体产业。

阅读原文详情

事件概述

核心成绩

技术突破：四大核心机制

应用验证

后续规划

准备好启动您的定制项目了吗？