RoboChallenge Table30 V2 发布:构建具身智能泛化评测新标尺
RoboChallenge 正式发布 Table30 V2,旨在解决具身智能模型在单任务精调后缺乏通用泛化能力的行业痛点。该版本通过引入软体操作、工具使用及双臂协作等 30 个高难度任务,并新增零样本与域外泛化测试,重构了评测体系。同时,系统吞吐量提升 300%,支持多任务单一模型评估,为 CVPR 2026 Workshop 竞赛提供真机验证平台。
事件概述
具身智能领域核心痛点在于模型是否具备真正的通用泛化能力,而非仅针对特定任务的过拟合。为此,RoboChallenge 正式发布 Table30 V2,将其定义为“面向下一代模型的大规模真机原生泛化评测”标准。该基准测试将作为 RoboChallenge CVPR 2026 Workshop 竞赛的首秀上线,旨在为全球研究者提供精准的“泛化标尺”与公平开放的真机竞技场。
核心升级维度
1. 任务升级:直面真实世界复杂性
Table30 V2 重构了任务集,构建了包含 30 个高难度任务 的综合评估体系(新增 18 个双臂灵巧操作任务 + 保留 12 个经典任务),重点考察以下能力:
- 软硬结合:引入绳索、布料等软连续体物体处理任务,挑战模型的空间推理与自适应控制。
- 工具交互:要求机器人准确理解并使用工具,掌握复杂的工具 - 物体空间关系。
- 双臂协作:设计大量需双手高度协调的任务,验证动态受限环境下的同步控制精度。
- 跨平台验证:引入新一代移动双臂操纵平台 DOS-W1(配备三角尖端夹具),并与经典的 Aloha 系统并存,通过双机型并行机制验证模型在不同硬件配置下的鲁棒性。
2. 评测升级:全维泛化测试
彻底终结“为比赛调参”的旧模式,转向更严苛的泛化协议:
- 多任务范式:强制要求提交具备通用理解能力的单一模型,杜绝为每个任务单独训练专用模型的优化方式。
- 零样本(Zero-shot)测试:引入物体级和环境级零样本测试,要求模型在未见过的物体、背景甚至动态干扰(如桌面高度微调)下完成任务。
- 分层次泛化矩阵:从传统域内评估升级为包含**域外(OOD)**的高阶测试。通过动态调整环境(如将桌面换成沙发),挑战模型边界,进行“智能本质”的压力测试。
3. 系统升级:效率与反馈加速
针对算法迭代速度进行底层扩容与优化:
- 吞吐量飞跃:通过增购主流机器人硬件及优化调度算法,实现系统吞吐能力提升 300%。
- 极速任务准备:放宽像素级初始状态要求,转向更符合现实的“粗略对齐”,大幅降低空转时间。
- 效率指标引入:在排行榜中新增 “完成时间(Time to Complete)” 作为关键评分维度,倒逼研究者优化策略执行效率,而非单纯堆叠推理时间换取成功率。
竞赛与展望
RoboChallenge CVPR 2026 Workshop 竞赛现已开启报名。参赛者可在真实机器人集群上验证模型,与全球顶尖算法同台竞技。竞赛结束后,评测基础设施将持续向全球研究者开放,支持团队在真实机器上验证想法。
