高德发布ABot-World:物理优先架构破解具身智能零样本泛化难题
2026/04/21 16:45阅读量 4
高德推出全球首款开放环境全自主具身机器人“途途”背后的ABot-World世界模型,通过“物理优先”与VLA闭环进化机制,实现了从传统视觉渲染向可微分物理引擎的范式迁移。该模型在物理合规性、动作可控性与零样本泛化三大核心维度上同时达到SOTA水平,解决了物体穿透、反重力等物理推理失效问题。ABot-World采用双引擎架构协同工作,不仅生成高保真仿真数据,更作为“教练+裁判”为VLA策略提供语义奖励信号,推动具身智能系统自生长与自适应。
事件概述
高德地图公开了全球首款开放环境全自主具身机器人“途途”,并同步发布了其核心训练基座——ABot-World世界模型。该模型标志着具身智能底层训练范式从“传统视觉渲染”向“可微分物理引擎”的根本性迁移,旨在解决机器人在真实物理世界中面临的零样本泛化难题。
截至2026年4月14日,ABot-World在多个权威评测基准中成为全场唯一在物理合规性、动作可控性与零样本泛化三大核心维度同时斩获SOTA(State-of-the-Art)水平的模型。
核心突破:从“视觉渲染”到“可微分物理引擎”
1. 范式创新
传统世界模型(如Sora、Veo)基于最大似然估计(MLE),本质是像素预测器,缺乏对质量、摩擦、碰撞等物理定律的内建约束,常导致物体穿透、反重力悬浮等物理推理失败。
ABot-World确立了**“物理优先”**原则:
- 优化目标:从追求视觉美学转向物理一致性(动力学合理、因果可推演)。
- 输出内容:不仅是视频序列,更是包含质量分布、惯性张量与接触力场的可微分物理状态快照。
- 控制方式:支持多模态条件输入(文本 + 动作指令),实现“指令即因果”的可控生成。
- 进化能力:支持VLA(Vision-Language-Action)闭环,具备“预测→执行→反馈→自我修正”的能力。
2. 双引擎驱动架构
ABot-World构建了全新的双引擎架构,分别解决数据稀缺与物理失真问题:
-
ABot-3DGS(数字孪生工厂)
- 定位:具身智能的“数据原生引擎”。
- 技术基础:基于高德积累的厘米级城市、道路及室内空间数据,结合3D Gaussian Splatting (3DGS) 技术。
- 核心能力:
- 生成亿级高保真无限尺寸仿真场景。
- 支持任意视角合成与跨形态泛化(单臂、双臂、足式机器人等)。
- 覆盖99%典型长尾交互场景(背景编辑、遮挡模拟、光照扰动)。
- 为每个场景元素赋予可编程的物理属性标注(质量、摩擦系数)。
-
ABot-PhysWorld(物理引擎内核)
- 定位:机器人的“物理思维引擎”。
- 技术基础:基于Wan2.1-I2V-14B主干网络进行全量微调,采用LoRA低秩适配技术。
- 核心能力:
- 动作条件化推演:根据末端执行器位姿与夹爪状态,精确预测未来时空动力学变化。
- 可微分物理状态输出:隐含质量、接触力场等物理属性。
- 因果链建模:支持“指令→状态变化→结果反馈”的VLA闭环。
3. 协同机制
- 数据流:ABot-3DGS生成亿级高保真仿真数据 → 输入ABot-PhysWorld进行物理对齐训练。
- 控制流:用户指令 → ABot-PhysWorld推演轨迹 → 输出物理合规视频 → 反馈至真实机器人执行。
- 进化流:真实执行误差回传 → 更新模型参数 → 下一轮预测更精准。
关键技术细节
1. 数据构建:结构化采样与物理语义标注
- 数据来源:整合AgiBot、RoboCoin、RoboMind、Galaxea、OXE五大主流开源数据集,汇聚近300万条真实操作视频片段。
- 四层分层采样策略:确保内部多样性、跨平台重平衡、任务感知配额分配(头部任务≤15%,长尾任务全量保留)及宏观规模调控。
- 物理感知标注系:采用VLM+LLM双阶段协同,将视频转化为四级叙事结构:
- 宏观层:意图描述(如“抓取苹果”)。
- 中观层:动作序列(如“接近→抓握→移动”)。
- 微观层:轨迹细节(如“末端沿Z轴下降5cm”)。
- 场景层:物理关系(如“接触、支撑、包含”)。
2. 模型架构与训练方法
- 架构设计:冻结主干网络,通过LoRA轻量化适配与并行上下文注入机制,实现低成本、高效率的物理对齐。
- 两阶段训练:
- 监督微调:学习从当前状态与指令预测未来演化。
- 偏好优化(Diffusion-DPO):以“物理合理性”为优化信号,而非像素相似度。
- 解耦判别机制:
- Proposer Module:动态构建物理检查清单(L1致命违规、L2微物理保真、L3负面问题强制占比)。
- Scorer Module:逐帧评估候选输出,输出结构化推理路径。
- 效果:在14B参数规模下节省60%以上显存,使模型学会区分“看起来像”和“物理上对”。
评测表现与行业影响
1. 权威评测结果
ABot-World在以下基准测试中表现卓越:
- WorldArena(清华/CVPR):纯文本控制任务展现卓越物理合理性。
- Agibot World Challenge(智元/ICRA):复杂长程任务证明强大因果推理能力。
- WorldScore(李飞飞团队):综合评估视觉生成与动作响应准确性。
- GigaBrain World Model Challenge:聚焦VLA评估器能力。
- PBench(CMU):统一评估物理感知与预测能力。
- EZSbench(自建):衡量未见过任务与形态下的零样本泛化能力。
2. VLA/WAM协同进化
- 数据引擎:ABot-PhysWorld主动生成多样化交互轨迹(成功/失败/边界状态),用于VLA策略预训练,减少对昂贵人类演示的依赖。
- 强化学习优化:作为“教练+裁判”,输出连续值奖励信号(0~1)及任务完成终止信号,解决传统RL稀疏奖励痛点,提升训练效率。
- 下一代架构(ABot-Dream):演化为世界动作模型(WAM),融合物理仿真、语义理解、动作规划与强化学习,成为通用决策引擎。
3. 未来演进方向
- 实时交互:毫秒级延迟响应,帧级流式反馈,支持语言、视觉、力觉多模态融合。
- 功能扩展:多视角生成、因果与反事实推演(模拟“如果改变参数会发生什么”)、跨形态自适应控制。
- 应用场景:在环策略优化、人机协同界面、自主技能迁移。
