高德发布ABot-World：物理优先架构破解具身智能零样本泛化难题

2026/04/21 16:45阅读量 4

高德推出全球首款开放环境全自主具身机器人“途途”背后的ABot-World世界模型，通过“物理优先”与VLA闭环进化机制，实现了从传统视觉渲染向可微分物理引擎的范式迁移。该模型在物理合规性、动作可控性与零样本泛化三大核心维度上同时达到SOTA水平，解决了物体穿透、反重力等物理推理失效问题。ABot-World采用双引擎架构协同工作，不仅生成高保真仿真数据，更作为“教练+裁判”为VLA策略提供语义奖励信号，推动具身智能系统自生长与自适应。

事件概述

高德地图公开了全球首款开放环境全自主具身机器人“途途”，并同步发布了其核心训练基座——ABot-World世界模型。该模型标志着具身智能底层训练范式从“传统视觉渲染”向“可微分物理引擎”的根本性迁移，旨在解决机器人在真实物理世界中面临的零样本泛化难题。

截至2026年4月14日，ABot-World在多个权威评测基准中成为全场唯一在物理合规性、动作可控性与零样本泛化三大核心维度同时斩获SOTA（State-of-the-Art）水平的模型。

核心突破：从“视觉渲染”到“可微分物理引擎”

1. 范式创新

传统世界模型（如Sora、Veo）基于最大似然估计（MLE），本质是像素预测器，缺乏对质量、摩擦、碰撞等物理定律的内建约束，常导致物体穿透、反重力悬浮等物理推理失败。

ABot-World确立了**“物理优先”**原则：

优化目标：从追求视觉美学转向物理一致性（动力学合理、因果可推演）。
输出内容：不仅是视频序列，更是包含质量分布、惯性张量与接触力场的可微分物理状态快照。
控制方式：支持多模态条件输入（文本 + 动作指令），实现“指令即因果”的可控生成。
进化能力：支持VLA（Vision-Language-Action）闭环，具备“预测→执行→反馈→自我修正”的能力。

2. 双引擎驱动架构

ABot-World构建了全新的双引擎架构，分别解决数据稀缺与物理失真问题：

ABot-3DGS（数字孪生工厂）
- 定位：具身智能的“数据原生引擎”。
- 技术基础：基于高德积累的厘米级城市、道路及室内空间数据，结合3D Gaussian Splatting (3DGS) 技术。
- 核心能力：
  - 生成亿级高保真无限尺寸仿真场景。
  - 支持任意视角合成与跨形态泛化（单臂、双臂、足式机器人等）。
  - 覆盖99%典型长尾交互场景（背景编辑、遮挡模拟、光照扰动）。
  - 为每个场景元素赋予可编程的物理属性标注（质量、摩擦系数）。
ABot-PhysWorld（物理引擎内核）
- 定位：机器人的“物理思维引擎”。
- 技术基础：基于Wan2.1-I2V-14B主干网络进行全量微调，采用LoRA低秩适配技术。
- 核心能力：
  - 动作条件化推演：根据末端执行器位姿与夹爪状态，精确预测未来时空动力学变化。
  - 可微分物理状态输出：隐含质量、接触力场等物理属性。
  - 因果链建模：支持“指令→状态变化→结果反馈”的VLA闭环。

3. 协同机制

数据流：ABot-3DGS生成亿级高保真仿真数据 → 输入ABot-PhysWorld进行物理对齐训练。
控制流：用户指令 → ABot-PhysWorld推演轨迹 → 输出物理合规视频 → 反馈至真实机器人执行。
进化流：真实执行误差回传 → 更新模型参数 → 下一轮预测更精准。

关键技术细节

1. 数据构建：结构化采样与物理语义标注

数据来源：整合AgiBot、RoboCoin、RoboMind、Galaxea、OXE五大主流开源数据集，汇聚近300万条真实操作视频片段。
四层分层采样策略：确保内部多样性、跨平台重平衡、任务感知配额分配（头部任务≤15%，长尾任务全量保留）及宏观规模调控。
物理感知标注系：采用VLM+LLM双阶段协同，将视频转化为四级叙事结构：
1. 宏观层：意图描述（如“抓取苹果”）。
2. 中观层：动作序列（如“接近→抓握→移动”）。
3. 微观层：轨迹细节（如“末端沿Z轴下降5cm”）。
4. 场景层：物理关系（如“接触、支撑、包含”）。

2. 模型架构与训练方法

架构设计：冻结主干网络，通过LoRA轻量化适配与并行上下文注入机制，实现低成本、高效率的物理对齐。
两阶段训练：
1. 监督微调：学习从当前状态与指令预测未来演化。
2. 偏好优化（Diffusion-DPO）：以“物理合理性”为优化信号，而非像素相似度。
解耦判别机制：
- Proposer Module：动态构建物理检查清单（L1致命违规、L2微物理保真、L3负面问题强制占比）。
- Scorer Module：逐帧评估候选输出，输出结构化推理路径。
- 效果：在14B参数规模下节省60%以上显存，使模型学会区分“看起来像”和“物理上对”。

评测表现与行业影响

1. 权威评测结果

ABot-World在以下基准测试中表现卓越：

WorldArena（清华/CVPR）：纯文本控制任务展现卓越物理合理性。
Agibot World Challenge（智元/ICRA）：复杂长程任务证明强大因果推理能力。
WorldScore（李飞飞团队）：综合评估视觉生成与动作响应准确性。
GigaBrain World Model Challenge：聚焦VLA评估器能力。
PBench（CMU）：统一评估物理感知与预测能力。
EZSbench（自建）：衡量未见过任务与形态下的零样本泛化能力。

2. VLA/WAM协同进化

数据引擎：ABot-PhysWorld主动生成多样化交互轨迹（成功/失败/边界状态），用于VLA策略预训练，减少对昂贵人类演示的依赖。
强化学习优化：作为“教练+裁判”，输出连续值奖励信号（0~1）及任务完成终止信号，解决传统RL稀疏奖励痛点，提升训练效率。
下一代架构（ABot-Dream）：演化为世界动作模型（WAM），融合物理仿真、语义理解、动作规划与强化学习，成为通用决策引擎。

3. 未来演进方向

实时交互：毫秒级延迟响应，帧级流式反馈，支持语言、视觉、力觉多模态融合。
功能扩展：多视角生成、因果与反事实推演（模拟“如果改变参数会发生什么”）、跨形态自适应控制。
应用场景：在环策略优化、人机协同界面、自主技能迁移。

阅读原文详情