跨维智能DexWorldModel登顶RoboTwin:世界模型的核心战场在机器人执行而非视频生成
跨维智能发布DexWorldModel,在具身智能基准RoboTwin上以94%的平均成功率斩获榜首,并实现零样本Sim2Real迁移。该模型通过因果潜空间、双状态记忆及推测式异步推理等技术,解决了传统世界模型在表示、记忆、推理和数据层面的四大瓶颈。研究指出高视觉质量与具身任务能力弱相关,强调未来评价标准应聚焦于机器人任务成功率而非视频生成指标。
事件概述:世界模型评价范式转移
2026年4月,具身智能领域出现重要风向转变。通用人工智能(Generalist AI)团队创始人Pete Florence明确表示不再将自家模型归类为VLA(视觉-语言-动作),转而拥抱“世界模型”概念。这一转变基于一个核心认知:当物理交互数据规模足够大时,依赖VLM作为过渡“拐杖”的架构已不再适用。
与此同时,清华等机构发布的实证研究进一步佐证了这一观点。其《WorldArena》基准测试显示,视频生成的视觉质量指标(如EWMScore)与人类主观打分相关性高达0.825,但与具身任务成功率的相关性仅为0.360。这意味着“画得最像真的”模型,往往在真实机器人交互中表现不佳,存在语义漂移和动力学不稳的问题。
在此背景下,跨维智能(Cross-Dimensional Intelligence) 推出的 DexWorldModel 重新定义了具身世界模型的落地标准:唯一合理的指标是下游机器人任务的成功率。该模型在仿真环境 RoboTwin 榜单上取得平均成功率 94.00%,位居第一,并在四个真实机器人任务上实现了优于部分使用真机微调基线的零样本(Zero-Shot)Sim2Real效果。
核心技术突破:四层协同解决系统瓶颈
DexWorldModel 并非单一算法的优化,而是围绕“真机闭环部署”主线,从表示、记忆、推理到数据供给进行的系统性重构,旨在解决传统世界模型面临的四类瓶颈:
1. 表示层:从像素重建转向语义预测
- 痛点:传统模型在像素或低层隐空间建模,消耗大量容量处理纹理、光照等与任务无关信息,导致泛化困难。
- 方案:采用 因果潜空间世界模型(CLWM)。
- 基于两阶段 Flow Matching 框架,显式分离“预测未来语义”与“生成动作”。
- 先预测未来潜语义,再在条件下生成动作块。
- 视频分支与动作分支共享 MoT (Mixture-of-Transformers) 主干,确保“世界推演”与“动作生成”在同一套时序动力学上对齐。
- 效果:使模型关注点从“画面是否逼真”转向“世界是否进入可操作状态”,提升了鲁棒性与 Sim-to-Real 的基础能力。
2. 记忆层:长时任务内存占用常数化
- 痛点:传统自回归模型依赖 KV Cache,空间复杂度随轨迹长度线性增长(O(T)),长时任务难以稳定运行。
- 方案:引入 双状态测试时记忆(Dual-State TTT Memory)。
- Long-Term Memory:仅由真实观测和已执行动作更新,锚定真实因果历史。
- Working Memory:从长期记忆中 Fork 出的临时上下文,用于当前预测步骤。
- 机制:Flow Matching 去噪过程中冻结 Working Memory,去噪完成后才更新,严格隔离推测历史与真实历史。
- 效果:将长时序内存占用压至常数量级(O(1)),避免显存随运行时间膨胀,支持长时连续操作。
3. 推理层:推测式异步推理(SAI)降低延迟
- 痛点:感知→推理→执行的串行流程导致高延迟,限制了机器人的闭环频率。
- 方案:提出 推测式异步推理(Speculative Asynchronous Inference, SAI)。
- 利用上一轮预测结果作为代理条件(surrogate condition),在机械臂执行当前动作时,后台并行完成下一阶段的前半段预去噪(pre-denoising)。
- 待真实观测到达后,快速更新长期记忆并完成后半段精细去噪。
- 效果:在 RoboTwin 环境下,端到端阻塞延迟下降约 50%,实现了模型推理与机器人执行的深度重叠,显著提升闭环频率。
4. 数据层:EmbodiChain 构建持续经验流
- 痛点:具身智能受限于静态数据集,缺乏新鲜、物理可信的交互数据,难以持续进化。
- 方案:开源 EmbodiChain 在线数据链与流式数据注入(ODS)系统。
- 包含物理一致的场景资产生成、Reachability-aware 轨迹采样、失败恢复轨迹回流训练。
- 通过 ODS 实时流式注入新数据,替代静态数据集的反复训练。
- 效果:消融实验表明,提升新鲜经验的吞吐率能显著提高任务成功率。EmbodiChain 被视为模型逼近真实世界能力的“经验引擎”。
关键结论与行业影响
- 评价标准重构:具身世界模型不应被视频生成指标(如 FVD、画质)误导。真正的考场是机器人能否在多样化任务中稳定跑通。RoboTwin 等以任务成功率为核心的榜单才是正确的评估方向。
- Sim2Real 突破:DexWorldModel 仅在仿真环境中训练,未使用任何真实机器人示范进行微调,即在四个真实任务上超越了部分使用了真机微调的强基线(如 π0, GR00T N1.5)。这证明了系统性架构设计对缩小虚实鸿沟的关键作用。
- 基础设施开源:跨维智能将 EmbodiChain 作为仿真数据基建对外开源,旨在推动行业从追求“模型更大”转向构建“持续、物理可信、可交互的数据流”,这是具身智能 Scaling Law 的真正变量。
项目资源:
- DexWorldModel 技术文档:https://dexforce.com/docs/DexWorldModel.pdf
- EmbodiChain 项目主页:https://dexforce.com/embodichain/index.html
