国内大厂世界模型版图：命名虽乱，但目标一致——让AI模拟物理世界

2026/06/25 14:44阅读量 5

文章梳理了国内互联网大厂、车企及智驾供应商在世界模型领域的布局，虽然命名各异（世界模型、世界基座模型、物理AI等），但核心目标都是让AI通过模拟物理世界降低对真实数据的依赖。阿里发布三款世界模型分别面向语言、虚拟和物理世界；腾讯HY-World聚焦3D生成；字节、华为、百度、小米、商汤等各有侧重；蔚来、理想、小鹏等车企将其用于自动驾驶训练；Momenta等供应商已量产上车。各玩家正将世界模型从研究项目变为业务底座，窗口期正在收窄。

一、互联网巨头：从数字世界到物理世界

阿里：2026年6月密集发布三款世界模型。
- Qwen-AgentWorld：原生语言世界模型，可生成MCP、搜索、终端等七个环境，支持强化学习，参数规模35B和397B（MoE，激活参数3B和17B），训练数据超1000万条真实交互轨迹，已开源。
- HappyOyster 1.0：开放世界生成器，支持文本/图片输入，可1分钟连续实时位移与镜头控制，或3分钟以上480p/720p画面，面向交互式游戏、虚拟陪伴等。
- Qwen-RobotWorld：具身智能“思考大脑”，与操作模型Qwen-RobotManip和移动模型Qwen-RobotNav协同。
  阿里同时争夺语言世界、虚拟世界和物理世界的定义权。
腾讯：HY-World系列聚焦3D世界自动生成。输入可为文本、单图、多图、视频、白模，输出3DGS、Mesh、点云。2.0版本引入HY-Pano 2.0、WorldNav等模块，形成闭环，服务于游戏关卡、虚拟拍摄、数字孪生。
字节跳动：Seed团队研发世界模型，由前通义千问核心成员周畅带队，利用抖音/ TikTok每日超10亿视频流和EX-4D框架，对标谷歌Genie 3和Meta V-JEPA 2。2026年战略目标：世界模型年底达到全球SOTA。对外先由Seedance和豆包站前台。
华为：盘古世界模型（未单独命名），从单张图片生成高精度数字物理空间，可预测碰撞、训练机械臂、生成驾驶视频与激光雷达点云，帮助ADS端到端模型实现“两天一个版本”。与广汽合作实现2D视频和3D点云像素级对应。2026年推出盘古7.0与昇腾910C，世界模型融入产业闭环。
百度：Apollo ADFM（2024年发布）被定位为全球首个支持L4的自动驾驶大模型，具备世界模型功能。文心大模型5.0参数2.4万亿，2026年1月上线正式版。百度不单独谈世界模型，而是让Apollo和文心互为表里。
小米：2026年5月开源Xiaomi OneVL，将VLA、世界模型和潜空间推理统一，强调推理可解释性，适用于自动驾驶和具身智能。
商汤：绝影“开悟”世界模型已量产，可生成150秒1080P 11视角驾驶视频，拥有业界最大生成式驾驶数据集WorldSim-Drive。2026年6月，商汤联合创始人创立的大晓机器人完成数亿美元融资，其开悟Kairos 3.0在具身视频生成等维度位居四大榜单榜首。

二、车企：把世界模型当成驾校和考场

蔚来：2024年7月发布NWM（NIO World Model），采用多元自回归生成架构，实现空间想象重建与时间想象推演。每0.1秒推演216条轨迹。2026年6月推送NWM 2.0，覆盖超70万用户（含老车主免费升级），国内首次让智驾模型直接输出方向盘、加减速踏板原始信号，训练体系升级为“世界模型+监督微调+闭环强化学习”三层，AEB覆盖场景为标准AEB的6.7倍。神玑NX9031芯片专为世界模型设计。
理想：2024年下半年提出“重建+生成”世界模型思路，CVPR 2025发表DrivingSphere，由扩散模型和ST-DiT构成4D闭环仿真环境。2026年6月升级为“马赫VLA”，原生多模态MoE，车端双M100芯片2560TOPS，反应时间0.28秒。计划Q3向AD Max用户推送，Q4目标对齐特斯拉FSD V14。理想正将自身塑造为具身智能系统Livis提供商。
小鹏：2025年4月披露研发720亿参数超大规模自动驾驶“世界基座模型”，2026年4月正式发布X-World。基于视频扩散和WAN 2.2范式，采用3D因果VAE和视角-时间自注意力DiT，支持7路环视跨视角一致生成。仿真场景从1年前的3万个增至50多万个，每日仿真测试里程等效3000万公里，支持在线强化学习和海外数据生成。训练数据目标2亿段clips，万卡集群10 EFLOPS，每5天迭代一次。
吉利：2026年CES发布WAM（World Action Model），分层架构：上层多模态大模型MLLM负责理解，下层Action Expert负责动作，中间世界模型负责推演。极氪8X为国内首款量产舱驾融合超级智能体，搭载G-ASD 4.0，2026年目标高速L3和低速L4。
比亚迪：世界模型处于早期预研，参考特斯拉路径，小团队快速试错，重点解决端到端智驾的Corner Case数据生成。
长城：提出VLA+世界模型方向，2026年6月分享VLA实践，保定九州超算中心算力5 EFLOPS（GPU超一万张）。坦克700将搭载Coffee Pilot 4.0 VLA系统，2026年内量产。超200万辆存量车队提供海量数据基础。

三、智驾供应商：藏在车底的世界引擎

Momenta：2026年4月发布R7强化学习世界模型，三层架构（预训练+仿真+强化学习），基于120亿公里实车里程提炼超1亿段“黄金数据”。量产车辆超90万台，交付超100款量产车型，定点超210款，落地超10个国家和地区。2026年6月通过港交所聆讯，以“物理AI第一股”和65%第三方城市NOA市占率冲刺IPO。
地平线：2026年5月发布HorizonDrive自回归世界模型，支持分钟级长时序驾驶视频生成，采用video-VAE在潜在空间工作，输入高清地图、3D边界框和自车动作。通过SRR和TRD技术实现自纠错。在nuScenes上FID降低52%、FVD降低37%、轨迹精度提升21%。单张RTX 5090可生成256×512视频（5.6 FPS）。定位闭环自动驾驶仿真，帮助验证L3+。
毫末智行：2023年发布DriveGPT“雪湖·海若”，是国内最早喊出“世界模型”的项目之一。用下一帧预测构建4D表征空间，背后是100亿帧互联网图片、480万段4D Clips、8700万公里辅助驾驶里程。路线类似特斯拉World Model和Wayve GAIA-1。
元戎启行：2025年8月发布DeepRoute IO 2.0平台，搭载自研VLA模型。2026年4月发布基座模型技术与物理AI战略。搭载其城市NOA方案的量产车辆突破30万辆，过去一年累计真实道路运行里程超13亿公里，用户驾驶时长4480万小时。世界模型隐含在仿真训练体系中。

四、创业公司与大厂对比

创业公司专注、速度快，可押注激进路线（原生世界模型、3D空间生成、VLA物理引擎），但缺数据、算力、量产渠道和真实场景闭环。大厂有数据、算力、用户和工程体系，但组织惯性导致命名混乱（如阿里三个世界模型项目）。大厂正在将世界模型从“研究项目”变为“业务底座”：华为盘古服务ADS和机器人，腾讯HY-World服务游戏，理想DrivingSphere服务智驾，商汤开悟已量产，Momenta R7已跑在超90万台上。窗口期正在收窄，未来竞争将从“谁能做出世界模型”变成“谁的世界模型能被大厂用得起、用得好”。

五、总结：世界模型不是风口，是旧战争的升级

世界模型是语言大模型、视频生成、自动驾驶、机器人VLA在物理世界交汇的自然产物，已成为产业基础设施。阿里、腾讯、字节、华为、百度、小米、商汤在数字和物理间搭桥；蔚来、理想、小鹏、吉利等将桥修到汽车上；Momenta、地平线等铺铁轨。接下来核心问题不是“谁做了”，而是“谁的世界模型真的在替人理解世界”。

阅读原文详情

一、互联网巨头：从数字世界到物理世界

二、车企：把世界模型当成驾校和考场

三、智驾供应商：藏在车底的世界引擎

四、创业公司与大厂对比

五、总结：世界模型不是风口，是旧战争的升级

准备好启动您的定制项目了吗？