国内大厂世界模型版图:命名虽乱,但目标一致——让AI模拟物理世界

2026/06/25 14:44阅读量 5

文章梳理了国内互联网大厂、车企及智驾供应商在世界模型领域的布局,虽然命名各异(世界模型、世界基座模型、物理AI等),但核心目标都是让AI通过模拟物理世界降低对真实数据的依赖。阿里发布三款世界模型分别面向语言、虚拟和物理世界;腾讯HY-World聚焦3D生成;字节、华为、百度、小米、商汤等各有侧重;蔚来、理想、小鹏等车企将其用于自动驾驶训练;Momenta等供应商已量产上车。各玩家正将世界模型从研究项目变为业务底座,窗口期正在收窄。

一、互联网巨头:从数字世界到物理世界

  • 阿里:2026年6月密集发布三款世界模型。

    • Qwen-AgentWorld:原生语言世界模型,可生成MCP、搜索、终端等七个环境,支持强化学习,参数规模35B和397B(MoE,激活参数3B和17B),训练数据超1000万条真实交互轨迹,已开源。
    • HappyOyster 1.0:开放世界生成器,支持文本/图片输入,可1分钟连续实时位移与镜头控制,或3分钟以上480p/720p画面,面向交互式游戏、虚拟陪伴等。
    • Qwen-RobotWorld:具身智能“思考大脑”,与操作模型Qwen-RobotManip和移动模型Qwen-RobotNav协同。
      阿里同时争夺语言世界、虚拟世界和物理世界的定义权。
  • 腾讯:HY-World系列聚焦3D世界自动生成。输入可为文本、单图、多图、视频、白模,输出3DGS、Mesh、点云。2.0版本引入HY-Pano 2.0、WorldNav等模块,形成闭环,服务于游戏关卡、虚拟拍摄、数字孪生。

  • 字节跳动:Seed团队研发世界模型,由前通义千问核心成员周畅带队,利用抖音/ TikTok每日超10亿视频流和EX-4D框架,对标谷歌Genie 3和Meta V-JEPA 2。2026年战略目标:世界模型年底达到全球SOTA。对外先由Seedance和豆包站前台。

  • 华为:盘古世界模型(未单独命名),从单张图片生成高精度数字物理空间,可预测碰撞、训练机械臂、生成驾驶视频与激光雷达点云,帮助ADS端到端模型实现“两天一个版本”。与广汽合作实现2D视频和3D点云像素级对应。2026年推出盘古7.0与昇腾910C,世界模型融入产业闭环。

  • 百度:Apollo ADFM(2024年发布)被定位为全球首个支持L4的自动驾驶大模型,具备世界模型功能。文心大模型5.0参数2.4万亿,2026年1月上线正式版。百度不单独谈世界模型,而是让Apollo和文心互为表里。

  • 小米:2026年5月开源Xiaomi OneVL,将VLA、世界模型和潜空间推理统一,强调推理可解释性,适用于自动驾驶和具身智能。

  • 商汤:绝影“开悟”世界模型已量产,可生成150秒1080P 11视角驾驶视频,拥有业界最大生成式驾驶数据集WorldSim-Drive。2026年6月,商汤联合创始人创立的大晓机器人完成数亿美元融资,其开悟Kairos 3.0在具身视频生成等维度位居四大榜单榜首。

二、车企:把世界模型当成驾校和考场

  • 蔚来:2024年7月发布NWM(NIO World Model),采用多元自回归生成架构,实现空间想象重建与时间想象推演。每0.1秒推演216条轨迹。2026年6月推送NWM 2.0,覆盖超70万用户(含老车主免费升级),国内首次让智驾模型直接输出方向盘、加减速踏板原始信号,训练体系升级为“世界模型+监督微调+闭环强化学习”三层,AEB覆盖场景为标准AEB的6.7倍。神玑NX9031芯片专为世界模型设计。

  • 理想:2024年下半年提出“重建+生成”世界模型思路,CVPR 2025发表DrivingSphere,由扩散模型和ST-DiT构成4D闭环仿真环境。2026年6月升级为“马赫VLA”,原生多模态MoE,车端双M100芯片2560TOPS,反应时间0.28秒。计划Q3向AD Max用户推送,Q4目标对齐特斯拉FSD V14。理想正将自身塑造为具身智能系统Livis提供商。

  • 小鹏:2025年4月披露研发720亿参数超大规模自动驾驶“世界基座模型”,2026年4月正式发布X-World。基于视频扩散和WAN 2.2范式,采用3D因果VAE和视角-时间自注意力DiT,支持7路环视跨视角一致生成。仿真场景从1年前的3万个增至50多万个,每日仿真测试里程等效3000万公里,支持在线强化学习和海外数据生成。训练数据目标2亿段clips,万卡集群10 EFLOPS,每5天迭代一次。

  • 吉利:2026年CES发布WAM(World Action Model),分层架构:上层多模态大模型MLLM负责理解,下层Action Expert负责动作,中间世界模型负责推演。极氪8X为国内首款量产舱驾融合超级智能体,搭载G-ASD 4.0,2026年目标高速L3和低速L4。

  • 比亚迪:世界模型处于早期预研,参考特斯拉路径,小团队快速试错,重点解决端到端智驾的Corner Case数据生成。

  • 长城:提出VLA+世界模型方向,2026年6月分享VLA实践,保定九州超算中心算力5 EFLOPS(GPU超一万张)。坦克700将搭载Coffee Pilot 4.0 VLA系统,2026年内量产。超200万辆存量车队提供海量数据基础。

三、智驾供应商:藏在车底的世界引擎

  • Momenta:2026年4月发布R7强化学习世界模型,三层架构(预训练+仿真+强化学习),基于120亿公里实车里程提炼超1亿段“黄金数据”。量产车辆超90万台,交付超100款量产车型,定点超210款,落地超10个国家和地区。2026年6月通过港交所聆讯,以“物理AI第一股”和65%第三方城市NOA市占率冲刺IPO。

  • 地平线:2026年5月发布HorizonDrive自回归世界模型,支持分钟级长时序驾驶视频生成,采用video-VAE在潜在空间工作,输入高清地图、3D边界框和自车动作。通过SRR和TRD技术实现自纠错。在nuScenes上FID降低52%、FVD降低37%、轨迹精度提升21%。单张RTX 5090可生成256×512视频(5.6 FPS)。定位闭环自动驾驶仿真,帮助验证L3+。

  • 毫末智行:2023年发布DriveGPT“雪湖·海若”,是国内最早喊出“世界模型”的项目之一。用下一帧预测构建4D表征空间,背后是100亿帧互联网图片、480万段4D Clips、8700万公里辅助驾驶里程。路线类似特斯拉World Model和Wayve GAIA-1。

  • 元戎启行:2025年8月发布DeepRoute IO 2.0平台,搭载自研VLA模型。2026年4月发布基座模型技术与物理AI战略。搭载其城市NOA方案的量产车辆突破30万辆,过去一年累计真实道路运行里程超13亿公里,用户驾驶时长4480万小时。世界模型隐含在仿真训练体系中。

四、创业公司与大厂对比

创业公司专注、速度快,可押注激进路线(原生世界模型、3D空间生成、VLA物理引擎),但缺数据、算力、量产渠道和真实场景闭环。大厂有数据、算力、用户和工程体系,但组织惯性导致命名混乱(如阿里三个世界模型项目)。大厂正在将世界模型从“研究项目”变为“业务底座”:华为盘古服务ADS和机器人,腾讯HY-World服务游戏,理想DrivingSphere服务智驾,商汤开悟已量产,Momenta R7已跑在超90万台上。窗口期正在收窄,未来竞争将从“谁能做出世界模型”变成“谁的世界模型能被大厂用得起、用得好”。

五、总结:世界模型不是风口,是旧战争的升级

世界模型是语言大模型、视频生成、自动驾驶、机器人VLA在物理世界交汇的自然产物,已成为产业基础设施。阿里、腾讯、字节、华为、百度、小米、商汤在数字和物理间搭桥;蔚来、理想、小鹏、吉利等将桥修到汽车上;Momenta、地平线等铺铁轨。接下来核心问题不是“谁做了”,而是“谁的世界模型真的在替人理解世界”。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。