小鹏在CVPR 2026展示物理AI全栈技术,与英伟达、特斯拉、Waymo同台
2026/06/04 19:56阅读量 5
在CVPR 2026首次设立的“具身智能基座模型部署研讨会”上,小鹏作为唯一受邀中国车企,与英伟达、特斯拉、Waymo同台展示物理AI技术。小鹏首次完整展示了世界模型技术图谱,包括X-World、X-Foresight、X-Cache等,强调VLA与世界模型协同进化,并公布了第二代VLA的量产数据,验证了物理AI的规模化落地能力。
事件概述
在CVPR 2026“具身智能基座模型部署研讨会”上,小鹏与特斯拉、Waymo、英伟达等全球物理AI第一梯队同台。小鹏通用智能中心负责人刘先明受邀发表演讲,首次完整展示了小鹏世界模型技术图谱,涵盖X-World、X-Foresight、X-Cache等近期论文成果,并阐述了第二代VLA与世界模型协同进化的技术路线。
核心信息
- 技术路线:小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型,与第二代VLA共同构成物理AI基座。VLA负责“如何行动”,世界模型负责理解“行动之后世界如何变化”,二者通过不同训练信号协同进化。世界模型借鉴大语言模型“下一个Token预测”范式,在海量未标注视频上进行下一帧或下一状态密集预测,学习物理世界动力学与因果结构。
- 技术架构:
- X-World:基于视频扩散生成的可控多视角生成式世界模型,已在闭环仿真测试、在线强化学习、数据生成中应用。
- X-Foresight:预测式世界模型,与VLA在统一token空间内联合预测未来多视角画面与自车动作,支撑控车决策。
- X-Cache:面向少步自回归世界模型的跨段块级缓存,减少约七成重复计算,加速去噪主干约2.7倍。
- X-mind(即将发表):解析模型“主动思考”过程,可视化驾驶决策背后的中间推理过程,提升可解释性。
- 规模化数据与算力:小鹏第二代VLA模型参数量达十亿级,依托上亿段视频片段训练,单版模型训练Token总量超4万亿。截至2026年3月,单GPU训练效率提升1010%,单任务训练效率暴涨4360%,GPU利用率从40%拉升至90%。车端通过芯片、编译器、模型软硬件协同自研,模型推理速度整体提升12倍。自研组合(第二代VLA+图灵芯片)对比通用方案:算力利用率22.8%→82.5%,推理时延800毫秒→80毫秒。
- 量产表现:第二代VLA正式推送首月,搭载车型辅助驾驶里程占比突破50%。研发团队从2025年11月到2026年3月平均每天迭代4版模型。
值得关注
- 小鹏是唯一受邀参加该研讨会的中国企业,且连续三年在CVPR发表演讲,从2023年XNet BEV感知架构到2025年720亿参数基座模型理论,再到2026年VLA与世界模型完整技术栈及量产验证数据,体现了技术积累的连续性。
- 小鹏主张“既是第二代VLA,也是世界模型”,终结了VLA与世界模型技术路线的二元对立,探索L2升维L4的技术实现路径。
- 该技术体系具备跨域迁移能力,可从智能汽车延伸至人形机器人、飞行器等物理世界应用场景。
