小鹏在CVPR 2026展示物理AI全栈技术，与英伟达、特斯拉、Waymo同台

2026/06/04 19:56阅读量 5

在CVPR 2026首次设立的“具身智能基座模型部署研讨会”上，小鹏作为唯一受邀中国车企，与英伟达、特斯拉、Waymo同台展示物理AI技术。小鹏首次完整展示了世界模型技术图谱，包括X-World、X-Foresight、X-Cache等，强调VLA与世界模型协同进化，并公布了第二代VLA的量产数据，验证了物理AI的规模化落地能力。

事件概述

在CVPR 2026“具身智能基座模型部署研讨会”上，小鹏与特斯拉、Waymo、英伟达等全球物理AI第一梯队同台。小鹏通用智能中心负责人刘先明受邀发表演讲，首次完整展示了小鹏世界模型技术图谱，涵盖X-World、X-Foresight、X-Cache等近期论文成果，并阐述了第二代VLA与世界模型协同进化的技术路线。

核心信息

技术路线：小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型，与第二代VLA共同构成物理AI基座。VLA负责“如何行动”，世界模型负责理解“行动之后世界如何变化”，二者通过不同训练信号协同进化。世界模型借鉴大语言模型“下一个Token预测”范式，在海量未标注视频上进行下一帧或下一状态密集预测，学习物理世界动力学与因果结构。
技术架构：
- X-World：基于视频扩散生成的可控多视角生成式世界模型，已在闭环仿真测试、在线强化学习、数据生成中应用。
- X-Foresight：预测式世界模型，与VLA在统一token空间内联合预测未来多视角画面与自车动作，支撑控车决策。
- X-Cache：面向少步自回归世界模型的跨段块级缓存，减少约七成重复计算，加速去噪主干约2.7倍。
- X-mind（即将发表）：解析模型“主动思考”过程，可视化驾驶决策背后的中间推理过程，提升可解释性。
规模化数据与算力：小鹏第二代VLA模型参数量达十亿级，依托上亿段视频片段训练，单版模型训练Token总量超4万亿。截至2026年3月，单GPU训练效率提升1010%，单任务训练效率暴涨4360%，GPU利用率从40%拉升至90%。车端通过芯片、编译器、模型软硬件协同自研，模型推理速度整体提升12倍。自研组合（第二代VLA+图灵芯片）对比通用方案：算力利用率22.8%→82.5%，推理时延800毫秒→80毫秒。
量产表现：第二代VLA正式推送首月，搭载车型辅助驾驶里程占比突破50%。研发团队从2025年11月到2026年3月平均每天迭代4版模型。

值得关注

小鹏是唯一受邀参加该研讨会的中国企业，且连续三年在CVPR发表演讲，从2023年XNet BEV感知架构到2025年720亿参数基座模型理论，再到2026年VLA与世界模型完整技术栈及量产验证数据，体现了技术积累的连续性。
小鹏主张“既是第二代VLA，也是世界模型”，终结了VLA与世界模型技术路线的二元对立，探索L2升维L4的技术实现路径。
该技术体系具备跨域迁移能力，可从智能汽车延伸至人形机器人、飞行器等物理世界应用场景。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？