CVPR 2026 自动驾驶与协作智能：模型正从“看懂世界”迈向“可控行动”

2026/05/16 21:26阅读量 2

CVPR 2026 相关研究显示，自动驾驶与智能体领域正从感知模块转向可控场景生成、真实感仿真、端到端驾驶对齐、空间记忆检索、视频追踪驱动的动作学习及多智能体协作。多篇论文提出新范式：HorizonForge 实现可控驾驶场景编辑；DiffusionHarmonizer 增强仿真真实感；LEAD 缩小专家-学生信息不对称；Spatial Retrieval 引入外部空间记忆；CoWTracker 用 warping 替代 cost volume 提升密集点追踪效率；NitroGen 从游戏视频自动恢复操作监督训练通用智能体。

整体趋势：从环境感知到行动决策

CVPR 2026 的研究显示，自动驾驶、游戏智能体和多智能体协作正从“识别环境”转向“如何行动”——不仅看懂画面，还要基于理解做出决策、规划轨迹、与队友协同。这一趋势在以下代表性工作中得到体现。

自动驾驶方向

HorizonForge：可控驾驶场景编辑与生成

由 NEC 美国研究院、石溪大学和加州大学圣地亚哥分校提出。核心思路是将驾驶场景重建为可编辑的 Gaussian Splats 和 Meshes，再通过噪声感知的视频扩散模型渲染出真实感视频；可在一次前向推理中修改车辆轨迹、插入新车辆或调整几何结构，无需每条轨迹重新优化。配套 HorizonSuite 评测基准，覆盖自车和交通参与者编辑任务。相比第二名方法，用户偏好提升 83.4%，FID 改进 25.19%。

DiffusionHarmonizer：在线增强仿真真实感

由英伟达、多伦多大学、康奈尔大学和以色列理工学院合作提出。针对神经重建（NeRF/3DGS）仿真中出现的几何伪影、光照不一致、前景背景风格不统一等问题，将多步图像扩散模型改造为单步时间条件增强器，在线修复渲染帧并保持时间稳定性。设计了专门的数据构建流程，覆盖外观协调、伪影修复、重光照、阴影生成等任务。

LEAD：缩小专家-学生不对称，提升端到端驾驶对齐

由德国图宾根大学、图宾根人工智能中心、英伟达研究院等提出。系统分析了模仿学习中学生模型闭环驾驶不稳定的根源——专家拥有上帝视角信息，学生只能依赖有限传感器输入和模糊导航目标。论文将不对称分为 state alignment 和 intent alignment，并修改专家生成方式、学生输入、导航目标表达及训练数据监督。训练出的 TransFuser v6（TFv6）在 Bench2Drive 上达到 95 DS，在 Longest6 v2 和 Town13 上超过以往方法两倍以上。在 NAVSIM 和 Waymo 真实世界 benchmark 上也有稳定提升。

Spatial Retrieval Augmented Autonomous Driving：引入外部空间记忆

由复旦大学、上海交通大学、中科院空天院、中国科大等提出。针对车载传感器受限于遮挡、夜晚、雨天等问题，提出根据车辆当前位置检索离线地理图像（卫星图、街景等）作为额外输入。设计了可插拔的 Spatial Retrieval Adapter 和 Reliability Estimation 机制，在 3D 目标检测、在线地图构建、占用预测、端到端规划和生成式世界模型等任务上验证效果。例如在夜间复杂场景下碰撞率从 0.55% 降至 0.48%。

智能体方向：从看见运动到学会行动

CoWTracker：用 Warping 替代相关系数实现密集点追踪

由牛津大学视觉几何组和 Meta AI 提出。传统 dense point tracking 依赖 cost volume，计算复杂度随分辨率平方增长。CoWTracker 改由迭代 warping 和时空变换器联合更新轨迹、可见性和置信度，无需显式 cost volume。在 TAP-Vid-DAVIS、TAP-Vid-Kinetics、RoboTAP 等 benchmark 上取得强结果（Mean AJ 71.3, Mean δ_avg 81.8, Mean OA 93.3），并在光流 benchmark（Sintel、KITTI）上获得有竞争力结果。

NitroGen：从互联网游戏视频恢复操作监督，训练通用游戏智能体

由英伟达、斯坦福大学、加州理工学院、芝加哥大学和德州大学奥斯汀分校合作提出。利用公开游戏视频中常见的手柄 overlay 自动解析摇杆位置和按键状态，从约 4 万小时、1000 多款游戏视频中自动提取逐帧动作标签，构建大规模“视频-动作”数据集。训练统一的 vision-action transformer，在包含 10 款商业游戏 30 个任务的评测环境中，在战斗中、平台跳跃、探索等任务表现出强泛化能力，并可迁移到未见游戏。用 NitroGen 预训练权重微调比从头训练效果更好。

总结

上述研究分布在不同任务场景，但共同推动一条能力链条：让模型从环境感知走向行动决策。自动驾驶关注可控的真实仿真与对齐；智能体关注从视频中学习动作；多智能体（文中虽未详述具体论文，但整体趋势提及任意规模人形协作与离线多目标协作学习）关注团队配合。AI 正从“理解世界”延伸到“参与世界”。

阅读原文详情

整体趋势：从环境感知到行动决策

自动驾驶方向

智能体方向：从看见运动到学会行动

总结

准备好启动您的定制项目了吗？