CVPR 2026 自动驾驶与协作智能:模型正从“看懂世界”迈向“可控行动”

2026/05/16 21:26阅读量 2

CVPR 2026 相关研究显示,自动驾驶与智能体领域正从感知模块转向可控场景生成、真实感仿真、端到端驾驶对齐、空间记忆检索、视频追踪驱动的动作学习及多智能体协作。多篇论文提出新范式:HorizonForge 实现可控驾驶场景编辑;DiffusionHarmonizer 增强仿真真实感;LEAD 缩小专家-学生信息不对称;Spatial Retrieval 引入外部空间记忆;CoWTracker 用 warping 替代 cost volume 提升密集点追踪效率;NitroGen 从游戏视频自动恢复操作监督训练通用智能体。

整体趋势:从环境感知到行动决策

CVPR 2026 的研究显示,自动驾驶、游戏智能体和多智能体协作正从“识别环境”转向“如何行动”——不仅看懂画面,还要基于理解做出决策、规划轨迹、与队友协同。这一趋势在以下代表性工作中得到体现。


自动驾驶方向

HorizonForge:可控驾驶场景编辑与生成

由 NEC 美国研究院、石溪大学和加州大学圣地亚哥分校提出。核心思路是将驾驶场景重建为可编辑的 Gaussian Splats 和 Meshes,再通过噪声感知的视频扩散模型渲染出真实感视频;可在一次前向推理中修改车辆轨迹、插入新车辆或调整几何结构,无需每条轨迹重新优化。配套 HorizonSuite 评测基准,覆盖自车和交通参与者编辑任务。相比第二名方法,用户偏好提升 83.4%,FID 改进 25.19%。

DiffusionHarmonizer:在线增强仿真真实感

由英伟达、多伦多大学、康奈尔大学和以色列理工学院合作提出。针对神经重建(NeRF/3DGS)仿真中出现的几何伪影、光照不一致、前景背景风格不统一等问题,将多步图像扩散模型改造为单步时间条件增强器,在线修复渲染帧并保持时间稳定性。设计了专门的数据构建流程,覆盖外观协调、伪影修复、重光照、阴影生成等任务。

LEAD:缩小专家-学生不对称,提升端到端驾驶对齐

由德国图宾根大学、图宾根人工智能中心、英伟达研究院等提出。系统分析了模仿学习中学生模型闭环驾驶不稳定的根源——专家拥有上帝视角信息,学生只能依赖有限传感器输入和模糊导航目标。论文将不对称分为 state alignment 和 intent alignment,并修改专家生成方式、学生输入、导航目标表达及训练数据监督。训练出的 TransFuser v6(TFv6)在 Bench2Drive 上达到 95 DS,在 Longest6 v2 和 Town13 上超过以往方法两倍以上。在 NAVSIM 和 Waymo 真实世界 benchmark 上也有稳定提升。

Spatial Retrieval Augmented Autonomous Driving:引入外部空间记忆

由复旦大学、上海交通大学、中科院空天院、中国科大等提出。针对车载传感器受限于遮挡、夜晚、雨天等问题,提出根据车辆当前位置检索离线地理图像(卫星图、街景等)作为额外输入。设计了可插拔的 Spatial Retrieval Adapter 和 Reliability Estimation 机制,在 3D 目标检测、在线地图构建、占用预测、端到端规划和生成式世界模型等任务上验证效果。例如在夜间复杂场景下碰撞率从 0.55% 降至 0.48%。


智能体方向:从看见运动到学会行动

CoWTracker:用 Warping 替代相关系数实现密集点追踪

由牛津大学视觉几何组和 Meta AI 提出。传统 dense point tracking 依赖 cost volume,计算复杂度随分辨率平方增长。CoWTracker 改由迭代 warping 和时空变换器联合更新轨迹、可见性和置信度,无需显式 cost volume。在 TAP-Vid-DAVIS、TAP-Vid-Kinetics、RoboTAP 等 benchmark 上取得强结果(Mean AJ 71.3, Mean δ_avg 81.8, Mean OA 93.3),并在光流 benchmark(Sintel、KITTI)上获得有竞争力结果。

NitroGen:从互联网游戏视频恢复操作监督,训练通用游戏智能体

由英伟达、斯坦福大学、加州理工学院、芝加哥大学和德州大学奥斯汀分校合作提出。利用公开游戏视频中常见的手柄 overlay 自动解析摇杆位置和按键状态,从约 4 万小时、1000 多款游戏视频中自动提取逐帧动作标签,构建大规模“视频-动作”数据集。训练统一的 vision-action transformer,在包含 10 款商业游戏 30 个任务的评测环境中,在战斗中、平台跳跃、探索等任务表现出强泛化能力,并可迁移到未见游戏。用 NitroGen 预训练权重微调比从头训练效果更好。


总结

上述研究分布在不同任务场景,但共同推动一条能力链条:让模型从环境感知走向行动决策。自动驾驶关注可控的真实仿真与对齐;智能体关注从视频中学习动作;多智能体(文中虽未详述具体论文,但整体趋势提及任意规模人形协作与离线多目标协作学习)关注团队配合。AI 正从“理解世界”延伸到“参与世界”。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。