ICRA 2026深度强化学习团队多项突破：端到端自动驾驶、机器人抓取、双臂人形规划

2026/06/01 14:07阅读量 2

深度强化学习团队在ICRA 2026展示了7项研究，涵盖端到端自动驾驶数据规模规律、实时规划框架、偏好优化后训练、不确定性建模、3D视觉预训练、高效sim2real机器人抓取以及双臂人形机器人仿真与规划。关键成果包括：首次系统揭示模仿学习端到端自动驾驶的数据scaling law，发现数据分布质量比规模更重要；提出ConsistencyPlanner实现多模态轨迹实时生成；TakeAD利用专家接管数据通过DPO偏好优化提升闭环性能；Mimir通过Laplace不确定性建模提升规划鲁棒性；CL3R融合3D点云与语义对比学习强化机器人操作；DiffuDepGrasp通过扩散模型模拟真实深度噪声实现零样本sim2real抓取；Proprio-MLLM引入本体感知提升双臂人形机器人任务规划。

01. Data Scaling Laws for Imitation Learning-Based End-to-End Autonomous Driving

构建了大规模真实驾驶数据集（约400万条演示数据，总时长超3万小时，覆盖23类场景），系统研究端到端自动驾驶的数据scaling law。在1400段任务中进行开环与闭环评测。发现：模型性能与数据量在开环中呈幂律关系，但闭环中不成立；少量长尾场景数据即可显著提升对应复杂场景表现；合理的数据扩展策略可实现组合泛化。核心结论：自动驾驶竞争力的关键正从模型设计转向高质量数据与场景覆盖能力。

02. ConsistencyPlanner: Real-time Planning with Fast-Sampling Consistency Models

提出基于Consistency Model的实时自动驾驶规划框架。核心创新：快速采样一致性模型生成多模态轨迹，突破传统生成式方法迭代慢的问题；注意力增强的异构特征融合解码器动态融合场景特征与动作token。在Waymax平台上，ConsistencyPlanner在安全性上显著优于现有方法，尤其适用于复杂动态场景。

03. TakeAD: Preference-Based Post-Optimization for End-to-End Autonomous Driving With Expert Takeover Data (RA-L)

利用自动驾驶接管数据对模仿学习策略进行后训练优化。流程包括：模拟接管机制采集专家纠正数据；迭代DAgger学习危险状态恢复行为；引入Direct Preference Optimization进行偏好对齐。在Bench2Drive闭环测试中，TakeAD显著提升复杂场景下的稳定性与安全性。

04. Mimir: Hierarchical Goal-Driven Diffusion with Uncertainty Propagation for End-to-End Autonomous Driving (RA-L)

代码：https://github.com/ZebinX/Mimir-Uncertainty-Driving

提出分层双系统框架，通过Laplace分布建模目标点不确定性，使系统显式感知高层引导中的不确定信息。多速率引导机制提前预测长时间目标点，降低高层模块调用频率。在Navhard/Navtest基准测试中，EPDMS驾驶评分提升20%，高层模块推理速度提升1.6倍。

05. CL3R: 3D Reconstruction and Contrastive Learning for Enhanced Robotic Manipulation Representations

主页：https://cwb0106.github.io/CLAR/

融合3D点云Masked Autoencoder与2D基础模型的对比学习，学习兼具空间感知与语义的视觉表示。统一坐标系的3D预训练方案配合多视角点云随机融合，缓解视角歧义。仿真与真实机器人实验显示，CL3R显著提升视觉运动策略的鲁棒性与泛化能力。

06. DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping

主页：https://diffudepgrasp.github.io/

仅用仿真数据训练即可实现真实机器人零样本抓取。Diffusion Depth Generator包含两个模块：利用时间几何先验训练条件扩散模型学习真实深度传感器噪声分布；Noise Grafting模块在保持几何准确性的同时注入真实感知伪影。实际部署仅需原始深度图，无额外计算开销。12类物体抓取成功率达95.7%，对未见过物体有良好泛化。

07. Towards Proprioception-Aware Embodied Planning for Dual-Arm Humanoid Robots

提出双臂人形机器人仿真平台DualTHOR，支持连续动作切换与任务应急。在此基础上开发Proprio-MLLM，将机器人本体感知信息（运动驱动位置编码、跨空间编码器）引入多模态大模型，增强对双臂选择逻辑与身体位姿关系的理解。实验显示，Proprio-MLLM在双臂任务规划中平均性能提升19.75%。

阅读原文详情