具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式
2026/05/11 09:51阅读量 2
由至简动力、北大、港中文联合提出的LaST-R1,首次将隐空间物理推理引入强化学习闭环,让机器人先推理后行动。在LIBERO benchmark上仅靠1条轨迹预热即达99.9%平均成功率,真机任务比SOTA模型π0.5高22.5%。其核心算法LAPO联合优化隐空间推理与动作生成,使机器人学会在行动前进行物理思考。
LaST-R1(Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning)由至简动力、北京大学、香港中文大学联合提出,核心思想是让具身大模型在行动前先在隐空间(latent space)中进行物理推理,而非直接从观测映射到动作。该模型作为LaST₀基座模型的后训练范式,已中稿ICML 2026 Spotlight(top 2.2%)。
核心方法:LAPO算法与自适应隐空间思维链
传统具身大模型(如OpenVLA、π0.5)仅优化动作空间,缺乏对物理世界的“思考”。LaST-R1通过三步突破:
- 隐空间物理推理:在生成动作前,先在隐空间中建模场景结构、物体关系和未来动态,替代低效的语言思维链。
- LAPO(Latent-to-Action Policy Optimization):将环境奖励同时作用于隐空间推理和动作生成——成功轨迹同时强化正确推理和动作,失败轨迹反向调整内部推理空间。
- 自适应隐空间思维链:模型能根据任务复杂度动态决定推理长度,简单状态快速执行,复杂操作(如拉拉链、拧瓶盖)分配更长推理时间。
实验结果
- 仿真LIBERO benchmark:仅用1条轨迹预热,在线RL优化后平均成功率99.9%(四个套件分别99.8%/100.0%/100.0%/99.8%),显著优于只优化动作空间的基线。
- 真机任务:使用30条轨迹预热+RL后训练,平均成功率从52.5%提升至93.75%,而对比模型π0.5使用100条专家轨迹后仅达71.25%,LaST-R1高出22.5%。
- 泛化能力:在未见过物体、背景变化、光照扰动下,性能下降幅度远小于对比模型,表明学到的是可迁移的物理推理而非单纯记忆轨迹。
意义
LaST-R1提出了新的后训练范式:强化学习不应只优化动作结果,更应优化动作背后的物理推理过程。通过让环境反馈塑造隐空间推理,机器人从“看见就动”走向“先想明白,再稳定行动”,是具身大模型从“会模仿”向“会适应”的关键一步。
