具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

2026/05/11 09:51阅读量 2

由至简动力、北大、港中文联合提出的LaST-R1，首次将隐空间物理推理引入强化学习闭环，让机器人先推理后行动。在LIBERO benchmark上仅靠1条轨迹预热即达99.9%平均成功率，真机任务比SOTA模型π0.5高22.5%。其核心算法LAPO联合优化隐空间推理与动作生成，使机器人学会在行动前进行物理思考。

LaST-R1（Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning）由至简动力、北京大学、香港中文大学联合提出，核心思想是让具身大模型在行动前先在隐空间（latent space）中进行物理推理，而非直接从观测映射到动作。该模型作为LaST₀基座模型的后训练范式，已中稿ICML 2026 Spotlight（top 2.2%）。

核心方法：LAPO算法与自适应隐空间思维链

传统具身大模型（如OpenVLA、π0.5）仅优化动作空间，缺乏对物理世界的“思考”。LaST-R1通过三步突破：

隐空间物理推理：在生成动作前，先在隐空间中建模场景结构、物体关系和未来动态，替代低效的语言思维链。
LAPO（Latent-to-Action Policy Optimization）：将环境奖励同时作用于隐空间推理和动作生成——成功轨迹同时强化正确推理和动作，失败轨迹反向调整内部推理空间。
自适应隐空间思维链：模型能根据任务复杂度动态决定推理长度，简单状态快速执行，复杂操作（如拉拉链、拧瓶盖）分配更长推理时间。

实验结果

仿真LIBERO benchmark：仅用1条轨迹预热，在线RL优化后平均成功率99.9%（四个套件分别99.8%/100.0%/100.0%/99.8%），显著优于只优化动作空间的基线。
真机任务：使用30条轨迹预热+RL后训练，平均成功率从52.5%提升至93.75%，而对比模型π0.5使用100条专家轨迹后仅达71.25%，LaST-R1高出22.5%。
泛化能力：在未见过物体、背景变化、光照扰动下，性能下降幅度远小于对比模型，表明学到的是可迁移的物理推理而非单纯记忆轨迹。

意义

LaST-R1提出了新的后训练范式：强化学习不应只优化动作结果，更应优化动作背后的物理推理过程。通过让环境反馈塑造隐空间推理，机器人从“看见就动”走向“先想明白，再稳定行动”，是具身大模型从“会模仿”向“会适应”的关键一步。

阅读原文详情

核心方法：LAPO算法与自适应隐空间思维链

实验结果

意义

准备好启动您的定制项目了吗？