Physical Intelligence发布π0.7:VLA模型通过技能组合实现“涌现”,挑战世界模型路径
2026/04/17 22:23阅读量 7
美国具身智能企业Physical Intelligence(PI)于4月17日发布新款VLA模型π0.7,该模型无需微调即可在咖啡制作、叠衣服等新任务中达到接近人类操作员的水平。π0.7采用“结构驱动”的任务表示法,将任务拆解为可复用的基础技能单元,实现了跨本体泛化和能力涌现。这一突破证明VLA路线可通过技能重组而非单纯堆砌数据来扩展智能边界,对当前依赖大规模数据的“世界模型”发展路径构成挑战。
事件概述
2026年4月17日,美国具身智能公司Physical Intelligence(PI)发布了新一代视觉-语言-动作(VLA)模型 π0.7。该模型展示了显著的“开箱即用”特性,无需针对特定任务进行微调(Fine-tuning),即可在未见过的任务中表现出接近人类专家的性能,标志着具身智能领域出现新的能力获取路径。
核心性能与突破
- 通才表现超越专才:在未对咖啡制作、叠衣服等任务进行专门训练的情况下,π0.7的性能持平甚至优于经过强化学习(RL)或监督微调(SFT)的专精模型(如π0.6)。
- 涌现能力验证:在“叠衣服”这一未训练任务中,π0.7完成了85.6%的成功率,接近拥有375小时遥操经验的人类操作员(90.9%)。模型通过调用已掌握的抓取、展开、对齐、折叠等基础技能,动态组合出解决新任务的方案。
- 跨本体泛化:模型成功在未训练的UR5e机器人上执行任务,证明了软件与硬件的解耦能力,为机器人软件的规模化商业应用奠定了基础。
技术机制解析
- 从“样本驱动”转向“结构驱动”:与传统VLA模型仅学习输入到动作的映射不同,π0.7将任务拆解为可复用的“技能单元”。这种结构化的任务表示法使模型能够像大语言模型一样,通过逻辑推理组合技能,而非死记硬背数据。
- 多模态Prompt驱动执行:Prompt不再仅是高层指令,而是包含任务拆解、操作顺序提示及纠错信号的多模态上下文。通过详细的语言引导,模型能处理训练数据中罕见的任务(如复杂烹饪操作),大幅降低了数据采集成本。
- 非线性的能力增长:模型能力的提升不再单纯依赖数据规模的线性堆叠,而是取决于技能的可拆解性、任务的结构化理解以及语言的动态组合能力。
行业影响
π0.7的出现展示了“能力涌现”的新路径,即通过有限技能的重组覆盖无限的任务空间。这一进展挑战了当前以“世界模型”为主导的技术趋势,重新确立了VLA路线在具身智能领域的竞争力,并让业界意识到模型的能力边界可能已超出传统训练数据的预测范围。
