深度机智发布PhysBrain 1.0：以人类第一视角数据重构具身智能物理常识

2026/04/07 15:04阅读量 51

深度机智创始人陈凯于2026年3月27日中关村论坛发布全球首个基于人类学习范式构建的具身基座模型PhysBrain 1.0。该模型仅使用1000小时人类第一视角数据且零真机数据，在多个国际基准测试中超越依赖数万小时真机数据的竞争对手，展现出SOTA性能。这一成果标志着具身智能从“模仿动作”向“理解物理世界”的范式转移，验证了物理常识对机器人跨本体泛化能力的关键作用。

事件概述

2026年3月27日，深度机智（DeepWisdom）创始人、微软亚洲研究院前首席研究员陈凯在中关村论坛上正式发布了全球首个以人类学习范式构建的具身基座模型——PhysBrain 1.0。该模型的核心突破在于摒弃了行业主流的遥操作真机数据采集模式，转而采用人类第一视角数据进行训练。

核心事实与数据

数据规模与构成：PhysBrain 1.0 仅使用了1000小时的人类第一视角视频数据，未使用任何真机采集数据（Zero True Machine Data）。
性能表现：在多个国际权威基准测试（Benchmark）中，PhysBrain 1.0 取得了SOTA（State-of-the-Art）成绩。其表现超越了依赖数万小时真机数据的竞争对手，包括Physical Intelligence和英伟达等头部科技巨头的模型。
行业背景对比：
- 特斯拉：2025年5月宣布放弃遥操作，转向人类第一视角路线。
- Figure AI：2025年6月发布拟人行为Demo；12月确认人类数据价值。
- 英伟达：2026年2-3月发表论文交叉验证人类数据价值，但仍侧重手部轨迹预训练。
- 国内动态：2026年以来，小米、蚂蚁、章鱼动力等公司纷纷组建新团队跟进“人类第一视角”路线。

技术突破：从“轨迹拟合”到“物理常识”

1. 解决核心痛点：缺乏物理常识

当前视觉语言模型（VLM）和世界模型普遍存在缺乏物理常识的问题，例如无法准确计数空间物体、视频生成中运动真实性差等。传统方法（遥操作、仿真合成）本质上是教机器人“背动作”或“背轨迹”，而非理解世界。

2. 方法论创新：理解优先

PhysBrain 1.0 采用了“理解优先”的策略，旨在让模型像人类一样先理解物理世界的规律，再学习技能。这种路径被比喻为“请菩提祖师把猴子变成孙悟空”，而非“手把手教猴子干活”。

3. 智能涌现现象

在测试中，模型展现了显著的**智能涌现（Emergence）**能力，能够处理未见过的复杂情境：

策略自适应：当机械臂夹起胡萝卜失败时，模型自发尝试“推”的动作，并在多次尝试后调整角度和力度，最终成功夹取。
容错与修正：当抓取方块因位置靠后掉落时，模型主动返回捡拾，并通过微调旋转角度成功完成抓取。
这些行为证明了模型具备了类似人类的灵活变通能力，而非简单的程序预设。

关键影响：跨本体能力与通用性

跨本体迁移：传统方法需要针对不同形态的机器人进行联合训练以实现技能迁移。PhysBrain 1.0 证明，一旦模型掌握了物理常识（如受力移动、摩擦力原理），它便能自然适配不同硬件平台。通过LoRA预训练Action Expert并结合Franka机械臂微调，大幅降低了数据需求。
行业范式转移：这一成果挑战了“数据量越大智能越强”的默认假设，确立了“人类第一视角数据”作为通往物理常识的关键路径。这标志着具身智能正从“教动作”向“教理解”发生根本性转变。

未来展望与挑战

尽管PhysBrain 1.0展示了“偶然的智能涌现”，但行业仍面临深层挑战：

架构兼容性：提取和利用物理常识可能需要全新的模型架构，与当前主流的VLA、π0架构不完全兼容，意味着需放弃部分既有技术积累。
生态建设：物理常识的提取、标注和利用需要建立全新的基础设施。
发展预期：陈凯指出，若能在两三年内重现类似ChatGPT的时刻，将彻底改变制造业、服务业等领域的生产力图景。2026年被视为具身智能发展的关键转折之年。

阅读原文详情