深度机智发布PhysBrain 1.0:以人类第一视角数据重构具身智能基座

3月27日,北京中关村学院联合深度机智发布具身通用智能基座模型系统PhysBrain 1.0,提出从“动作模仿”转向“物理理解”的新范式。该系统通过引入大规模低成本人类第一视角视频数据,结合TwinBrainVLA双脑架构与LangForce训练策略,解决了传统模型缺乏物理常识及灾难性遗忘问题。这一创新路径正获得行业关注,被视为中国团队在具身智能“大脑”领域实现自主可控的关键探索。

事件概述

3月27日,在北京中关村论坛年会「全球对话」平行论坛上,北京中关村学院联合深度机智正式发布了具身通用智能基座模型系统PhysBrain 1.0。该成果被视为具身智能发展路径的一次关键转折,标志着行业重心正从依赖真机数据的“轨迹拟合”转向基于人类第一视角数据的“物理理解”。

核心技术与架构

PhysBrain 1.0 体系由三个核心部分组成,旨在解决传统视觉 - 语言 - 动作(VLA)模型中物理常识匮乏、通用能力与任务能力难以兼顾的痛点:

  • 基座模型 PhysBrain:采用“理解优先,通用优先”的思路。不同于主流路线依赖数万小时真机或仿真数据,该模型利用大规模低成本的人类第一视角视频作为训练语料。团队构建了首个将海量人类视频转化为具身训练数据的引擎,完成了约3,000小时人类第一视角视频的精准标注,涵盖真实三维环境中的空间关系、动作可行性及多步逻辑推理。
  • 双脑架构 TwinBrainVLA:针对业界普遍存在的“灾难性遗忘”问题(即学习新技能导致通用知识丢失),于2026年1月原创提出。该架构包含两部分:一部分负责保持稳定的通用认知,另一部分负责具体动作训练,两者协同工作以兼顾“常识”与“技能”。
  • 训练策略 LangForce:修正了模型仅依赖视觉信息而忽略指令的“视觉捷径”问题,使模型能够同时理解语言指令、环境状态与任务目标,实现从“看图做事”到“理解后执行”的转变。

关键突破与验证

  • 物理智能涌现:模型展现出类似人类的物理直觉和自主纠错能力。测试中,机械臂在尝试推胡萝卜滚入盘子失败后,能主动调整策略重新夹取;在堆叠方块掉落时,能主动捡起并微调夹爪姿势。这些未在训练数据中明确出现的灵活策略,证明模型已具备初步的物理常识和自主决策能力。
  • 跨本体迁移能力:模型掌握的运动与物理先验知识可无损或低成本地迁移至不同形态的机器人上,极大降低了新硬件的适配难度。
  • 性能表现:目前,PhysBrain 基座模型在空间智能、具身交互等多项权威评测中,全面达到 SOTA(业界最优)性能。

硬件验证与生态布局

为验证模型在真实环境中的适配能力,深度机智同步展示了自研的全尺寸拟人体机器人Prime

  • 规格参数:具备72个自由度,比例尺寸与人体同构,可实现毫米级精细操作,并支持断电状态下自主站立。
  • 数据采集闭环:团队开发了低成本采集设备,将数据成本控制在远低于传统真机数据的水平,形成了从数据侧(低成本采集)到硬件侧(Prime机器人)的完整技术闭环。

行业背景与意义

当前全球具身智能领域存在“中美双极格局”:美国强在算法与系统层(如NVIDIA、Physical Intelligence等),中国强在制造与应用侧(如宇树科技等)。然而,中国机器人在“大脑”层面长期存在路径依赖,核心能力受制于人。

深度机智提出的“人类第一视角学习”范式,本质上是一种绕开既有高成本真机数据体系的探索。这一方向已获得外部验证,英伟达近期也提出了DreamDojo-HV等大规模第一人称人类数据集。随着行业竞争从“数据规模”转向“架构范式”,拥有自主可控的“机器人大脑”将成为决定长期竞争力的关键。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。