清华曹婷:具身智能的核心缺口在于“物理智能体”的持续进化能力

2026/04/27 21:31阅读量 5

清华大学 AIR 教授曹婷指出,当前具身智能多停留在工具阶段,缺乏在真实物理环境中通过交互积累经验并持续进化的能力,这是行业最被忽视的关键问题。她团队研发的物理智能体已在长程复杂任务精度上超越主流方案 2-3 倍,端侧推理速度提升 4 倍以上,并实现了在线演进效果。曹婷计划孵化新公司,致力于将具备全栈协同能力的物理智能体从实验室推向物流、能源等产业场景。

事件概述

清华大学智能产业研究院(AIR)教授曹婷在接受专访时强调,具身智能领域目前最大的瓶颈并非单一模型性能,而是缺乏能在开放物理世界中持续学习、积累记忆并自我进化的“物理智能体”。随着具身智能被写入国家“十五五”规划纲要,中国凭借完整的制造业体系与丰富的应用场景迎来产业窗口期,但技术落地仍需解决端侧实时性、弱网环境及隐私保护等挑战。

核心观点:从“工具”到“员工”的跨越

  • 现状痛点:当前的具身智能系统大多处于“工具”阶段,仅能执行拧螺丝、搬运等单点预设任务。市场急需的是能像“模范员工”一样,在与物理世界反复交互中总结经验、修正策略的智能体。
  • 物理智能体的定义:真正的物理智能体必须脱离预训练模型的依赖,在真实环境中摸索经验,形成记忆,并将经验转化为下一次更稳定的执行能力。这要求系统具备理解物理环境、表示交互经验、构建长期多模态记忆以及形成持续进化闭环的能力。
  • 端侧部署的必要性
    • 低延迟:物理世界的连续视频、点云数据若传输至云端,数帧数据的传输耗时已无法支撑实时动作生成。
    • 网络限制:管网清洁、工业巡检等场景常处于弱网或离网状态。
    • 隐私安全:家庭及工业场景下的图像数据涉及用户隐私,不宜上传云端。

技术突破与验证成果

曹婷团队针对上述挑战,构建了从算法到硬件的全栈技术体系,并在以下方面取得显著进展:

  1. 实时理解能力:通过流式视频理解技术(如 Streammind、Em-Garde),实现认知复杂度与实时性的平衡,使系统具备“提示世界”的能力。
  2. 内在状态维护:结合过往经验与当前观测,自主拆解任务并维护持久状态(如 AdaNav VLN 工作)。
  3. 记忆与技能提取:建立 Memory Bank,在交互中筛选冗余噪声,提炼稳定技能(如 AVA 工作),实现“某次走滑了则下次减速”的经验复用。
  4. 端侧高效部署:利用极低比特量化、查表大模型推理等技术(如 T-MAC、BitDistiller),确保系统在有限算力下实现极致效率。

实测数据表现

  • 任务精度:在业界公认的长程复杂任务评测基准上,完成精度比主流方案高出 2-3 倍
  • 推理速度:端侧推理速度达到主流方案的 4 倍以上
  • 在线演进:实验显示,机器人在重复执行相似任务时,通过记忆学习,任务精度可提升超过 20 个百分点,且无需重新训练。

产业化布局

  • 新公司筹备:曹婷教授团队正计划孵化一家专注于“持续进化物理智能体”的新公司,目前处于筹备阶段,正在接触投资人。
  • 全栈优势:团队具备算法、系统、硬件协同的全栈能力,打通了从训练、推理到本体部署的完整链路。
  • 场景聚焦:依托清华 AIR 的平台优势,将重点面向物流、能源、环境等具有中国特色的丰富场景进行落地。
  • 未来愿景:预计十年后,具身智能将像电动车一样成为社会基础能力,在制造、物流、家庭服务等场景中承担高危、重复及枯燥的任务,改变社会运行方式。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。