清华曹婷：具身智能的核心缺口在于“物理智能体”的持续进化能力

2026/04/27 21:31阅读量 5

清华大学 AIR 教授曹婷指出，当前具身智能多停留在工具阶段，缺乏在真实物理环境中通过交互积累经验并持续进化的能力，这是行业最被忽视的关键问题。她团队研发的物理智能体已在长程复杂任务精度上超越主流方案 2-3 倍，端侧推理速度提升 4 倍以上，并实现了在线演进效果。曹婷计划孵化新公司，致力于将具备全栈协同能力的物理智能体从实验室推向物流、能源等产业场景。

事件概述

清华大学智能产业研究院（AIR）教授曹婷在接受专访时强调，具身智能领域目前最大的瓶颈并非单一模型性能，而是缺乏能在开放物理世界中持续学习、积累记忆并自我进化的“物理智能体”。随着具身智能被写入国家“十五五”规划纲要，中国凭借完整的制造业体系与丰富的应用场景迎来产业窗口期，但技术落地仍需解决端侧实时性、弱网环境及隐私保护等挑战。

核心观点：从“工具”到“员工”的跨越

现状痛点：当前的具身智能系统大多处于“工具”阶段，仅能执行拧螺丝、搬运等单点预设任务。市场急需的是能像“模范员工”一样，在与物理世界反复交互中总结经验、修正策略的智能体。
物理智能体的定义：真正的物理智能体必须脱离预训练模型的依赖，在真实环境中摸索经验，形成记忆，并将经验转化为下一次更稳定的执行能力。这要求系统具备理解物理环境、表示交互经验、构建长期多模态记忆以及形成持续进化闭环的能力。
端侧部署的必要性：
- 低延迟：物理世界的连续视频、点云数据若传输至云端，数帧数据的传输耗时已无法支撑实时动作生成。
- 网络限制：管网清洁、工业巡检等场景常处于弱网或离网状态。
- 隐私安全：家庭及工业场景下的图像数据涉及用户隐私，不宜上传云端。

技术突破与验证成果

曹婷团队针对上述挑战，构建了从算法到硬件的全栈技术体系，并在以下方面取得显著进展：

实时理解能力：通过流式视频理解技术（如 Streammind、Em-Garde），实现认知复杂度与实时性的平衡，使系统具备“提示世界”的能力。
内在状态维护：结合过往经验与当前观测，自主拆解任务并维护持久状态（如 AdaNav VLN 工作）。
记忆与技能提取：建立 Memory Bank，在交互中筛选冗余噪声，提炼稳定技能（如 AVA 工作），实现“某次走滑了则下次减速”的经验复用。
端侧高效部署：利用极低比特量化、查表大模型推理等技术（如 T-MAC、BitDistiller），确保系统在有限算力下实现极致效率。

实测数据表现：

任务精度：在业界公认的长程复杂任务评测基准上，完成精度比主流方案高出 2-3 倍。
推理速度：端侧推理速度达到主流方案的 4 倍以上。
在线演进：实验显示，机器人在重复执行相似任务时，通过记忆学习，任务精度可提升超过 20 个百分点，且无需重新训练。

产业化布局

新公司筹备：曹婷教授团队正计划孵化一家专注于“持续进化物理智能体”的新公司，目前处于筹备阶段，正在接触投资人。
全栈优势：团队具备算法、系统、硬件协同的全栈能力，打通了从训练、推理到本体部署的完整链路。
场景聚焦：依托清华 AIR 的平台优势，将重点面向物流、能源、环境等具有中国特色的丰富场景进行落地。
未来愿景：预计十年后，具身智能将像电动车一样成为社会基础能力，在制造、物流、家庭服务等场景中承担高危、重复及枯燥的任务，改变社会运行方式。

阅读原文详情

事件概述

核心观点：从“工具”到“员工”的跨越

技术突破与验证成果

产业化布局

准备好启动您的定制项目了吗？