清华高阳团队FP3入围ICRA 2026最佳论文奖,千寻智能同时发布Spirit v1.6及新一轮融资

2026/06/08 15:28阅读量 2

在ICRA 2026上,千寻智能首席科学家、清华高阳团队的FP3论文入围最佳论文奖。FP3是一个基于3D点云观测的大规模机器人操作基座模型(1.3B参数),通过6万条轨迹预训练,仅需80组示教样本即可在陌生场景中习得新任务,域内性能平均提升60%,跨域泛化平均提升80%。同期,千寻智能自研模型Spirit v1.6登顶RoboArena基准测试,并宣布完成15亿元A+轮融资,累计融资近50亿元。

事件概述

ICRA 2026(IEEE国际机器人与自动化会议)于6月1日至5日在维也纳举行。清华大学跨学科信息科学研究院助理教授、千寻智能首席科学家高阳团队的论文FP3入围最佳论文奖提名。FP3(Foundation Point-cloud Policy)是一个面向机器人操作的大规模三维基座策略模型。

核心创新与性能

  • 模型规模与架构:参数1.3B,基于可规模化的扩散Transformer(编解码器结构),输入包括3D点云、语言指令和机器人本体感受状态,输出为连续动作。
  • 预训练数据:6万条含点云观测的运动轨迹(来自DROID数据集)。
  • 高效微调:仅需80组人工示教样本即可在包含全新物体的陌生场景中学习新任务。单卡两小时微调后,域内性能平均提升60%,开放未知场景性能平均提升80%。
  • 对比实验:在单场景仅10条示教样本条件下,DP、DP3、OpenVLA等基线成功率大多低于50%甚至归零;FP3全部任务成功率突破90%,且动作轨迹更平滑、控制精度更高。零样本跨域测试中,FP3全场景平均成功率超80%,而基线几乎全部失效。
  • 指令跟随:FP3能精准按照不同文本指令执行对应任务,而非简单记忆分布。

现存短板(论文自述)

  1. 基座原生零样本性能偏弱,因预训练数据集体量不及二维数据集。
  2. 仅靠CLIP嵌入实现语言条件,难以表征复杂动态语义。
  3. 未复用DINOV2、SigLIP等成熟二维视觉编码器,融合点云与二维特征有优化空间。

千寻智能同期进展

  • 自研具身基座模型Spirit v1.6在RoboArena基准测试中登顶,超越英伟达Cosmos3和Physical Intelligence Pi0.5,成为首个登顶的中国具身模型。
  • 宣布完成15亿元A+轮融资,2026年2月至今累计融资近50亿元,计划2026年积累100万小时级真实世界交互数据。
  • 在RoboChallenge Table30系列中,Spirit v1.5排名第四,前三分别为星动纪元Era0、原力灵机DM0、极佳视界GigaBrain-0.1。

行业背景

中国具身智能创业赛道竞争激烈,多家估值超百亿的独角兽涌现,包括银河通用、星海图、智元、宇树等,技术竞逐正加速机器人行业拐点到来。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。