清华高阳团队FP3入围ICRA 2026最佳论文奖,千寻智能同时发布Spirit v1.6及新一轮融资
2026/06/08 15:28阅读量 2
在ICRA 2026上,千寻智能首席科学家、清华高阳团队的FP3论文入围最佳论文奖。FP3是一个基于3D点云观测的大规模机器人操作基座模型(1.3B参数),通过6万条轨迹预训练,仅需80组示教样本即可在陌生场景中习得新任务,域内性能平均提升60%,跨域泛化平均提升80%。同期,千寻智能自研模型Spirit v1.6登顶RoboArena基准测试,并宣布完成15亿元A+轮融资,累计融资近50亿元。
事件概述
ICRA 2026(IEEE国际机器人与自动化会议)于6月1日至5日在维也纳举行。清华大学跨学科信息科学研究院助理教授、千寻智能首席科学家高阳团队的论文FP3入围最佳论文奖提名。FP3(Foundation Point-cloud Policy)是一个面向机器人操作的大规模三维基座策略模型。
核心创新与性能
- 模型规模与架构:参数1.3B,基于可规模化的扩散Transformer(编解码器结构),输入包括3D点云、语言指令和机器人本体感受状态,输出为连续动作。
- 预训练数据:6万条含点云观测的运动轨迹(来自DROID数据集)。
- 高效微调:仅需80组人工示教样本即可在包含全新物体的陌生场景中学习新任务。单卡两小时微调后,域内性能平均提升60%,开放未知场景性能平均提升80%。
- 对比实验:在单场景仅10条示教样本条件下,DP、DP3、OpenVLA等基线成功率大多低于50%甚至归零;FP3全部任务成功率突破90%,且动作轨迹更平滑、控制精度更高。零样本跨域测试中,FP3全场景平均成功率超80%,而基线几乎全部失效。
- 指令跟随:FP3能精准按照不同文本指令执行对应任务,而非简单记忆分布。
现存短板(论文自述)
- 基座原生零样本性能偏弱,因预训练数据集体量不及二维数据集。
- 仅靠CLIP嵌入实现语言条件,难以表征复杂动态语义。
- 未复用DINOV2、SigLIP等成熟二维视觉编码器,融合点云与二维特征有优化空间。
千寻智能同期进展
- 自研具身基座模型Spirit v1.6在RoboArena基准测试中登顶,超越英伟达Cosmos3和Physical Intelligence Pi0.5,成为首个登顶的中国具身模型。
- 宣布完成15亿元A+轮融资,2026年2月至今累计融资近50亿元,计划2026年积累100万小时级真实世界交互数据。
- 在RoboChallenge Table30系列中,Spirit v1.5排名第四,前三分别为星动纪元Era0、原力灵机DM0、极佳视界GigaBrain-0.1。
行业背景
中国具身智能创业赛道竞争激烈,多家估值超百亿的独角兽涌现,包括银河通用、星海图、智元、宇树等,技术竞逐正加速机器人行业拐点到来。
