清华高阳团队FP3入围ICRA 2026最佳论文奖，千寻智能同时发布Spirit v1.6及新一轮融资

2026/06/08 15:28阅读量 2

在ICRA 2026上，千寻智能首席科学家、清华高阳团队的FP3论文入围最佳论文奖。FP3是一个基于3D点云观测的大规模机器人操作基座模型（1.3B参数），通过6万条轨迹预训练，仅需80组示教样本即可在陌生场景中习得新任务，域内性能平均提升60%，跨域泛化平均提升80%。同期，千寻智能自研模型Spirit v1.6登顶RoboArena基准测试，并宣布完成15亿元A+轮融资，累计融资近50亿元。

事件概述

ICRA 2026（IEEE国际机器人与自动化会议）于6月1日至5日在维也纳举行。清华大学跨学科信息科学研究院助理教授、千寻智能首席科学家高阳团队的论文FP3入围最佳论文奖提名。FP3（Foundation Point-cloud Policy）是一个面向机器人操作的大规模三维基座策略模型。

核心创新与性能

模型规模与架构：参数1.3B，基于可规模化的扩散Transformer（编解码器结构），输入包括3D点云、语言指令和机器人本体感受状态，输出为连续动作。
预训练数据：6万条含点云观测的运动轨迹（来自DROID数据集）。
高效微调：仅需80组人工示教样本即可在包含全新物体的陌生场景中学习新任务。单卡两小时微调后，域内性能平均提升60%，开放未知场景性能平均提升80%。
对比实验：在单场景仅10条示教样本条件下，DP、DP3、OpenVLA等基线成功率大多低于50%甚至归零；FP3全部任务成功率突破90%，且动作轨迹更平滑、控制精度更高。零样本跨域测试中，FP3全场景平均成功率超80%，而基线几乎全部失效。
指令跟随：FP3能精准按照不同文本指令执行对应任务，而非简单记忆分布。

现存短板（论文自述）

基座原生零样本性能偏弱，因预训练数据集体量不及二维数据集。
仅靠CLIP嵌入实现语言条件，难以表征复杂动态语义。
未复用DINOV2、SigLIP等成熟二维视觉编码器，融合点云与二维特征有优化空间。

千寻智能同期进展

自研具身基座模型Spirit v1.6在RoboArena基准测试中登顶，超越英伟达Cosmos3和Physical Intelligence Pi0.5，成为首个登顶的中国具身模型。
宣布完成15亿元A+轮融资，2026年2月至今累计融资近50亿元，计划2026年积累100万小时级真实世界交互数据。
在RoboChallenge Table30系列中，Spirit v1.5排名第四，前三分别为星动纪元Era0、原力灵机DM0、极佳视界GigaBrain-0.1。

行业背景

中国具身智能创业赛道竞争激烈，多家估值超百亿的独角兽涌现，包括银河通用、星海图、智元、宇树等，技术竞逐正加速机器人行业拐点到来。

阅读原文详情

事件概述

核心创新与性能

现存短板（论文自述）

千寻智能同期进展

行业背景

准备好启动您的定制项目了吗？