阿里发布首个具身大模型Qwen-Robot系列,三款模型覆盖操作、导航与世界模拟
2026/06/16 12:39阅读量 16
6月16日,阿里发布千问具身智能大模型Qwen-Robot系列,包含VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld三大模型。Qwen-RobotManip在RoboChallenge Table30 v1真机测评中排名前二,全程仅基于开源数据训练。该系列标志着千问从数字智能体向物理智能体的迈进。
事件概述
6月16日,阿里巴巴发布千问具身智能大模型Qwen-Robot系列,这是千问大模型家族首个完整的具身智能模型系列,包含三个核心模型:
-
Qwen-RobotManip(VLA操作模型):解决视觉-语言-动作融合,使用80维统一动作表征,基于摄像头相对位置操作,无需绝对坐标。在超过38000小时语料上完成预训练,全程仅基于开源数据。在RoboChallenge Table30 v1真机测评(横跨30项真实世界任务、4个机器人平台)中,代号“Lira”和“Atlas”的两个版本位列前两名,任务包括拧水龙头、插网线、双臂倒薯条等。
-
Qwen-RobotNav(VLN移动模型):基于Qwen-VL构建,将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一框架。创新推出任务自适应观察机制,可灵活切换记忆策略,并设计为通用接口,原生支持多种智能体框架。例如,搭载该模型的宇树Go2四足机器人可执行“找行李箱”等寻物导航任务。
-
Qwen-RobotWorld(世界模型):基于对物理规律的理解,可推理和模拟下一时刻机器人的合理动作和状态,用于生成训练视频数据缓解数据不足,以及执行前推演动作轨迹。
核心信息
- 三款模型既可单独部署,也可协同运转,在统一自然语言指令下展现一致高性能。
- Qwen-Robot系列是千问大模型家族从数字智能体迈向物理智能体的重要一步,为不同形态机器人提供通用底座。
- 未来该“通用大脑”将搭载于更多机器人,使其在复杂现实中具备高度自主的感知、决策与长程执行能力。
