阿里发布首个具身大模型Qwen-Robot系列，三款模型覆盖操作、导航与世界模拟

2026/06/16 12:39阅读量 16

6月16日，阿里发布千问具身智能大模型Qwen-Robot系列，包含VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld三大模型。Qwen-RobotManip在RoboChallenge Table30 v1真机测评中排名前二，全程仅基于开源数据训练。该系列标志着千问从数字智能体向物理智能体的迈进。

事件概述

6月16日，阿里巴巴发布千问具身智能大模型Qwen-Robot系列，这是千问大模型家族首个完整的具身智能模型系列，包含三个核心模型：

Qwen-RobotManip（VLA操作模型）：解决视觉-语言-动作融合，使用80维统一动作表征，基于摄像头相对位置操作，无需绝对坐标。在超过38000小时语料上完成预训练，全程仅基于开源数据。在RoboChallenge Table30 v1真机测评（横跨30项真实世界任务、4个机器人平台）中，代号“Lira”和“Atlas”的两个版本位列前两名，任务包括拧水龙头、插网线、双臂倒薯条等。
Qwen-RobotNav（VLN移动模型）：基于Qwen-VL构建，将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一框架。创新推出任务自适应观察机制，可灵活切换记忆策略，并设计为通用接口，原生支持多种智能体框架。例如，搭载该模型的宇树Go2四足机器人可执行“找行李箱”等寻物导航任务。
Qwen-RobotWorld（世界模型）：基于对物理规律的理解，可推理和模拟下一时刻机器人的合理动作和状态，用于生成训练视频数据缓解数据不足，以及执行前推演动作轨迹。

核心信息

三款模型既可单独部署，也可协同运转，在统一自然语言指令下展现一致高性能。
Qwen-Robot系列是千问大模型家族从数字智能体迈向物理智能体的重要一步，为不同形态机器人提供通用底座。
未来该“通用大脑”将搭载于更多机器人，使其在复杂现实中具备高度自主的感知、决策与长程执行能力。

阅读原文详情

事件概述

核心信息

准备好启动您的定制项目了吗？