蚂蚁灵波沈宇军:VLA和世界模型都不是终局,未来属于物理世界独有模型

2026/05/25 14:56阅读量 2

蚂蚁灵波首席科学家沈宇军指出,机器人领域数据几乎空白,AI下半场关键是从数字世界向物理世界过渡,提出AIGA(AI生成Action)概念。他认为VLA和世界模型两条路线最终会融合,催生物理世界独有的模型。灵波定位做通用大脑,类似机器人时代的安卓系统,预计1-2年内出现标杆案例,2028年左右人人可为机器人提供数据,迎来具身智能的ChatGPT时刻。

事件概述

蚂蚁灵波科技首席科学家沈宇军在2026中国AIGC产业峰会GenAI Talk环节,与量子位总编辑李根围绕《AI 2.0下半场:从AIGC到AIGA》展开对话。沈宇军提出,大模型享用了互联网几十年的数据红利,但机器人物理世界的数据几乎空白;他率先提出AIGA(AI生成Action)概念,认为AI应从内容生成走向动作生成。针对具身智能技术路线,他判断VLA(视觉-语言-动作)和世界模型(含WAM)都不会是终局,两者必将融合,催生物理世界独有的模型。灵波锚定“通用大脑”定位,致力于做机器人时代的安卓系统,强调空间感知能力是关键一环。他还给出了产业落地节奏:1~2年出现标杆案例,2~3年批量复制,之后逐渐进入C端,2028年左右可实现人人参与数据供给,即具身智能的ChatGPT时刻。

核心信息

  • 数据是关键瓶颈:互联网积累了大量标准化数据,但物理世界机器人数据严重短缺,且尚未有标准化方案。数据是推动物理智能的核心,必须从质量标准、采集方式上突破。
  • AIGA范式:AIGC生成内容(数字世界),AIGA生成Action(物理世界)。真正的生产力要在物理交互中体现,例如机器人进入药房、仓库等场景。
  • 技术路线判断:VLA擅长人机交互和融合多模态,世界模型擅长预测未来。两者并非互斥,当数据量积累到一定程度,必然深度融合,产生专为物理世界设计的模型,该模型可能无法与人对话,但能高效执行任务。
  • 空间感知不可忽视:机器人通过深度、距离、力等传感器输入,必须先从输入端做好空间理解,这与最终模型同等重要。灵波已在布局LingBot-Depth等空间感知模型。
  • 灵波商业模式:不与宇树等本体厂商竞争,只做通用“大脑”(软件/操作系统),适配多种硬件,类似安卓。已开源LingBot-VLA、LingBot-VA等模型,并在药房等场景验证。
  • 产业节奏:2026-2027年,标杆案例投产,数据与模型公司磨合;2028年,数据标准形成,人人可为机器人提供数据(如日常行为数据);之后机器人逐步进入家庭。

值得关注

  • 沈宇军明确提出“VLA和世界模型都不是终局”,这一判断当前行业仍存在路线之争,他给出的融合方向值得后续观察。
  • 物理世界独有模型的概念,强调多模态输入(触觉、力觉等)和真实物理反馈(如重力),可能带来超越数字世界模型的智能。
  • “人人成为数据提供方”被视为具身智能的ChatGPT时刻,这一时间点定在2028年,与当前许多公司(如特斯拉、Figure)的规划有所呼应。
  • 灵波走通用大脑路线,而特斯拉等走软硬一体路线,两者对比可揭示行业分化方向。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。