蚂蚁灵波沈宇军：VLA和世界模型都不是终局，未来属于物理世界独有模型

2026/05/25 14:56阅读量 2

蚂蚁灵波首席科学家沈宇军指出，机器人领域数据几乎空白，AI下半场关键是从数字世界向物理世界过渡，提出AIGA（AI生成Action）概念。他认为VLA和世界模型两条路线最终会融合，催生物理世界独有的模型。灵波定位做通用大脑，类似机器人时代的安卓系统，预计1-2年内出现标杆案例，2028年左右人人可为机器人提供数据，迎来具身智能的ChatGPT时刻。

事件概述

蚂蚁灵波科技首席科学家沈宇军在2026中国AIGC产业峰会GenAI Talk环节，与量子位总编辑李根围绕《AI 2.0下半场：从AIGC到AIGA》展开对话。沈宇军提出，大模型享用了互联网几十年的数据红利，但机器人物理世界的数据几乎空白；他率先提出AIGA（AI生成Action）概念，认为AI应从内容生成走向动作生成。针对具身智能技术路线，他判断VLA（视觉-语言-动作）和世界模型（含WAM）都不会是终局，两者必将融合，催生物理世界独有的模型。灵波锚定“通用大脑”定位，致力于做机器人时代的安卓系统，强调空间感知能力是关键一环。他还给出了产业落地节奏：1～2年出现标杆案例，2～3年批量复制，之后逐渐进入C端，2028年左右可实现人人参与数据供给，即具身智能的ChatGPT时刻。

核心信息

数据是关键瓶颈：互联网积累了大量标准化数据，但物理世界机器人数据严重短缺，且尚未有标准化方案。数据是推动物理智能的核心，必须从质量标准、采集方式上突破。
AIGA范式：AIGC生成内容（数字世界），AIGA生成Action（物理世界）。真正的生产力要在物理交互中体现，例如机器人进入药房、仓库等场景。
技术路线判断：VLA擅长人机交互和融合多模态，世界模型擅长预测未来。两者并非互斥，当数据量积累到一定程度，必然深度融合，产生专为物理世界设计的模型，该模型可能无法与人对话，但能高效执行任务。
空间感知不可忽视：机器人通过深度、距离、力等传感器输入，必须先从输入端做好空间理解，这与最终模型同等重要。灵波已在布局LingBot-Depth等空间感知模型。
灵波商业模式：不与宇树等本体厂商竞争，只做通用“大脑”（软件/操作系统），适配多种硬件，类似安卓。已开源LingBot-VLA、LingBot-VA等模型，并在药房等场景验证。
产业节奏：2026-2027年，标杆案例投产，数据与模型公司磨合；2028年，数据标准形成，人人可为机器人提供数据（如日常行为数据）；之后机器人逐步进入家庭。

值得关注

沈宇军明确提出“VLA和世界模型都不是终局”，这一判断当前行业仍存在路线之争，他给出的融合方向值得后续观察。
物理世界独有模型的概念，强调多模态输入（触觉、力觉等）和真实物理反馈（如重力），可能带来超越数字世界模型的智能。
“人人成为数据提供方”被视为具身智能的ChatGPT时刻，这一时间点定在2028年，与当前许多公司（如特斯拉、Figure）的规划有所呼应。
灵波走通用大脑路线，而特斯拉等走软硬一体路线，两者对比可揭示行业分化方向。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？