智源大会：大模型竞争转向物理世界，世界模型与具身智能成新焦点

2026/06/14 09:25阅读量 8

2026年智源大会第二天，业界焦点从语言模型转向物理世界理解与执行。智源研究院院长王仲远指出视频生成模型不等于世界模型，并发布全球首个通用世界基座模型Physis-v0.1；银河通用创始人王鹤展示机器人打网球成果，提出World Action Model范式，并强调具身智能需要千万小时数据和百亿级投入才能冲刺ChatGPT时刻。人工智能下一阶段不在屏幕内，而在真实物理世界。

事件概述

2026年智源大会第二天，AI行业关注重心从大语言模型转向让机器理解并执行真实物理世界任务。智源研究院院长王仲远和银河通用创始人王鹤分别就世界模型和具身智能阐述了当前进展、技术路径及挑战。

核心信息

世界模型：非视频生成，需预测物理状态

王仲远直言“所有夺冠的世界模型都还不是真正的世界模型，视频生成模型不等于世界模型”。他以“猪在天上与飞机一起飞”为例，说明视频生成模型学的是好莱坞想象力而非万有引力。
智源将世界模型分为四类：语言为中心（VLM/VLA）、像素为中心（Sora等）、三维结构为中心（3D重建/Lab Marble）、视觉表征为中心（JEPA系列），并自选第五类——全模态潜空间，将文本/图像/视频压缩到统一向量空间建模真实物理状态。该思路与已发表在《Nature》上的悟界Emu一脉相承。
智源认为世界模型的核心是“下一个物理状态预测”，而非简单的下一个Token预测。例如咖啡杯滑落桌边的后果、铁碗不能放进微波炉等人类常识，对机器仍是难题。智源正在构建评测数据集，聚焦开冰箱/洗衣机/微波炉等具体动作，评测框架计划下半年发布。
智源发布全球首个通用世界基座模型Physis-v0.1（研发中），以物理空间建模实现下一个物理状态预测，训练完成后将开源。

具身智能：从网球突破到规模化落地

银河通用选择以打网球作为突破口，今年3月推出latent算法，使人形机器人具备长程动态打网球能力，同时考验手腕精确控制（运动控制）和策略决策（吊球或打空档）。王鹤称之为“具身智能的AlphaGo时刻”，Elon Musk和Andrej Karpathy曾关注该成果。
银河通用最新提出World Action Model（WAM）范式，融合VLA和世界模型，同时利用有标签的具身数据和海量无标签的人类第一人称视频。此前团队已用10亿帧仿真数据验证：数据规模达此程度即可实现zero-shot真实物体抓取。
王鹤将具身智能护城河拆为四个维度：数据供给、多类型数据提炼能力、硬件迭代与软硬协同设计、模型交付客户的整套能力。投资人兼客户宁德时代、博世提供投资+采购+验证三位一体支撑。银河通用已覆盖工业重载和商业零售双线，宁德时代产线和100多家无人便利店已运行。
投入门槛方面，王鹤认为行业需要千万小时级别数据、百亿以上单年投入才能获得ChatGPT时刻入场券。银河通用目前70亿融资、200亿估值尚存差距。国内具身智能创业公司约230家，赛道拥挤。

行业共识与展望

王鹤回应中美AI路径差异时表示，具身智能是中国的机会，0到1若在中国完成，1到100必在中国成熟。2025年中国制造的人形机器人占全球交付量87%。他预测两年内具身智能有望从GPT-2进化到ChatGPT。
两条AI战线（世界模型与具身智能）共同点：都处于早期、缺数据、缺公认评价标准。大模型下一场仗已从屏幕内转向物理世界。

阅读原文详情

事件概述

核心信息

世界模型：非视频生成，需预测物理状态

具身智能：从网球突破到规模化落地

行业共识与展望

准备好启动您的定制项目了吗？