字节入局世界模型：从内容生成到具身智能的基础设施之争

2026/04/25 15:59阅读量 2

随着李飞飞发布Spark 2.0，腾讯、阿里、英伟达及字节等巨头相继推出各自的世界模型产品，标志着该领域进入爆发期。各厂商技术路线分化明显：字节Seed3D 2.0聚焦生产级3D资产与物理一致性，腾讯HY-World 2.0主打可编辑游戏资产，阿里Happy Oyster探索实时交互模拟，英伟达Lyra 2.0则服务于机器人仿真训练。这场竞争本质上是企业争夺下一代空间AI生态定义权与基础设施入口的战略布局。

事件概述

近期，"世界模型"成为人工智能领域的核心热点。在李飞飞（Fei-Fei Li）旗下World Labs发布Spark 2.0后，腾讯、阿里、英伟达及字节跳动等科技巨头密集跟进，发布了各自的世界模型产品。尽管各家对“世界模型”的定义和侧重点不同，但共同指向了让AI理解三维空间、物理规律及物体关系的目标。

核心产品与技术突破

1. 字节跳动：Seed3D 2.0（半入局）

字节正式发布了3D生成模型Seed3D 2.0，其定位虽未直接称为世界模型，但具备了世界模型的核心特征。

几何精度提升：采用两阶段DiT架构，先构建整体结构再补充高精度细节，解决了边缘模糊、薄壁断裂等问题，使生成的模型更适用于游戏引擎、仿真系统及机器人训练。
PBR材质统一生成：不同于仅追求视觉相似的RGB贴图，Seed3D 2.0能生成统一的PBR（基于物理的渲染）材质，确保金属、粗糙度等属性在不同光照下保持物理一致性。
场景与部件理解：支持部件级拆分（如椅子拆分为座面、靠背）、关节建模及URDF输出，具备空间布局推理能力，使生成物可直接进入仿真与交互系统。
局限性：目前尚无法持续预测世界演化，也不完全理解力、碰撞、流体等复杂物理过程，因此被视为“半个世界模型”。

2. World Labs：Spark 2.0 & Marble

Spark 2.0：Web端3D高斯溅射（3D Gaussian Splatting）渲染引擎。通过LoD（细节层次）、渐进式流式传输及虚拟内存管理技术，实现了在手机浏览器中流畅加载包含上亿粒子的3D场景，解决了数据量过大导致设备无法运行的问题。
Marble：配套工具，支持根据文字或图片生成可进入的3D场景，结合Spark 2.0实现了3D内容的低成本分发与共享。

3. 英伟达：Lyra 2.0

解决痛点：针对现有视频生成模型的“空间遗忘”（镜头移动后场景不一致）和“时间漂移”（长序列生成误差累积）问题。
技术方案：引入空间记忆系统，存储每帧的3D几何信息以检索历史帧；采用“自增强历史训练”，利用带有瑕疵的历史帧训练模型纠正漂移。
应用场景：主要用于机器人和自动驾驶的仿真训练，生成的环境可直接导出为3DGS或Mesh格式接入Isaac Sim等平台。

4. 腾讯：HY-World 2.0

核心目标：生成可导入Blender、Unity、Unreal Engine的3D资产（Mesh/3DGS），而非单纯的视频。
工作流程：全景图生成（HY-Pano 2.0）→ 轨迹规划（WorldNav）→ 世界扩展（WorldStereo 2.0）→ 世界组合（WorldMirror 2.0）。
关键技术：WorldStereo 2.0引入记忆机制，确保新视角生成时与已生成区域在几何和外观上的完美衔接，避免穿帮。

5. 阿里：Happy Oyster

产品定位：世界模拟器，强调实时交互与主动演化。
双模式：
- 漫游模式（Wandering）：用户可在生成的物理一致空间中自由移动（最长1分钟连续控制），场景随视角动态延展。
- 导演模式（Directing）：允许用户在生成过程中通过文本、语音或图像指令实时干预剧情、切换镜头，实现交互式叙事。
特点：输出为音视频流，侧重互动娱乐与内容创作，而非底层3D资产开发。

6. 其他参与者

群核科技：发布SpatialGen及Aholo平台，聚焦室内设计与具身智能。
极佳视界：GigaWorld-1在WorldArena评测中表现优异，专注于机器人训练的具身世界模型。

行业趋势与战略意义

1. 技术汇合与时机成熟

过去两年，视频扩散模型、3D高斯溅射、NeRF、多模态理解及物理仿真等技术线逐渐成熟并相互融合。当这些技术组合在一起，使得世界模型从概念走向落地成为可能。这被视为继大语言模型之后，AI通往AGI（通用人工智能）的关键一步——即从二维像素匹配转向对三维空间、几何结构及物理规律的深度理解。

2. 生态位争夺战

各大厂商并非单纯的技术比拼，而是在抢占世界模型生态的不同层级入口：

World Labs：抢占Web分发入口，试图建立类似短视频的3D内容分享标准。
腾讯：抢占3D资产生产入口，重构游戏与虚拟内容产业的生产流程。
阿里：抢占实时交互入口，探索介于视频与游戏之间的新型内容形态。
字节：抢占3D造物入口，降低3D资产生产门槛，巩固其在内容生产端的生态优势。
英伟达：抢占仿真训练入口，为物理AI提供基础设施。

3. 商业价值转化

降本增效：对于游戏和内容产业，AI生成可编辑的3D资产将大幅缩短美术制作周期，降低人力成本。
新商业模式：通过降低创作和消费门槛（如链接即看、自然语言交互），推动3D内容成为互联网基础设施，创造新的流量入口和变现模式（如虚拟直播、沉浸式营销）。
标准化竞争：未来谁定义了世界的生成格式、渲染方式及交互范式，谁就可能成为下一代空间AI平台的规则制定者。

阅读原文详情