英伟达清华团队提出Gamma-World:从单人世界模型迈向多智能体交互仿真
Gamma-World通过单纯形旋转编码、稀疏枢纽注意力和三阶段蒸馏,解决了多智能体世界建模中身份对称、高效通信和实时推演三大难题。模型在双人数据训练后可直接零样本泛化到四人场景,并成功迁移至真实双臂机器人协同任务。
事件概述
NVIDIA联合清华大学、多伦多大学和Vector Institute发布Gamma-World(γ-World),旨在解决视频世界模型从单智能体向多智能体扩展时的架构性缺失。现有模型仅保证时间一致性,而多智能体场景需要同时维护时间、跨视角和交互三重一致性。Gamma-World从RoPE扩展和注意力拓扑两个底层组件入手,给出系统性方案。
核心设计
设计一:Simplex Rotary Agent Encoding(单纯形旋转智能体编码)
标准视频RoPE编码时间、高度、宽度三个轴。Gamma-World新增玩家轴,并将所有玩家放置在正单纯形的顶点上(如2个玩家为线段两端,3个为等边三角形顶点),使得任意两个玩家在旋转角空间中的距离完全相等,保持置换对称性。该编码无需可学习参数,训练时随机分配顶点,推理时可直接从顶点池中取更多顶点,支持零样本泛化到任意玩家数。
设计二:Sparse Hub Attention(稀疏枢纽注意力)
传统全连接注意力让所有玩家的所有token两两交互,计算量随玩家数量平方增长(2人到8人增长约16倍)。Gamma-World引入一组可学习的hub token(枢纽token),采用轮辐式拓扑:每个智能体只与自身历史及hub token交互,hub token汇聚所有智能体信息并广播回各智能体流,将计算复杂度从平方降至线性。同时,该结构显式编码了“跨智能体信息应经过共享世界状态瓶颈”的归纳偏置。
设计三:三阶段蒸馏
- 第一阶段:训练双向教师模型(可访问完整序列),提供高质量生成分布。
- 第二阶段:训练因果学生模型(仅看到当前及过去帧),结合稀疏枢纽注意力适配流式推理。
- 第三阶段:条件Self-Forcing蒸馏,以因果学生为起点、双向教师为目标,通过分布匹配蒸馏将多步采样压缩为4步,同时保留初始帧与逐智能体动作序列条件,最终实现24 FPS流式推演。
实验结果
- 在多人Minecraft环境五个场景中,Gamma-World全面超越目前最强的多智能体世界模型Solaris,关键指标FVD平均降幅超过40%。
- 消融实验显示,将“学习槽位身份”换成单纯形编码,FVD从256.3降至228.5,单步增益最大,验证了在架构中显式编码置换对称性的优势。
- 模型仅在双人数据上训练,推理时直接生成四路同步视角,零样本泛化,无需修改架构参数。
- 在“放置与挖掘”和“建造塔楼”任务中,两路视角实时同步,共享世界状态完整维护。
- 将Gamma-World应用于RealOmin-Open数据集中的真实双臂机器人协同任务,左右机械臂分别作为独立智能体,生成的未来帧保持协同运动与空间布局,无需额外适配。
值得关注
Gamma-World的三项核心设计分别对应多智能体世界建模中长期悬而未决的问题:身份的对称表示、交互的高效建模、质量与实时性的同时兼顾。其方法论强调将问题结构的理解直接编码进架构,而非让模型从数据中隐式学习。研究团队指出,当世界模型生成质量足以忠实还原物理规律时,训练数据采集方式可能从真实场景物理采集转向神经网络驱动的大规模模拟生成。
