英伟达清华团队提出Gamma-World:用正单纯形编码解决多智能体世界模型难题

2026/05/30 11:17阅读量 2

英伟达联合清华大学、多伦多大学及Vector Institute发布Gamma-World(γ-World),从位置编码和注意力机制两个底层组件入手,系统性地解决了多智能体世界建模中身份对称性、通信复杂度和实时性三大难题。该模型引入正单纯形旋转智能体编码与稀疏枢纽注意力,在多人Minecraft场景中全面超越现有最强模型Solaris,双人训练即可零样本泛化至四人场景,并成功迁移至真实双臂机器人协同任务,实现24 FPS实时推演。

事件概述

现有视频世界模型大多基于单智能体假设(给定一个玩家的动作序列预测其未来观测),无法处理多智能体场景中跨视角一致性与交互一致性的耦合问题。NVIDIA、清华大学、多伦多大学与Vector Institute联合提出的Gamma-World(γ-World)从架构层面给出了系统性解决方案,论文标题为《Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players》。

核心设计

Gamma-World包含三项针对多智能体建模核心瓶颈的设计:

  1. Simplex Rotary Agent Encoding:在RoPE(旋转位置编码)中增加“玩家轴”,并将所有玩家编码在正单纯形顶点上(2人→线段两端,3人→等边三角形顶点,4人→正四面体顶点),使得任意两个玩家在旋转角空间中距离相等,天然满足置换对称性。该编码无需可学习参数,训练时随机分配顶点,推理时只需增加顶点即可支持更多玩家,无需修改架构或重新训练。
  2. Sparse Hub Attention:引入一组可学习的hub token(枢纽token),形成轮辐式通信拓扑——每个智能体只与自身历史及hub token交互,hub token汇聚所有智能体信息后广播回各流。这消除了玩家间全连接注意力的平方复杂度(2人→8人时计算量从477.8G涨至7.6T),将其降至线性复杂度,且更合理地编码了“跨智能体信息应经过共享世界状态瓶颈”这一先验。
  3. 三阶段蒸馏:第一阶段训练能访问完整序列的双向教师模型;第二阶段训练仅看当前及过去帧的因果学生模型,适配流式推理;第三阶段通过分布匹配蒸馏(DMD)将多步采样压缩为4步,同时保留初始帧与逐智能体动作条件,最终实现24 FPS实时流式推演。

实验结果

  • 多人Minecraft评估:在记忆、空间定位、移动、建造、跨视角一致性五类场景中,Gamma-World在关键指标FVD上平均降幅超过40%,全面超越Solaris。
  • 消融验证:从可学习槽位嵌入换成单纯形编码,FVD从256.3降至228.5,证明在架构中显式编码置换对称性约束比让模型隐式学习更高效。
  • 零样本泛化:仅用双人数据训练,推理时直接生成四路同步视角(启用两个新顶点),无需修改任何参数,四路画面保持共享世界状态一致性。
  • 真实机器人迁移:在RealOmin-Open数据集的真实双臂机器人协同任务中,模型生成的未来帧保持了双臂协同运动与空间布局,证明框架通用性。

值得关注

Gamma-World的方法论核心在于“将对问题结构的理解直接编码进架构”,而非依靠海量数据拟合。这一思路有望突破真实物理数据采集的人力、空间和时间瓶颈,为Physical AI领域提供大规模神经仿真基础设施。从方块世界到机械臂的迁移已表明该框架不仅是针对特定场景的专项方案。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。