智源大会聚焦世界模型:昆仑万维天工AI推出Matrix-Game 3.5,提出状态-动作联合生成新框架
2026/06/15 11:24阅读量 5
在2026年第8届智源大会上,昆仑万维Skywork首席科学家刘扬发布了Matrix-Game 3.5的技术突破,提出世界模型应实现状态理解与动作生成的联合训练,而非仅预测下一帧。该版本从游戏场景扩展至真实场景,支持多风格动态切换、NPC交互及长时记忆升级,计划2026年7月正式发布。同时,团队构建了自动化数据引擎,已产出500万+视频切片与10000+训练小时。
事件概述
2026年6月12日至13日,第8届智源大会在北京举行。昆仑万维旗下Skywork首席科学家刘扬在世界模型分论坛发表演讲,首次系统披露Matrix-Game 3.5的核心技术突破,并提出了“状态-动作联合生成”的世界模型全新框架。
核心信息
- 世界模型定义升级:刘扬指出,当前行业内对“世界模型”定义混乱。他提出完整框架应包含:理解当下状态(包括物体级别物理属性)、预测下一个状态、将预测结果渲染呈现。更深层的结论是:状态的预测与动作的生成应当联合训练,而非分而治之。统一框架可根据应用场景侧重输出状态(用于交互模拟器)或输出动作(用于机器人控制)。
- Matrix-Game发展历程:
- 1.0(2025.3):最早公开的可交互世界模型之一。
- 2.0(2025.8):业界首个分钟级实时长序列交互世界模型,单卡B100、720P@25FPS,并开源。纽约大学谢赛宁团队基于此发布了全球首个多人视频世界模型Solaris。
- 3.0(2026.3):5B参数蒸馏模型实现720P@40FPS实时生成,补齐了记忆、长时程、实时性三大短板。
- 3.5:本次公布,最大变化是从游戏场景向真实场景全面扩展,支持多风格动态切换、指令控制及NPC交互,并全新升级长时记忆能力。
- 关键技术改进:
- 控制参数注入方式:此前使用额外参数(鼠标通过Self-Attention、键盘通过Cross-Attention注入),会破坏原始视频分布。3.5版本采用PRoPE(Projective Position Encoding) 机制,通过相机投影矩阵让模型直接感知相机相对位姿,降低分布破坏并增强泛化能力。
- 记忆检索方式:早期原样存储历史帧并检索拼接,占用上下文窗口且易冲突。3.5版本将历史帧切分为三维空间块(spatial tokens),按空间位置匹配后重组为当前视角记忆图,画面一致性更高、轨迹更稳定,且记忆可灵活更新替换。
- 数据引擎:针对人工采集成本高、效率低的问题,团队构建三条自动化数据管线(基于Unreal Engine 5自主探索、跨游戏自动化控制、开放平台视频挖掘),已产出500万+高质量视频切片、1万+有效训练小时数、1200+覆盖游戏场景数,输出Video+Pose+Action+Language高质量训练数据。
- 关键挑战与解决:
- 动作信号与视觉画面缺乏一一对应:同一视觉变化可能由多种操作导致,需主动构建数据场景明确物理规则。
- 模型理解动作指令但不理解物理后果(如穿墙):需手工构建边界场景注入物理知识。
- 注入控制参数破坏原始分布:通过PRoPE解决。
- 记忆检索方式限制长时程一致性:通过空间tokens匹配解决。
- 发布计划:Matrix-Game 3.5计划于2026年7月正式发布,近期将发布包含更多技术细节的报告。
值得关注
刘扬认为世界模型的终极形态应是“对状态与动作同时理解、同时生成,根据应用场景自由组合”的统一模型。团队目标是从游戏边界跨越到机器人控制与物理世界交互,推动世界模型成为通用人工智能的关键基石。
