智源大会聚焦世界模型：昆仑万维天工AI推出Matrix-Game 3.5，提出状态-动作联合生成新框架

2026/06/15 11:24阅读量 5

在2026年第8届智源大会上，昆仑万维Skywork首席科学家刘扬发布了Matrix-Game 3.5的技术突破，提出世界模型应实现状态理解与动作生成的联合训练，而非仅预测下一帧。该版本从游戏场景扩展至真实场景，支持多风格动态切换、NPC交互及长时记忆升级，计划2026年7月正式发布。同时，团队构建了自动化数据引擎，已产出500万+视频切片与10000+训练小时。

事件概述

2026年6月12日至13日，第8届智源大会在北京举行。昆仑万维旗下Skywork首席科学家刘扬在世界模型分论坛发表演讲，首次系统披露Matrix-Game 3.5的核心技术突破，并提出了“状态-动作联合生成”的世界模型全新框架。

核心信息

世界模型定义升级：刘扬指出，当前行业内对“世界模型”定义混乱。他提出完整框架应包含：理解当下状态（包括物体级别物理属性）、预测下一个状态、将预测结果渲染呈现。更深层的结论是：状态的预测与动作的生成应当联合训练，而非分而治之。统一框架可根据应用场景侧重输出状态（用于交互模拟器）或输出动作（用于机器人控制）。
Matrix-Game发展历程：
- 1.0（2025.3）：最早公开的可交互世界模型之一。
- 2.0（2025.8）：业界首个分钟级实时长序列交互世界模型，单卡B100、720P@25FPS，并开源。纽约大学谢赛宁团队基于此发布了全球首个多人视频世界模型Solaris。
- 3.0（2026.3）：5B参数蒸馏模型实现720P@40FPS实时生成，补齐了记忆、长时程、实时性三大短板。
- 3.5：本次公布，最大变化是从游戏场景向真实场景全面扩展，支持多风格动态切换、指令控制及NPC交互，并全新升级长时记忆能力。
关键技术改进：
- 控制参数注入方式：此前使用额外参数（鼠标通过Self-Attention、键盘通过Cross-Attention注入），会破坏原始视频分布。3.5版本采用PRoPE（Projective Position Encoding） 机制，通过相机投影矩阵让模型直接感知相机相对位姿，降低分布破坏并增强泛化能力。
- 记忆检索方式：早期原样存储历史帧并检索拼接，占用上下文窗口且易冲突。3.5版本将历史帧切分为三维空间块（spatial tokens），按空间位置匹配后重组为当前视角记忆图，画面一致性更高、轨迹更稳定，且记忆可灵活更新替换。
数据引擎：针对人工采集成本高、效率低的问题，团队构建三条自动化数据管线（基于Unreal Engine 5自主探索、跨游戏自动化控制、开放平台视频挖掘），已产出500万+高质量视频切片、1万+有效训练小时数、1200+覆盖游戏场景数，输出Video+Pose+Action+Language高质量训练数据。
关键挑战与解决：
- 动作信号与视觉画面缺乏一一对应：同一视觉变化可能由多种操作导致，需主动构建数据场景明确物理规则。
- 模型理解动作指令但不理解物理后果（如穿墙）：需手工构建边界场景注入物理知识。
- 注入控制参数破坏原始分布：通过PRoPE解决。
- 记忆检索方式限制长时程一致性：通过空间tokens匹配解决。
发布计划：Matrix-Game 3.5计划于2026年7月正式发布，近期将发布包含更多技术细节的报告。

值得关注

刘扬认为世界模型的终极形态应是“对状态与动作同时理解、同时生成，根据应用场景自由组合”的统一模型。团队目标是从游戏边界跨越到机器人控制与物理世界交互，推动世界模型成为通用人工智能的关键基石。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？