蔡浩宇的「新引擎」:从 LPM 1.0 看游戏行业的 AI 重构
2026/04/23 19:16阅读量 2
米哈游创始人蔡浩宇创立的 Anuttacon 团队发布论文,展示了名为 LPM 1.0(Large Performance Model)的视频模型,其核心并非传统视频生成,而是专注于虚拟角色的实时交互与表演。该模型通过“语言模型 + 表演模型”的双层架构,旨在解决高表现力、实时推理与长时身份稳定的难题,试图替代传统游戏引擎中预设脚本和动画的流程。这一技术路径标志着行业正从“拍电影”式的视频生成转向构建具备情感理解与即时反应能力的“数字生命”。
事件概述
4 月 9 日,Anuttacon 团队在 arXiv 上发布了关于 LPM 1.0 (Large Performance Model) 的论文。这是一个拥有 170 亿参数的扩散 Transformer 模型,其定位并非通用的视频生成工具,而是一个专门让虚拟角色“活起来”的视觉引擎。该模型由米哈游创始人蔡浩宇领衔的团队开发,被视为下一代游戏引擎架构的关键组成部分。
核心信息
1. 重新定义:从“生成”到“表演”
与传统视频生成模型(如 Sora、Seedance)追求画面质量和多样性不同,LPM 1.0 的核心在于交互中的真实感。
- 全双工对话 (Full-duplex conversation):模型支持“说”与“听”模式的自然切换。当用户说话时,角色能实时做出倾听反应(点头、眨眼、微表情);当角色说话时,则同步生成口型、表情和动作。
- 实时性优先:论文提出了“表演三难困境”,即难以同时兼顾高表现力、实时推理和长时身份稳定。LPM 1.0 将实时性置于与表现力同等重要的位置,确保延迟极低,避免破坏“活着”的感觉。
2. 技术架构:语言模型 + 表演模型
外界常误以为 Anuttacon 仅在做视频生成,实则其核心战略是构建大语言模型 (LLM) 与表演模型的协同系统。
- 大脑与身体分离:LPM 1.0 仅负责视觉呈现(表演层),不做决策。它需要与强大的基座大语言模型(如 ChatGPT、豆包等音频对话模型)即插即用组合,由 LLM 决定“说什么”和“怎么反应”,LPM 负责将其转化为可视化的视频流。
- 技术实现路径:团队采用先训练 17B 参数的 Base LPM 以深入学习表演空间,再蒸馏为低延迟的 Online LPM 用于实时交互。推理阶段设计了 Generator + Refiner 双层渲染管线,交替工作以平衡速度与细节。
3. 行业影响:重构游戏引擎逻辑
蔡浩宇的目标是用 AI 底层替换传统游戏引擎(如 Unity、Unreal)中预设的角色行为流程。
- 去脚本化:传统引擎依赖开发者预设的分支树、动画片段和骨骼权重。新架构下,AI 角色由语言模型驱动思考,由表演模型实时渲染,不再是被动的“提线木偶”。
- 早期验证:Anuttacon 去年发布的 AI 游戏《星之低语》已验证了这一思路,玩家可与 AI 角色 Stella 进行无预设选项的语音/文字对话。LPM 1.0 进一步将这种交互从语音层面提升至视觉层面的实时互动。
值得关注
- 演进方向:论文规划了三个未来方向:时间维度上的记忆与人格持续性、社会维度上的多人互动处理、物理维度上将角色行为锚定到场景物体上。最终目标是走向统一的 Actor Model,一个统一决定角色言行与存在的系统。
- 战略意图:Anuttacon 团队目前不足 40 人,汇聚了前微软亚研院首席研究员童欣、参与过 Llama 3 研究的吴箫剑等专家。刘伟透露,这是米哈游为规避组织惰性、从零开始进行 AI 创新的主动选择。蔡浩宇正致力于打造一个跑在语言、表演和情感之上的“新引擎”,而非简单的像素或多边形渲染器。
- 现状说明:目前 LPM 1.0 仅为研究论文,团队明确表示不会开源模型权重,也不提供 API 或在线 Demo。从研究到产品落地仍有较长路径,且基座语言模型尚未公开基准测试数据。
