蔡浩宇的「新引擎」：从 LPM 1.0 看游戏行业的 AI 重构

2026/04/23 19:16阅读量 2

米哈游创始人蔡浩宇创立的 Anuttacon 团队发布论文，展示了名为 LPM 1.0（Large Performance Model）的视频模型，其核心并非传统视频生成，而是专注于虚拟角色的实时交互与表演。该模型通过“语言模型 + 表演模型”的双层架构，旨在解决高表现力、实时推理与长时身份稳定的难题，试图替代传统游戏引擎中预设脚本和动画的流程。这一技术路径标志着行业正从“拍电影”式的视频生成转向构建具备情感理解与即时反应能力的“数字生命”。

事件概述

4 月 9 日，Anuttacon 团队在 arXiv 上发布了关于 LPM 1.0 (Large Performance Model) 的论文。这是一个拥有 170 亿参数的扩散 Transformer 模型，其定位并非通用的视频生成工具，而是一个专门让虚拟角色“活起来”的视觉引擎。该模型由米哈游创始人蔡浩宇领衔的团队开发，被视为下一代游戏引擎架构的关键组成部分。

核心信息

1. 重新定义：从“生成”到“表演”

与传统视频生成模型（如 Sora、Seedance）追求画面质量和多样性不同，LPM 1.0 的核心在于交互中的真实感。

全双工对话 (Full-duplex conversation)：模型支持“说”与“听”模式的自然切换。当用户说话时，角色能实时做出倾听反应（点头、眨眼、微表情）；当角色说话时，则同步生成口型、表情和动作。
实时性优先：论文提出了“表演三难困境”，即难以同时兼顾高表现力、实时推理和长时身份稳定。LPM 1.0 将实时性置于与表现力同等重要的位置，确保延迟极低，避免破坏“活着”的感觉。

2. 技术架构：语言模型 + 表演模型

外界常误以为 Anuttacon 仅在做视频生成，实则其核心战略是构建大语言模型 (LLM) 与表演模型的协同系统。

大脑与身体分离：LPM 1.0 仅负责视觉呈现（表演层），不做决策。它需要与强大的基座大语言模型（如 ChatGPT、豆包等音频对话模型）即插即用组合，由 LLM 决定“说什么”和“怎么反应”，LPM 负责将其转化为可视化的视频流。
技术实现路径：团队采用先训练 17B 参数的 Base LPM 以深入学习表演空间，再蒸馏为低延迟的 Online LPM 用于实时交互。推理阶段设计了 Generator + Refiner 双层渲染管线，交替工作以平衡速度与细节。

3. 行业影响：重构游戏引擎逻辑

蔡浩宇的目标是用 AI 底层替换传统游戏引擎（如 Unity、Unreal）中预设的角色行为流程。

去脚本化：传统引擎依赖开发者预设的分支树、动画片段和骨骼权重。新架构下，AI 角色由语言模型驱动思考，由表演模型实时渲染，不再是被动的“提线木偶”。
早期验证：Anuttacon 去年发布的 AI 游戏《星之低语》已验证了这一思路，玩家可与 AI 角色 Stella 进行无预设选项的语音/文字对话。LPM 1.0 进一步将这种交互从语音层面提升至视觉层面的实时互动。

值得关注

演进方向：论文规划了三个未来方向：时间维度上的记忆与人格持续性、社会维度上的多人互动处理、物理维度上将角色行为锚定到场景物体上。最终目标是走向统一的 Actor Model，一个统一决定角色言行与存在的系统。
战略意图：Anuttacon 团队目前不足 40 人，汇聚了前微软亚研院首席研究员童欣、参与过 Llama 3 研究的吴箫剑等专家。刘伟透露，这是米哈游为规避组织惰性、从零开始进行 AI 创新的主动选择。蔡浩宇正致力于打造一个跑在语言、表演和情感之上的“新引擎”，而非简单的像素或多边形渲染器。
现状说明：目前 LPM 1.0 仅为研究论文，团队明确表示不会开源模型权重，也不提供 API 或在线 Demo。从研究到产品落地仍有较长路径，且基座语言模型尚未公开基准测试数据。

阅读原文详情