蔡浩宇新公司Anuttacon发布LPM 1.0：突破AI视频“无限时长”与实时交互瓶颈

2026/04/14 13:37阅读量 139

米哈游前董事长蔡浩宇在新加坡创立的AGI公司Anuttacon发布了最新模型LPM 1.0，该模型通过在线流式生成架构实现了长达45分钟的稳定视频生成，解决了行业长期存在的“表演三难困境”。LPM 1.0首次支持全双工音视频对话，使虚拟角色能根据用户输入产生微表情和自然停顿，从单纯的视频生成进化为具备灵魂的数字生命体。尽管面临高昂算力成本且暂未开源，该模型凭借米哈游在结构化表演数据上的积累，正探索B端虚拟主播、客服及UGC基础设施等商业化路径。

事件概述

卸任米哈游董事长后，蔡浩宇在新加坡创立了新的AGI公司Anuttacon。该公司近期发布了核心模型LPM 1.0（Long-Form Performance Model），标志着AI视频生成技术从关注画面质量的“短视频时代”，迈向了追求长程稳定性与实时交互的“数字生命时代”。

核心技术与突破

1. 突破“表演三难困境”

传统AI视频模型（如Seedance 2.0、Sora等）通常受限于自回归漂移问题，难以同时兼顾表现质量、实时推理和长程稳定性。一旦生成时间拉长，角色面部特征易发生骤变或身份不一致。

无限时长生成：LPM 1.0实现了真正意义上的“无限时长”视频生成，官方Demo演示了长达45分钟的视频内容。
架构创新：采用在线流式生成架构（Online LPM），结合分布匹配蒸馏的四阶段训练方式，将170亿参数的大型扩散模型压缩为“主干-精炼器”结构。主干网络负责稳定轨迹，精炼器还原高保真细节，从而在内存占用恒定的情况下维持近乎永恒的身份一致性。

2. 全双工实时交互

LPM 1.0不再仅仅是单向输出，而是实现了全双工的音视频对话能力：

双路音频处理：同时处理AI输出（驱动口型同步）和用户输入（驱动实时反应）两路音频流。
拟人化微表情：能够捕捉用户的语气和停顿，模拟人类的点头、挑眉等下意识反应，解决虚拟角色“能说但不会听”的痛点。
精细标注数据：模型在训练阶段对倾听行为进行了多达350万次的精细标注，使其学会对话间隙的呼吸、犹豫和停顿。

数据壁垒与“米哈游基因”

Anuttacon的技术路线不同于依赖海量泛娱乐数据的通用平台，而是依托米哈游在游戏开发中积累的结构化“表演逻辑”数据：

高精度数据：提供全局外观、多视角图像及8类预定义表情范例，而非简单的无标注视频。
工业级标准：构建了包含78种精细情感和超过5000个动作描述符的高品控数据库，将“人类表演学”进行了数字工业化解构。
体验导向：这种对美感和角色塑造的经验积累，旨在消除“恐怖谷效应”，打造具有电影级质感的沉浸式互动体验。

商业化挑战与路径

1. 商业策略：闭源与垂直深耕

Anuttacon明确表示不开源模型权重和源代码，也不以API形式直接盈利。其逻辑在于将LPM视为一套完整的视觉引擎，掌握稳定、实时、长效生成可交互角色的能力是虚拟世界的核心门票。

2. 成本与落地场景

算力挑战：实时生成480P/720P视频对算力消耗巨大。虽然优化后单GPU约0.35秒可处理1秒视频，但大规模并发下的硬件成本仍是难题。
C端验证受阻：旗下游戏《星之低语》虽尝试AI实时交互，但因上下文承接问题和算力成本限制，目前仍处于技术验证阶段。
B端潜力：底层能力更倾向于平移至对稳定性要求严苛的B端场景，如虚拟主播、AI导师、智能客服等。相比雇佣真人，LPM驱动的AI角色可实现7x24小时运行并节省动捕设备成本。
UGC基础设施：长远来看，若作为UGC平台基础，用户仅需提供一张照片和一段话即可完成表演，有望打破建模和动画的专业门槛，催生全新的互动媒体形式。

阅读原文详情