蔡浩宇新公司Anuttacon发布LPM 1.0:突破AI视频“无限时长”与实时交互瓶颈

2026/04/14 13:37阅读量 4

米哈游前董事长蔡浩宇在新加坡创立的AGI公司Anuttacon发布了最新模型LPM 1.0,该模型通过在线流式生成架构实现了长达45分钟的稳定视频生成,解决了行业长期存在的“表演三难困境”。LPM 1.0首次支持全双工音视频对话,使虚拟角色能根据用户输入产生微表情和自然停顿,从单纯的视频生成进化为具备灵魂的数字生命体。尽管面临高昂算力成本且暂未开源,该模型凭借米哈游在结构化表演数据上的积累,正探索B端虚拟主播、客服及UGC基础设施等商业化路径。

事件概述

卸任米哈游董事长后,蔡浩宇在新加坡创立了新的AGI公司Anuttacon。该公司近期发布了核心模型LPM 1.0(Long-Form Performance Model),标志着AI视频生成技术从关注画面质量的“短视频时代”,迈向了追求长程稳定性与实时交互的“数字生命时代”。

核心技术与突破

1. 突破“表演三难困境”

传统AI视频模型(如Seedance 2.0、Sora等)通常受限于自回归漂移问题,难以同时兼顾表现质量、实时推理和长程稳定性。一旦生成时间拉长,角色面部特征易发生骤变或身份不一致。

  • 无限时长生成:LPM 1.0实现了真正意义上的“无限时长”视频生成,官方Demo演示了长达45分钟的视频内容。
  • 架构创新:采用在线流式生成架构(Online LPM),结合分布匹配蒸馏的四阶段训练方式,将170亿参数的大型扩散模型压缩为“主干-精炼器”结构。主干网络负责稳定轨迹,精炼器还原高保真细节,从而在内存占用恒定的情况下维持近乎永恒的身份一致性。

2. 全双工实时交互

LPM 1.0不再仅仅是单向输出,而是实现了全双工的音视频对话能力:

  • 双路音频处理:同时处理AI输出(驱动口型同步)和用户输入(驱动实时反应)两路音频流。
  • 拟人化微表情:能够捕捉用户的语气和停顿,模拟人类的点头、挑眉等下意识反应,解决虚拟角色“能说但不会听”的痛点。
  • 精细标注数据:模型在训练阶段对倾听行为进行了多达350万次的精细标注,使其学会对话间隙的呼吸、犹豫和停顿。

数据壁垒与“米哈游基因”

Anuttacon的技术路线不同于依赖海量泛娱乐数据的通用平台,而是依托米哈游在游戏开发中积累的结构化“表演逻辑”数据

  • 高精度数据:提供全局外观、多视角图像及8类预定义表情范例,而非简单的无标注视频。
  • 工业级标准:构建了包含78种精细情感和超过5000个动作描述符的高品控数据库,将“人类表演学”进行了数字工业化解构。
  • 体验导向:这种对美感和角色塑造的经验积累,旨在消除“恐怖谷效应”,打造具有电影级质感的沉浸式互动体验。

商业化挑战与路径

1. 商业策略:闭源与垂直深耕

Anuttacon明确表示不开源模型权重和源代码,也不以API形式直接盈利。其逻辑在于将LPM视为一套完整的视觉引擎,掌握稳定、实时、长效生成可交互角色的能力是虚拟世界的核心门票。

2. 成本与落地场景

  • 算力挑战:实时生成480P/720P视频对算力消耗巨大。虽然优化后单GPU约0.35秒可处理1秒视频,但大规模并发下的硬件成本仍是难题。
  • C端验证受阻:旗下游戏《星之低语》虽尝试AI实时交互,但因上下文承接问题和算力成本限制,目前仍处于技术验证阶段。
  • B端潜力:底层能力更倾向于平移至对稳定性要求严苛的B端场景,如虚拟主播、AI导师、智能客服等。相比雇佣真人,LPM驱动的AI角色可实现7x24小时运行并节省动捕设备成本。
  • UGC基础设施:长远来看,若作为UGC平台基础,用户仅需提供一张照片和一段话即可完成表演,有望打破建模和动画的专业门槛,催生全新的互动媒体形式。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。