虎牙发布VAM 1.0实时多模态数字人模型,单张照片即可生成24小时直播AI主播

2026/06/30 13:53阅读量 20

虎牙推出基于DiT架构的VAM 1.0实时多模态数字人基础模型,输入一张照片即可生成支持24小时实时互动的AI数字人。该模型在480×832分辨率下以28帧流式输出,首帧延迟约1.3秒,每片段生成仅0.77秒,可连续运行24小时以上。技术层面解决了数字人长期运行漂移、实时交互响应和规模化部署三大行业难题,已实现聊天、唱歌跳舞、游戏互动、弹幕直播等场景应用。

事件概述

虎牙发布实时多模态数字人基础模型 VAM 1.0(Vivid Avatar Model),基于 DiT 架构。用户只需提供一张照片,即可生成一个能实时说话、聆听、唱歌跳舞的 AI 数字人,并支持 24 小时不间断直播互动。

核心能力与指标

  • 实时流式输出:分辨率 480×832,帧率 28 FPS,可连续运行 24 小时以上。
  • 低延迟:首帧延迟约 1.3 秒,后续每生成一个片段延迟仅 0.77 秒。
  • 多种交互功能:支持文字和语音双链路输入;可实现即时打断、自然接话;覆盖静默、聆听、说话三种状态(全状态拟人交互仿真)。
  • 应用场景:才艺直播(唱歌跳舞)、游戏互动(塔罗、狼人杀等)、弹幕直播、新闻播报、直播带货等。

技术突破:攻克行业三堵墙

  1. 时间墙(长期稳定性):通过三阶段训练解决累积误差。第一阶段用多张参考图和运动帧锚定人物形象,引入运动控制模块和音频自适应注入,并在训练中模拟画面劣化场景;第二阶段采用 DPO 偏好优化算法平衡嘴型、表情、动作多个目标;第三阶段通过模型蒸馏(20 步→4 步)压缩计算,并结合全局/局部特征对照和自纠错机制,保证画面质量不降。

  2. 交互墙(实时双向对话):模型原生覆盖静默、聆听、说话三种状态,支持全双工即时打断和自然过渡。弹幕与语音双链路并行,实现类人的动态交互。

  3. 部署墙(规模化上线):全链路工程优化,包括编译加速、注意力计算优化、VAE 解码加速、多量化策略覆盖全网络层。在 8 块 H200 GPU 集群上达到 36.4 FPS 推理速度,推理延迟和真实感、身份保持、同步精度、动作自然度等指标均优于多个学术前沿方法,且计算开销更低。

背景与意义

虎牙自 2019 年推出 AI 数字人“晚玉”和 HERO 开放平台,2025 年上线 AI 电竞智能体“虎小Ai”,并在自制赛事中应用。VAM 1.0 将此前分散布局整合为统一技术基座,从“给直播加 AI 功能”转向“用 AI 做直播本身”。虎牙拥有弹幕互动、语音连麦、礼物打赏等现成直播交互基础设施,场景反向倒逼技术适配,使其在数字人实时交互领域形成独特优势。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。