虎牙发布VAM 1.0实时多模态数字人模型，单张照片即可生成24小时直播AI主播

2026/06/30 13:53阅读量 20

虎牙推出基于DiT架构的VAM 1.0实时多模态数字人基础模型，输入一张照片即可生成支持24小时实时互动的AI数字人。该模型在480×832分辨率下以28帧流式输出，首帧延迟约1.3秒，每片段生成仅0.77秒，可连续运行24小时以上。技术层面解决了数字人长期运行漂移、实时交互响应和规模化部署三大行业难题，已实现聊天、唱歌跳舞、游戏互动、弹幕直播等场景应用。

事件概述

虎牙发布实时多模态数字人基础模型 VAM 1.0（Vivid Avatar Model），基于 DiT 架构。用户只需提供一张照片，即可生成一个能实时说话、聆听、唱歌跳舞的 AI 数字人，并支持 24 小时不间断直播互动。

核心能力与指标

实时流式输出：分辨率 480×832，帧率 28 FPS，可连续运行 24 小时以上。
低延迟：首帧延迟约 1.3 秒，后续每生成一个片段延迟仅 0.77 秒。
多种交互功能：支持文字和语音双链路输入；可实现即时打断、自然接话；覆盖静默、聆听、说话三种状态（全状态拟人交互仿真）。
应用场景：才艺直播（唱歌跳舞）、游戏互动（塔罗、狼人杀等）、弹幕直播、新闻播报、直播带货等。

技术突破：攻克行业三堵墙

时间墙（长期稳定性）：通过三阶段训练解决累积误差。第一阶段用多张参考图和运动帧锚定人物形象，引入运动控制模块和音频自适应注入，并在训练中模拟画面劣化场景；第二阶段采用 DPO 偏好优化算法平衡嘴型、表情、动作多个目标；第三阶段通过模型蒸馏（20 步→4 步）压缩计算，并结合全局/局部特征对照和自纠错机制，保证画面质量不降。
交互墙（实时双向对话）：模型原生覆盖静默、聆听、说话三种状态，支持全双工即时打断和自然过渡。弹幕与语音双链路并行，实现类人的动态交互。
部署墙（规模化上线）：全链路工程优化，包括编译加速、注意力计算优化、VAE 解码加速、多量化策略覆盖全网络层。在 8 块 H200 GPU 集群上达到 36.4 FPS 推理速度，推理延迟和真实感、身份保持、同步精度、动作自然度等指标均优于多个学术前沿方法，且计算开销更低。

背景与意义

虎牙自 2019 年推出 AI 数字人“晚玉”和 HERO 开放平台，2025 年上线 AI 电竞智能体“虎小Ai”，并在自制赛事中应用。VAM 1.0 将此前分散布局整合为统一技术基座，从“给直播加 AI 功能”转向“用 AI 做直播本身”。虎牙拥有弹幕互动、语音连麦、礼物打赏等现成直播交互基础设施，场景反向倒逼技术适配，使其在数字人实时交互领域形成独特优势。

阅读原文详情

事件概述

核心能力与指标

技术突破：攻克行业三堵墙

背景与意义

准备好启动您的定制项目了吗？