生数科技发布 Vidu S1 实时交互模型,视频生成进入“持续互动”时代

2026/07/03 20:48阅读量 3

7月3日,生数科技在2026全球数字经济大会上发布Vidu S1实时交互模型。该模型支持实时视频通话、语音控制数字人行为及无限时长连续互动,采用自回归扩散模型与推理优化技术,在消费级显卡上即可实现540P分辨率、25FPS(最高42FPS)的实时生成。用户只需上传一张图片即可创建交互角色,无需建模与训练,大幅降低了实时数字角色的创建门槛。

事件概述

2026年7月3日,生数科技在2026全球数字经济大会人工智能融合应用发展论坛上正式发布新一代模型——Vidu S1实时交互模型。该模型旨在推动视频生成从离线内容生产向实时交互演进,提供可语音控制、无限时长持续互动的视频生成能力。

核心能力

  • 实时视频通话与语音控制:Vidu S1支持用户通过语音指令实时控制数字人的表情、动作、手势及全身动作,数字人不仅能同步口型,还能理解语义、意图与情绪,实现从“语音驱动口型”到“语音控制行为”的升级。
  • 无限时长连续生成:采用自回归扩散模型(AR+Diffusion)路线,模型基于历史画面及当前语音指令持续预测生成后续内容,可连续生成数小时且画面保持稳定,不漂移不崩坏。
  • 自定义角色创建:无需离线建模与训练,只需上传一张初始图片(真人、动漫、萌宠等任意形象),配合自定义音色,即可快速创建可实时交互的生成式角色。
  • 实时生成画质:在消费级显卡上即可实现540P(960×540)高清分辨率、25FPS(最高支持42FPS)的实时视频生成。这得益于TurboDiffusion推理加速框架、低比特注意力SageAttention、稀疏注意力SLA及SpargeAttention等优化技术,以及TurboServe推理部署引擎的协同调度。

值得关注

Vidu S1将视频大模型的能力边界从“生成一段内容”拓展至“持续进行互动”。模型已在线上(vidu.cn/vidu-stream)、API平台及移动端App(Vidu AI Pro)开放内测。该模型可应用于AI情感陪伴、虚拟偶像、互动直播、游戏NPC、智能客服、在线教育及XR等场景,推动数字角色从一次性内容资产转变为长期在线、持续互动的智能入口。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。