京东开源长视频框架JoyAI-Echo:5分钟高一致性不翻车,进入全球第一梯队
2026/06/07 09:13阅读量 2
京东开源了长音视频生成框架JoyAI-Echo,解决了长视频生成中角色一致性、音色稳定性、生成速度慢及画质低等核心痛点。该框架通过跨模态音视频记忆库、记忆驱动后训练(含DMD技术带来7.5倍提速)以及轻量化实时超分模块,实现了5分钟高一致、低延迟的高清输出。Director Agent支持对话式编辑和局部重生成。评测显示用户偏好领先(59.4%~81.7%),已杀入全球第一梯队。
事件概述
京东开源的长音视频生成框架 JoyAI-Echo 正式发布,直指长视频生成中角色“变脸”、音色漂移、生成延迟和画质不足等长期难题。该框架通过跨模态记忆、后训练加速与实时超分,实现 5 分钟级别高一致、快速、高清的视频生成,并配备 Director Agent 实现对话式编辑,号称已进入全球第一梯队。
核心信息
- 跨模态音视频记忆库:将角色视觉与声音特征绑定存储,在长序列生成中持续调用,避免早期信息被稀释,确保 5 分钟视频内角色形象与音色高度一致。
- 记忆驱动后训练与DMD加速:采用 SFT、人类反馈强化学习与分布匹配蒸馏(DMD)三阶段后训练。仅 DMD 优化即带来约 7.5 倍的推理速度提升,将大模型能力压缩至轻量学生模型。
- 轻量化实时超分:生成 720P 视频与音频后,通过一次前向推理完成 1K/2K 超分,无需离线二次处理,不显著增加延迟。
- Director Agent 智能导演:支持自然语言规划剧本、分镜、角色与场景;自动检测并定位问题镜头,仅对受影响部分进行重生成,保持整体连贯。
- 性能与评测:用户盲测中,JoyAI-Echo 在长视频画面偏好达 63.6%,音频质量偏好 81.7%,提示词遵循 80.6%,IP 一致性偏好 59.4%。在人像短视频对比中也获视觉美学偏好 58.8%(对比 26.5%)。
- 开源与定位:代码已发布至 GitHub(jd-opensource/JoyAI-Echo),项目主页同步上线。标志着京东在长视频生成领域进入全球第一梯队,推动 AI 长视频从技术展示向生产工具演进。
值得关注
长视频一致性、多模态记忆与实时交互能力的结合,使 AI 视频生成朝着实际生产场景迈出关键一步。开源策略可能加速社区验证与迭代,尤其在虚拟 IP、数字人、营销短剧、教育课件等领域应用前景广阔。
