京东开源长视频框架JoyAI-Echo：5分钟高一致性不翻车，进入全球第一梯队

2026/06/07 09:13阅读量 2

京东开源了长音视频生成框架JoyAI-Echo，解决了长视频生成中角色一致性、音色稳定性、生成速度慢及画质低等核心痛点。该框架通过跨模态音视频记忆库、记忆驱动后训练（含DMD技术带来7.5倍提速）以及轻量化实时超分模块，实现了5分钟高一致、低延迟的高清输出。Director Agent支持对话式编辑和局部重生成。评测显示用户偏好领先（59.4%~81.7%），已杀入全球第一梯队。

事件概述

京东开源的长音视频生成框架 JoyAI-Echo 正式发布，直指长视频生成中角色“变脸”、音色漂移、生成延迟和画质不足等长期难题。该框架通过跨模态记忆、后训练加速与实时超分，实现 5 分钟级别高一致、快速、高清的视频生成，并配备 Director Agent 实现对话式编辑，号称已进入全球第一梯队。

核心信息

跨模态音视频记忆库：将角色视觉与声音特征绑定存储，在长序列生成中持续调用，避免早期信息被稀释，确保 5 分钟视频内角色形象与音色高度一致。
记忆驱动后训练与DMD加速：采用 SFT、人类反馈强化学习与分布匹配蒸馏（DMD）三阶段后训练。仅 DMD 优化即带来约 7.5 倍的推理速度提升，将大模型能力压缩至轻量学生模型。
轻量化实时超分：生成 720P 视频与音频后，通过一次前向推理完成 1K/2K 超分，无需离线二次处理，不显著增加延迟。
Director Agent 智能导演：支持自然语言规划剧本、分镜、角色与场景；自动检测并定位问题镜头，仅对受影响部分进行重生成，保持整体连贯。
性能与评测：用户盲测中，JoyAI-Echo 在长视频画面偏好达 63.6%，音频质量偏好 81.7%，提示词遵循 80.6%，IP 一致性偏好 59.4%。在人像短视频对比中也获视觉美学偏好 58.8%（对比 26.5%）。
开源与定位：代码已发布至 GitHub（jd-opensource/JoyAI-Echo），项目主页同步上线。标志着京东在长视频生成领域进入全球第一梯队，推动 AI 长视频从技术展示向生产工具演进。

值得关注

长视频一致性、多模态记忆与实时交互能力的结合，使 AI 视频生成朝着实际生产场景迈出关键一步。开源策略可能加速社区验证与迭代，尤其在虚拟 IP、数字人、营销短剧、教育课件等领域应用前景广阔。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？