天工AI SkyReels-V4登顶全球视频榜:从“生成片段”迈向“工业化生产”
天工AI发布的SkyReels-V4模型在Artificial Analysis文转视频(含音频)榜单中超越Veo 3.1和Sora 2,跃居全球第一。该版本通过全模态强化学习体系升级和新增关键帧/网格参考功能,显著提升了视频生成的逻辑连贯性与可控性。这一突破标志着视频生成技术正从随机生成片段向可拆解、可设计的工业化内容生产流程转变,并已在短剧等商业化场景中验证闭环能力。
事件概述
天工AI推出的视频模型 SkyReels-V4 已正式登顶 Artificial Analysis 文转视频(含音频)全球排行榜,超越了此前领先的 Veo 3.1 和 Sora 2。该模型仅用一个月时间便从预览版(Preview)的全球第2名跃升至榜首,实现了整体能力的显著跃升。
核心升级与技术细节
SkyReels-V4 的进化主要体现在两大核心维度,旨在解决视频生成中“逻辑不通”与“不可控”的痛点:
1. 全模态强化学习体系全面升级
为解决视频前后情绪不连贯、动作跳跃等逻辑问题,天工AI采取了以下策略:
- 全模态语义 Reward 模型:建立全局评判标准,不仅评估单帧质量,更关注整段视频的合理性。
- 阶梯式课程强化学习:采用由简入繁的训练路径,从5秒静物到10秒行走,再到15秒复杂剧情,逐步提升模型对分辨率、时长及任务复杂度的掌握能力。
- 效果验证:在测试案例《龙虾军团占领你的电脑》中,模型成功生成了包含分镜切换、音效配合及复杂情节(如机械龙虾撬开机箱、芯片城市景观)的15秒电影级(1080p)视频,画面衔接自然且音画同步。
2. 新增关键帧参考与网格参考能力
为增强用户对生成过程的控制力,SkyReels-V4 引入了两项新功能:
- 关键帧参考(Keyframe Reference):支持上传多张关键帧图片,模型自动补全中间画面。此功能侧重于理解图片间的时序关系,确保剧情节奏和动作连贯。
- 网格参考(Grid Reference):专为短剧场景设计,允许用户上传至多9张剧情关键帧。模型能稳定提取并保留角色特征与场景风格,生成逻辑完整、角色全程连贯的叙事视频。此功能侧重于锁定角色一致性和视觉风格。
架构优势与工业化落地
SkyReels-V4 并非单一能力的堆叠,而是基于天工AI构建的“原生多模态”基础设施:
- 自研对称双流 MMDiT 架构:底层将音、视频统一处理,实现音画同步生成。
- 全模态参考框架:统一文本、图像、视频、音频及遮罩等多种输入形式,大幅降低工程复杂度。
商业化应用验证:
该模型的能力已应用于天工AI旗下的海外付费短剧平台 DramaWave(月活超8000万)。短剧场景因其高频、标准化及流水线化的生产需求,成为 AI 视频工业化的最佳试验场。SkyReels-V4 使得从剧本、分镜到画面生成的全流程可被标准化处理和批量产出,标志着视频生成正式迈入“生产级”阶段。
后续展望
据相关信息,SkyReels-V4 预计将在中关村论坛年会期间正式发布。天工AI正持续完善从底层技术、模型到产品商业化的完整闭环,未来该生产方式有望复用于游戏过场动画、音乐视频等更广泛的内容生态领域。
