天工AI SkyReels-V4登顶全球视频榜：从“生成片段”迈向“工业化生产”

2026/03/19 14:55阅读量 54

天工AI发布的SkyReels-V4模型在Artificial Analysis文转视频（含音频）榜单中超越Veo 3.1和Sora 2，跃居全球第一。该版本通过全模态强化学习体系升级和新增关键帧/网格参考功能，显著提升了视频生成的逻辑连贯性与可控性。这一突破标志着视频生成技术正从随机生成片段向可拆解、可设计的工业化内容生产流程转变，并已在短剧等商业化场景中验证闭环能力。

事件概述

天工AI推出的视频模型 SkyReels-V4 已正式登顶 Artificial Analysis 文转视频（含音频）全球排行榜，超越了此前领先的 Veo 3.1 和 Sora 2。该模型仅用一个月时间便从预览版（Preview）的全球第2名跃升至榜首，实现了整体能力的显著跃升。

核心升级与技术细节

SkyReels-V4 的进化主要体现在两大核心维度，旨在解决视频生成中“逻辑不通”与“不可控”的痛点：

1. 全模态强化学习体系全面升级

为解决视频前后情绪不连贯、动作跳跃等逻辑问题，天工AI采取了以下策略：

全模态语义 Reward 模型：建立全局评判标准，不仅评估单帧质量，更关注整段视频的合理性。
阶梯式课程强化学习：采用由简入繁的训练路径，从5秒静物到10秒行走，再到15秒复杂剧情，逐步提升模型对分辨率、时长及任务复杂度的掌握能力。
效果验证：在测试案例《龙虾军团占领你的电脑》中，模型成功生成了包含分镜切换、音效配合及复杂情节（如机械龙虾撬开机箱、芯片城市景观）的15秒电影级（1080p）视频，画面衔接自然且音画同步。

2. 新增关键帧参考与网格参考能力

为增强用户对生成过程的控制力，SkyReels-V4 引入了两项新功能：

关键帧参考（Keyframe Reference）：支持上传多张关键帧图片，模型自动补全中间画面。此功能侧重于理解图片间的时序关系，确保剧情节奏和动作连贯。
网格参考（Grid Reference）：专为短剧场景设计，允许用户上传至多9张剧情关键帧。模型能稳定提取并保留角色特征与场景风格，生成逻辑完整、角色全程连贯的叙事视频。此功能侧重于锁定角色一致性和视觉风格。

架构优势与工业化落地

SkyReels-V4 并非单一能力的堆叠，而是基于天工AI构建的“原生多模态”基础设施：

自研对称双流 MMDiT 架构：底层将音、视频统一处理，实现音画同步生成。
全模态参考框架：统一文本、图像、视频、音频及遮罩等多种输入形式，大幅降低工程复杂度。

商业化应用验证：
该模型的能力已应用于天工AI旗下的海外付费短剧平台 DramaWave（月活超8000万）。短剧场景因其高频、标准化及流水线化的生产需求，成为 AI 视频工业化的最佳试验场。SkyReels-V4 使得从剧本、分镜到画面生成的全流程可被标准化处理和批量产出，标志着视频生成正式迈入“生产级”阶段。

后续展望

据相关信息，SkyReels-V4 预计将在中关村论坛年会期间正式发布。天工AI正持续完善从底层技术、模型到产品商业化的完整闭环，未来该生产方式有望复用于游戏过场动画、音乐视频等更广泛的内容生态领域。

阅读原文详情