阿里张迪回归五个月，开源模型HappyHorse登顶视频生成榜首

2026/04/13 13:02阅读量 159

2026年4月，由前快手可灵团队负责人张迪带领的阿里淘天集团“未来生活实验室”推出开源视频模型HappyHorse-1.0，在Artificial Analysis榜单的文生视频和图生视频赛道同时超越字节、快手等竞品。该模型采用150亿参数的原生多模态架构，解决了音视频同步难题，并通过蒸馏技术将单条视频生成成本控制在商用区间。作为阿里AI战略的核心载体之一，HappyHorse旨在通过电商场景闭环，解决商家内容生产效率与转化痛点。

事件概述

2026年4月，阿里巴巴旗下淘天集团“未来生活实验室”推出的开源视频生成模型 HappyHorse-1.0 在知名评测平台 Artificial Analysis 的榜单中表现突出，同时在“文本转视频”和“图像转视频（无音频）”两个核心赛道位列第一，超越了包括字节跳动 Seedance、快手可灵在内的多家竞争对手。

该项目的核心人物是张迪。他于2025年11月从快手回归阿里巴巴，出任淘天集团未来生活实验室负责人（职级P11），直接向阿里妈妈CTO郑波汇报。从回归到模型上线并登顶，仅耗时约5个月。

核心技术与性能

HappyHorse 之所以能在开源领域击败部分闭源巨头，主要得益于其技术架构与工程优化：

原生多模态架构：模型拥有 150亿参数，采用 40层统一自注意力 Transformer 架构。它将文本、视频、音频三种模态的 Token 放入同一序列进行联合建模。这种设计有效解决了传统非原生多模态模型中常见的“音画不同步”问题（如嘴型对不上声音、动作滞后等）。
多语言支持：原生支持英语、普通话、粤语、日语、韩语、德语、法语等多种语言的唇形同步，词错误率优于同类开源模型。
推理效率与成本：针对商业化落地进行了深度优化。在单张 NVIDIA H100 GPU 上，生成一条5秒1080p视频仅需约 38秒。通过采用 DMD-2 蒸馏技术，将去噪步骤压缩至8步，大幅降低了推理成本和时间，使其能够进入商家日常生产工作流。

商业定位与生态价值

与单纯追求C端体验或影视特效的视频模型不同，HappyHorse 的诞生具有明确的商业导向，旨在服务于阿里的核心电商生态：

电商内容生产升级：针对中小商家拍摄成本高、周期长、场景单一的痛点，HappyHorse 可批量生成主图视频、商品场景短片、直播切片及虚拟主播素材。商家只需提供商品图和卖点，系统即可生成针对不同人群、节日或国家的多版本视频。
数据闭环优势：依托淘天集团的海量交易数据（点击率、加购率、退款原因、搜索词等），HappyHorse 不仅能生成画面，还能基于真实反馈迭代，进化为“帮商家生成更可能卖货的视频”，而非单纯的素材工具。
开源策略意义：阿里选择直接开放可商用的开源版本，既能让开发者社区参与测试与微调，快速暴露问题并改进，也能降低行业准入门槛，构建以阿里云和淘天业务为核心的视频生成底座。

行业背景对比

当前 AI 视频赛道面临多重挑战，HappyHorse 的出现提供了新的解题思路：

OpenAI Sora：因视频生成成本过高且用户留存难以覆盖算力投入，已关停独立应用及相关 API，转向编码、企业服务和机器人方向。
字节跳动 Seedance：虽效果强劲，但因版权争议暂停了全球发布。
HappyHorse 的差异化：利用阿里在商品图、实拍素材和交易反馈上的天然数据优势，避开了影视 IP 版权泥潭，找到了更可控、更具商业确定性的落地场景。

阅读原文详情

事件概述

核心技术与性能

商业定位与生态价值

行业背景对比

准备好启动您的定制项目了吗？