阿里张迪回归五个月,开源模型HappyHorse登顶视频生成榜首
2026/04/13 13:02阅读量 5
2026年4月,由前快手可灵团队负责人张迪带领的阿里淘天集团“未来生活实验室”推出开源视频模型HappyHorse-1.0,在Artificial Analysis榜单的文生视频和图生视频赛道同时超越字节、快手等竞品。该模型采用150亿参数的原生多模态架构,解决了音视频同步难题,并通过蒸馏技术将单条视频生成成本控制在商用区间。作为阿里AI战略的核心载体之一,HappyHorse旨在通过电商场景闭环,解决商家内容生产效率与转化痛点。
事件概述
2026年4月,阿里巴巴旗下淘天集团“未来生活实验室”推出的开源视频生成模型 HappyHorse-1.0 在知名评测平台 Artificial Analysis 的榜单中表现突出,同时在“文本转视频”和“图像转视频(无音频)”两个核心赛道位列第一,超越了包括字节跳动 Seedance、快手可灵在内的多家竞争对手。
该项目的核心人物是 张迪。他于2025年11月从快手回归阿里巴巴,出任淘天集团未来生活实验室负责人(职级P11),直接向阿里妈妈CTO郑波汇报。从回归到模型上线并登顶,仅耗时约5个月。
核心技术与性能
HappyHorse 之所以能在开源领域击败部分闭源巨头,主要得益于其技术架构与工程优化:
- 原生多模态架构:模型拥有 150亿参数,采用 40层统一自注意力 Transformer 架构。它将文本、视频、音频三种模态的 Token 放入同一序列进行联合建模。这种设计有效解决了传统非原生多模态模型中常见的“音画不同步”问题(如嘴型对不上声音、动作滞后等)。
- 多语言支持:原生支持英语、普通话、粤语、日语、韩语、德语、法语等多种语言的唇形同步,词错误率优于同类开源模型。
- 推理效率与成本:针对商业化落地进行了深度优化。在单张 NVIDIA H100 GPU 上,生成一条5秒1080p视频仅需约 38秒。通过采用 DMD-2 蒸馏技术,将去噪步骤压缩至8步,大幅降低了推理成本和时间,使其能够进入商家日常生产工作流。
商业定位与生态价值
与单纯追求C端体验或影视特效的视频模型不同,HappyHorse 的诞生具有明确的商业导向,旨在服务于阿里的核心电商生态:
- 电商内容生产升级:针对中小商家拍摄成本高、周期长、场景单一的痛点,HappyHorse 可批量生成主图视频、商品场景短片、直播切片及虚拟主播素材。商家只需提供商品图和卖点,系统即可生成针对不同人群、节日或国家的多版本视频。
- 数据闭环优势:依托淘天集团的海量交易数据(点击率、加购率、退款原因、搜索词等),HappyHorse 不仅能生成画面,还能基于真实反馈迭代,进化为“帮商家生成更可能卖货的视频”,而非单纯的素材工具。
- 开源策略意义:阿里选择直接开放可商用的开源版本,既能让开发者社区参与测试与微调,快速暴露问题并改进,也能降低行业准入门槛,构建以阿里云和淘天业务为核心的视频生成底座。
行业背景对比
当前 AI 视频赛道面临多重挑战,HappyHorse 的出现提供了新的解题思路:
- OpenAI Sora:因视频生成成本过高且用户留存难以覆盖算力投入,已关停独立应用及相关 API,转向编码、企业服务和机器人方向。
- 字节跳动 Seedance:虽效果强劲,但因版权争议暂停了全球发布。
- HappyHorse 的差异化:利用阿里在商品图、实拍素材和交易反馈上的天然数据优势,避开了影视 IP 版权泥潭,找到了更可控、更具商业确定性的落地场景。
