阿里开源通义万相Wan2.2

阿里开源电影级视频生成模型通义万相Wan2.2

7月28日晚间，阿里巴巴旗下阿里云正式开源电影级视频生成模型「通义万相Wan2.2」，引发AI领域广泛关注。此次开源涵盖三款核心模型，分别为文生视频模型（Wan2.2-T2V-A14B）、图生视频模型（Wan2.2-I2V-A14B）及统一视频生成模型（Wan2.2-TI2V-5B），其中前两者为业界首个采用MoE架构的视频生成模型，进一步推动AI视频创作从专业领域走向大众化。

技术突破：MoE架构与电影美学控制系统

通义万相Wan2.2在技术上实现多重创新：

MoE架构优化效率：文生/图生模型总参数量达27B，激活参数仅14B，通过「高噪声专家模型+低噪专家模型」双专家分工，分别负责视频整体布局与细节完善，在同参数规模下节省约50%计算资源，解决长视频生成的算力瓶颈。
电影级美学控制：首创「电影美学控制系统」，集成光影、色彩、构图、镜头角度等60+可控参数，用户输入关键词即可精准调控画面风格。例如，「雨夜、逆光、蓝绿色调」可生成情绪张力的都市夜景，「清晨、暖光、浅景深」则呈现温情家庭场景，实现从「猜画面」到「懂创作」的跨越。
高压缩3D VAE技术：5B小模型采用4×16×16时空压缩比，信息压缩率提升4倍，仅需22G显存（单张消费级显卡如RTX 4090）即可在数分钟内生成5秒720P高清视频，普通用户也能体验云端级效果。

模型能力与应用场景

Wan2.2单次可生成5秒高清视频，支持多轮提示词迭代优化，满足短剧制作、广告创意、影视分镜等场景需求。例如，输入《星际穿越》经典场景描述，模型可精准还原宇航员在米勒星球的画面质感；输入「黑人女性在黄昏地铁中静止画面」，能生成符合现实主义风格的文艺视频。未来，团队计划进一步延长单次生成时长，拓展更长叙事场景。

开源渠道与生态支持

三款模型已全面开放，开发者可通过以下渠道获取：

GitHub：https://github.com/Wan-Video/Wan2.2
HuggingFace：https://huggingface.co/Wan-AI
魔搭社区：https://modelscope.cn/organization/Wan-AI
企业API：阿里云百炼平台
用户体验：通义万相官网及通义APP

此外，模型兼容FP8量化、LoRA训练、ComfyUI及Diffusers生态，支持开发者快速集成与二次开发，降低AI视频创作门槛。

行业意义

作为阿里继Qwen2大模型后又一重磅开源成果，通义万相Wan2.2不仅推动视频生成技术向「电影级」「实用化」迈进，更通过开源生态吸引全球开发者参与优化。自2025年2月以来，通义万相系列模型已累计下载超500万次，此次Wan2.2的发布将进一步加速AI视频创作的普及，为影视、广告、教育等行业注入新活力。

技术突破：MoE架构与电影美学控制系统

模型能力与应用场景

开源渠道与生态支持

行业意义

准备好启动您的定制项目了吗？