行业动态|8/14/2025|28130 views
阿里开源通义万相Wan2.2
FC
火猫网络官方发布 · 认证作者


阿里开源电影级视频生成模型通义万相Wan2.2
7月28日晚间,阿里巴巴旗下阿里云正式开源电影级视频生成模型「通义万相Wan2.2」,引发AI领域广泛关注。此次开源涵盖三款核心模型,分别为文生视频模型(Wan2.2-T2V-A14B)、图生视频模型(Wan2.2-I2V-A14B)及统一视频生成模型(Wan2.2-TI2V-5B),其中前两者为业界首个采用MoE架构的视频生成模型,进一步推动AI视频创作从专业领域走向大众化。
技术突破:MoE架构与电影美学控制系统
通义万相Wan2.2在技术上实现多重创新:
- MoE架构优化效率:文生/图生模型总参数量达27B,激活参数仅14B,通过「高噪声专家模型+低噪专家模型」双专家分工,分别负责视频整体布局与细节完善,在同参数规模下节省约50%计算资源,解决长视频生成的算力瓶颈。
- 电影级美学控制:首创「电影美学控制系统」,集成光影、色彩、构图、镜头角度等60+可控参数,用户输入关键词即可精准调控画面风格。例如,「雨夜、逆光、蓝绿色调」可生成情绪张力的都市夜景,「清晨、暖光、浅景深」则呈现温情家庭场景,实现从「猜画面」到「懂创作」的跨越。
- 高压缩3D VAE技术:5B小模型采用4×16×16时空压缩比,信息压缩率提升4倍,仅需22G显存(单张消费级显卡如RTX 4090)即可在数分钟内生成5秒720P高清视频,普通用户也能体验云端级效果。
模型能力与应用场景
Wan2.2单次可生成5秒高清视频,支持多轮提示词迭代优化,满足短剧制作、广告创意、影视分镜等场景需求。例如,输入《星际穿越》经典场景描述,模型可精准还原宇航员在米勒星球的画面质感;输入「黑人女性在黄昏地铁中静止画面」,能生成符合现实主义风格的文艺视频。未来,团队计划进一步延长单次生成时长,拓展更长叙事场景。
开源渠道与生态支持
三款模型已全面开放,开发者可通过以下渠道获取:
- GitHub:https://github.com/Wan-Video/Wan2.2
- HuggingFace:https://huggingface.co/Wan-AI
- 魔搭社区:https://modelscope.cn/organization/Wan-AI
- 企业API:阿里云百炼平台
- 用户体验:通义万相官网及通义APP
此外,模型兼容FP8量化、LoRA训练、ComfyUI及Diffusers生态,支持开发者快速集成与二次开发,降低AI视频创作门槛。
行业意义
作为阿里继Qwen2大模型后又一重磅开源成果,通义万相Wan2.2不仅推动视频生成技术向「电影级」「实用化」迈进,更通过开源生态吸引全球开发者参与优化。自2025年2月以来,通义万相系列模型已累计下载超500万次,此次Wan2.2的发布将进一步加速AI视频创作的普及,为影视、广告、教育等行业注入新活力。
