阿里千问APP上线Wan2.7模型:全能演技派重塑AI视频创作
2026/04/03 20:54阅读量 2
阿里在千问APP中上线了最新的多模态模型Wan2.7,显著增强了视频生成、图像编辑及动作模仿能力。实测显示该模型在人物表情还原、光影控制及长文本渲染上表现优异,并在人类偏好盲测中位列国内生成模型第一。这一发布标志着AI内容生成正加速向移动端下沉,推动技术普惠与创作者工作流的深度融合。
事件概述
阿里于4月3日在千问APP中正式推出全能多模态模型 Wan2.7(含 Wan2.7-Image 与视频生成模块),实现了从文本到视频、从静态图到动态内容的史诗级增强。该更新旨在降低专业视频创作门槛,让用户通过单一应用即可完成复杂的内容生产。
核心功能与技术亮点
1. 视频生成与编辑能力升级
- 高保真视频生成:支持根据提示词生成包含生动人物表情、流畅镜头衔接的视频。在群像塑造上实现“千人千面”,并自动匹配人声音效。
- 图生视频与音频驱动:可基于单张图片配合音频输入,生成如乐器演奏等特定场景的动态视频。
- 视频续写与尾帧控制:允许用户上传原视频及一张尾帧图片,让 AI 无缝衔接剧情或切换角色(如增加新演奏者),保持动作丝滑过渡。
- 局部编辑与替换:支持通过提示词和参考图对视频中的特定主体进行替换(如将胶片替换为盘子),且能精准保留光影反射等细节。
- 动作模仿:提供“视频模仿”功能,可将视频中人物的手势动作迁移至另一张静态图片的人物身上,保持动作逻辑清晰。
2. 图像生成与精细化控制
- “千人千面”定制:用户可自定义五官细节(骨相、眼神、皮肤纹理等)。实测复刻《哈利波特》斯内普教授形象时,连毛孔皱纹等微距细节均清晰可见,优于 Gemini 和 ChatGPT 的同类生成结果。
- 精准调色:支持 HEX/RGB 颜色值精准控制画面主色调,色差控制在合理误差范围内,适用于赛博朋克风格等特定场景设计。
- 超长文本渲染:支持最高 3K tokens 的超长文字输入,可完整渲染一整页 A4 纸的中英双语文字,且无乱码现象。
3. 性能表现与行业对比
- 人类偏好盲测:在内部测试中,Wan2.7-Image 位列国内生成模型第一,超越 GPT Image 1.5,逼近 Nano Banana Pro。
- 一站式工作流:整合了视频编辑、续写、动作模仿及模型 Pro 能力,用户无需跨平台即可快速提炼爆款视频素材。
行业趋势解读
此次更新反映了 AI 内容生成领域的两大趋势:
- 技术普惠与移动端下沉:相比硅谷巨头转向 Agent 和底层推理的战略收缩,中国厂商更注重将高性能模型直接集成至 C 端 APP,打通 AI 到创作者的“最后一公里”。
- 商业化落地加速:依托国内完善的短视频、电商等 C 端场景,阿里通过降低操作难度(如“直给”最强模型),推动 AI 创作像点外卖一样简单,加速 AI 融入创作者工作流。
注:文中提及的链接已去除无关跟踪参数,仅保留必要访问路径。
