计算所与上交大提出 MultiAnimate：仅用双人数据实现多人动画生成

2026/03/18 15:06阅读量 28

中国科学院计算技术研究所与上海交通大学团队提出 MultiAnimate 框架，通过身份编码与空间关系建模，解决了多人物动画生成中的身份混淆与交互错位难题。该模型在训练阶段仅需双人舞蹈数据，即可在推理阶段泛化至三人甚至七人场景，显著提升了生成稳定性与扩展性。实验表明，MultiAnimate 在动作一致性、外观保持及空间关系处理上均优于现有主流方法。

事件概述

针对人物动画生成中从单人向多人扩展时面临的身份混淆、动作错位及空间关系混乱等挑战，中国科学院计算技术研究所与上海交通大学联合提出 MultiAnimate（Pose-Guided Image Animation Made Extensible）框架。该方法通过引入独特的身份标识机制与基于掩码的空间关系建模，实现了仅利用双人数据进行训练，即可在推理阶段稳定生成三人乃至更多人物互动的连续动画。

核心创新与技术路径

1. 关键模块设计

身份标识机制（Identifier Module）：包含 Identifier Assigner 和 Identifier Adapter 模块，为每个角色分配唯一身份标识，有效防止多人在互动或交换位置时出现“换脸”或身份错乱。
基于掩码的空间建模（Mask-driven Design）：利用视频分割技术提取人物追踪掩码，明确区分每一帧中不同人物的像素区域，使模型能够精准理解人物间的遮挡关系与空间布局。

2. 数据策略与训练流程

训练数据构成：
- Swing Dance 数据集：包含约 30 小时的双人舞蹈视频（680 对舞者），涵盖旋转、接触及频繁遮挡场景，用于学习基础互动逻辑。
- Gen-dataset：利用 Wan2.2 模型自动生成的 2079 个视频（含两人或三人场景），用于增强场景多样性与泛化能力。
- TikTok 社交媒体数据：仅作为测试集，包含三至七人的复杂舞蹈场景，不参与训练。
两阶段训练策略：
- 第一阶段：使用 Swing Dance 数据集训练约 40 个周期（7000 步），使模型掌握双人互动，支持最多三人生成。
- 第二阶段：加入 Gen-dataset 进行约 3 个周期（2400 步）的增量训练，提升环境适应能力；同时训练一个扩展版本模型，通过新策略支持最多七人场景。

实验验证与性能表现

跨人数泛化能力：模型在仅使用双人数据训练的情况下，成功在未见过的 TikTok 三人、四人及七人舞蹈视频中保持人物身份一致，正确生成了复杂的多人空间交互。
对比优势：在与 UniAnimate-DiT、MimicMotion、DisPose 及 VACE 等现有方法的对比中，MultiAnimate 在以下指标表现更优：
- 身份稳定性：避免了衣物颜色突变、角色互换等常见错误。
- 遮挡处理：在人物相互遮挡时能准确生成被遮挡部位，无肢体异常。
- 时空连续性：背景质量更高，动作序列更流畅自然。
消融实验结论：移除身份标识模块会导致多人场景下的身份交换；移除掩码驱动设计则引发空间关系错误，证实了这两项设计的必要性。

研究意义

该研究突破了传统多人动画模型需按固定人数收集数据并重新训练的瓶颈，证明了少量双人数据足以支撑高扩展性的多人互动生成，大幅降低了多角色视频生成的数据获取成本与训练难度。

阅读原文详情