RAM:CVPR 2026 提出的复杂场景多人3D人体运动重建新框架
2026/04/24 14:05阅读量 3
北京理工大学联合华盛顿大学等机构提出 RAM(Recover Any 3D Human Motion)框架,旨在解决复杂场景中多人3D人体运动重建面临的身份关联不稳定、轨迹中断及结果不连续三大挑战。该研究将目标跟踪、时序建模与动作预测整合为统一架构,在 PoseTrack 等数据集上实现了无需额外训练的零样本泛化,显著超越现有方法。论文《RAM: Recover Any 3D Human Motion in-the-Wild》已被计算机视觉顶级会议 CVPR 2026 接收。
事件概述
北京理工大学联合华盛顿大学、安徽大学等研究机构提出了 RAM(Recover Any 3D Human Motion)框架,用于解决真实复杂场景下多人3D人体运动重建的难题。该成果以论文形式被 CVPR 2026(计算机视觉与模式识别会议)接收。
核心挑战
传统方法在处理真实视频时面临三大瓶颈:
- 身份关联不稳定:多人交互中的频繁遮挡和快速运动导致 ID Switch(身份切换),破坏重建一致性。
- 运动轨迹中断:视角变化或极端遮挡造成目标跟踪丢失。
- 重建结果不连续:逐帧处理方式难以维持时间维度上的三维结构稳定性。
技术架构与关键模块
RAM 框架通过四个协同工作的模块实现从“逐帧处理”向“时序建模”的范式转变:
- SegFollow 模块(稳定跟踪):引入基于卡尔曼滤波的运动建模机制,将运动一致性信息融入目标关联过程。不再过度依赖外观特征,即使在严重遮挡或外观剧变下也能维持稳定的身份跟踪,降低 ID Switch 发生率。
- T-HMR 模块(时序三维重建):基于时间记忆机制,利用 Transformer 结构从邻近帧筛选关键特征并进行跨时间融合。当当前帧信息缺失或含噪时,借助历史上下文生成平滑且一致的3D人体结构。
- 动作预测模块:基于历史运动序列建模并预测未来姿态。专门针对目标被完全遮挡的极端情况,在无观测信息时依靠预测结果维持序列连续性。
- 自适应融合模块:动态调整当前帧重建结果与预测结果的权重。遮挡严重时依赖预测,观测清晰时依赖重建,以实现最优融合。
实验表现与亮点
- 统一框架:首次将目标跟踪、时序三维重建与动作预测整合,打破传统串行流水线壁垒,充分利用跨帧时序信息。
- 零样本泛化能力:在 PoseTrack 等国际主流复杂场景数据集上,RAM 无需针对特定数据集进行额外训练(Zero-shot),在身份一致性、跟踪稳定性及三维重建精度上均显著超越现有方法。
- 仿人认知设计:通过引入时间记忆与动作预测,使模型更接近人类在视线受阻时凭记忆预判位置与姿态的认知过程。
