中间表示:打通多模态鸿沟的“第三语言”——CVPR 2026 四篇论文解析
2026/05/22 11:45阅读量 2
清华大学智能产业研究院赵昊团队在 CVPR 2026 发表四篇论文,共同提出“中间表示”作为跨模态桥接的核心设计哲学。四篇工作分别从动作→视频、图像→4D重建、视频预测、异构灵巧手策略迁移四个方向验证:引入合适的中间表示(Occupancy、Gaussian Map、级联Pose-Appearance-Motion、FAAS),比强迫模型直接端到端映射更有效,在生成质量、泛化能力、计算效率上均显著优于基线方法。
事件概述
清华大学智能产业研究院赵昊团队在 CVPR 2026 发表四篇论文,围绕同一设计哲学:当两种模态(如动作与视频、图像与4D场景)之间存在巨大鸿沟时,不直接强迫模型学会端到端映射,而是为它们找到一种“第三语言”——中间表示。四篇论文分别从机器人视频生成、无位姿动态场景重建、视频预测、异构灵巧手策略统一四个角度验证了该假设的有效性。
核心信息
1. ORV:Occupancy 作为动作→视频的中间表示
- 问题:机器人通过观看人类视频学习技能时,动作空间(低维连续向量)与像素空间(高维离散网格)之间存在巨大表征鸿沟。
- 解法:在动作和像素之间插入 4D Occupancy 作为中间表示。动作先转换为 4D Occupancy 序列,再从 Occupancy 渲染成视频帧。
- 关键结果:在标准机器人视频生成 benchmark 上,FVD(Fréchet Video Distance)比最强端到端基线降低 18.8%;生成的视频用于训练真实机器人策略,成功率提升 6.4%。Occupancy 空间推理天然支持多视角一致性,并可在仿真中训练、零样本迁移到真实场景。
2. DGGT:Gaussian Map 作为图像→4D场景的中间表示
- 问题:传统 4D 重建需要已知相机位姿,位姿估计误差会传导至重建结果。
- 解法:提出端到端框架,输入无关联图像(单目视频/多视角/无序集合),输出场景的 4D Gaussian Map 以及每张图像的相机位姿。Gaussian Map 作为与位姿解耦的显式 3D 表示,通过“渲染→比较→调整”的迭代优化实现位姿推断与场景重建耦合。
- 关键结果:首个真正实现无位姿 4D 重建的方法;在 Waymo 训练后零样本迁移到 nuScenes,LPIPS 降低 61.4%;前向传播仅需 0.4 秒;引入“Lifespan Head”预测每个 Gaussian 的生命周期,去掉该模块 PSNR 下降 3.2 dB。
3. PAM:Pose→Appearance→Motion 三级级联中间表示
- 问题:视频预测(给定起始帧和动作生成未来帧)涉及几何、外观、时序因素的耦合,端到端方法计算成本高、可控性差。
- 解法:三级级联“翻译链”——第一级预测姿态(空间位置变化)、第二级将外观迁移至各姿态、第三级精细化运动细节(阴影、遮挡等)。
- 关键结果:生成分辨率从 256×256 提升到 480×720(像素量 3.3–4.5 倍);FVD 相比最强基线降低约 25%(38.83→29.13);机器人抓取任务中,50% 真实数据 + 50% PAM 合成数据训练达到 100% 真实数据水平,标志着合成数据可用性跨过临界点;支持零真实首帧依赖,可从文字描述或语义布局直接生成视频。
4. UniDex:FAAS 统一动作空间作为异构灵巧手的中间表示
- 问题:不同灵巧手(自由度 6–24)的关节语言完全不同,导致策略无法跨硬件迁移,数据难以复用。
- 解法:设计 FAAS(Function-Actuator-Aligned Space),用高层语义功能基元(如 pinch、wrap)统一描述动作,将异构硬件投影到同一空间;策略在 FAAS 上训练,执行时再转换为具体硬件关节角度。
- 关键结果:在一个灵巧手上训练的策略可直接零样本迁移到 8 种不同灵巧手(6–24 自由度),无需微调;构建包含 50K+ 轨迹的大规模灵巧操作数据集;多阶段工具使用任务完成率达 81%。
值得关注的通用设计模式
四篇论文共同指向一个具有普适性的原则:当多模态鸿沟过大时,不是通过扩大模型或增加数据强行跨越,而是寻找合适的中间表示将复杂映射分解为几步更简单的映射。ORV 用 Occupancy,DGGT 用 Gaussian Map,PAM 用三级级联表示,UniDex 用 FAAS。每种中间表示都实现了“鸿沟变窄”,并在下游任务中带来显著提升。对多模态 AI 研究者而言,优先思考“是否存在一种中间表示”可能比直接端到端训练更高效。
