中间表示：打通多模态鸿沟的“第三语言”——CVPR 2026 四篇论文解析

2026/05/22 11:45阅读量 2

清华大学智能产业研究院赵昊团队在 CVPR 2026 发表四篇论文，共同提出“中间表示”作为跨模态桥接的核心设计哲学。四篇工作分别从动作→视频、图像→4D重建、视频预测、异构灵巧手策略迁移四个方向验证：引入合适的中间表示（Occupancy、Gaussian Map、级联Pose-Appearance-Motion、FAAS），比强迫模型直接端到端映射更有效，在生成质量、泛化能力、计算效率上均显著优于基线方法。

事件概述

清华大学智能产业研究院赵昊团队在 CVPR 2026 发表四篇论文，围绕同一设计哲学：当两种模态（如动作与视频、图像与4D场景）之间存在巨大鸿沟时，不直接强迫模型学会端到端映射，而是为它们找到一种“第三语言”——中间表示。四篇论文分别从机器人视频生成、无位姿动态场景重建、视频预测、异构灵巧手策略统一四个角度验证了该假设的有效性。

核心信息

1. ORV：Occupancy 作为动作→视频的中间表示

问题：机器人通过观看人类视频学习技能时，动作空间（低维连续向量）与像素空间（高维离散网格）之间存在巨大表征鸿沟。
解法：在动作和像素之间插入 4D Occupancy 作为中间表示。动作先转换为 4D Occupancy 序列，再从 Occupancy 渲染成视频帧。
关键结果：在标准机器人视频生成 benchmark 上，FVD（Fréchet Video Distance）比最强端到端基线降低 18.8%；生成的视频用于训练真实机器人策略，成功率提升 6.4%。Occupancy 空间推理天然支持多视角一致性，并可在仿真中训练、零样本迁移到真实场景。

2. DGGT：Gaussian Map 作为图像→4D场景的中间表示

问题：传统 4D 重建需要已知相机位姿，位姿估计误差会传导至重建结果。
解法：提出端到端框架，输入无关联图像（单目视频/多视角/无序集合），输出场景的 4D Gaussian Map 以及每张图像的相机位姿。Gaussian Map 作为与位姿解耦的显式 3D 表示，通过“渲染→比较→调整”的迭代优化实现位姿推断与场景重建耦合。
关键结果：首个真正实现无位姿 4D 重建的方法；在 Waymo 训练后零样本迁移到 nuScenes，LPIPS 降低 61.4%；前向传播仅需 0.4 秒；引入“Lifespan Head”预测每个 Gaussian 的生命周期，去掉该模块 PSNR 下降 3.2 dB。

3. PAM：Pose→Appearance→Motion 三级级联中间表示

问题：视频预测（给定起始帧和动作生成未来帧）涉及几何、外观、时序因素的耦合，端到端方法计算成本高、可控性差。
解法：三级级联“翻译链”——第一级预测姿态（空间位置变化）、第二级将外观迁移至各姿态、第三级精细化运动细节（阴影、遮挡等）。
关键结果：生成分辨率从 256×256 提升到 480×720（像素量 3.3–4.5 倍）；FVD 相比最强基线降低约 25%（38.83→29.13）；机器人抓取任务中，50% 真实数据 + 50% PAM 合成数据训练达到 100% 真实数据水平，标志着合成数据可用性跨过临界点；支持零真实首帧依赖，可从文字描述或语义布局直接生成视频。

4. UniDex：FAAS 统一动作空间作为异构灵巧手的中间表示

问题：不同灵巧手（自由度 6–24）的关节语言完全不同，导致策略无法跨硬件迁移，数据难以复用。
解法：设计 FAAS（Function-Actuator-Aligned Space），用高层语义功能基元（如 pinch、wrap）统一描述动作，将异构硬件投影到同一空间；策略在 FAAS 上训练，执行时再转换为具体硬件关节角度。
关键结果：在一个灵巧手上训练的策略可直接零样本迁移到 8 种不同灵巧手（6–24 自由度），无需微调；构建包含 50K+ 轨迹的大规模灵巧操作数据集；多阶段工具使用任务完成率达 81%。

值得关注的通用设计模式

四篇论文共同指向一个具有普适性的原则：当多模态鸿沟过大时，不是通过扩大模型或增加数据强行跨越，而是寻找合适的中间表示将复杂映射分解为几步更简单的映射。ORV 用 Occupancy，DGGT 用 Gaussian Map，PAM 用三级级联表示，UniDex 用 FAAS。每种中间表示都实现了“鸿沟变窄”，并在下游任务中带来显著提升。对多模态 AI 研究者而言，优先思考“是否存在一种中间表示”可能比直接端到端训练更高效。

阅读原文详情