西湖大学王东林团队提出 HiF-VLA：以运动建模时间，突破具身智能长序列决策瓶颈

2026/03/24 11:39阅读量 41

西湖大学王东林团队在 CVPR 2026 提出 HiF-VLA 模型，创新性地利用“运动”而非图像堆叠来表征时间信息，解决了机器人长序列任务中动作重复和决策中断的难题。实验显示，该模型在 LIBERO-Long 数据集单视角下成功率达 94.4%，超越现有基线方法，且在真实机器人实验中显著提升了复杂任务的执行稳定性。研究证实，基于运动信息的时序建模比传统图像历史堆叠更高效，推动了具身智能从“被动反应”向“边思考边行动”的范式转变。

事件概述

针对当前视觉 - 语言 - 动作（VLA）模型在长序列任务中因缺乏时间理解能力而导致的动作重复、决策中断等问题，西湖大学王东林团队提出了 HiF-VLA（Hindsight, Insight and Foresight for Vision-Language-Action Models）新模型。该研究不再依赖简单的历史图像堆叠或未来画面预测，而是将“运动”作为时间信息的核心表达，使模型能够同时建模过去变化、当前状态及未来趋势，从而实现更稳定的连续决策。

核心信息与实验数据

1. 长序列任务性能提升

在 LIBERO-Long 数据集的测试中，HiF-VLA 展现了显著优势：

单视角条件：成功率达到 94.4%，相比强基线 OpenVLA-OFT（91.0%）提升 3.4 个百分点。
多视角条件：成功率达到 96.4%，相比 OpenVLA-OFT（94.0%）提升 2.4 个百分点。
泛化能力：在 CALVIN 跨环境泛化任务中，HiF-VLA 在多视角下连续完成任务数达到 4.35，优于 OpenVLA-OFT（约 4.10）、Seer（约 4.28）等基线，表明其在长时间连续决策中的稳定性更强。

2. 真实机器人实验验证

在真实物理环境下的长序列任务测试中，HiF-VLA 表现优异：

按顺序按按钮任务：成功率从基线的 17.4% 提升至 34.2%（接近翻倍），有效解决了状态细微变化难以识别的问题。
覆盖与堆叠任务：成功率从 33.3% 提升至 57.9%，提升幅度达 24.6 个百分点。
放置任务：成功率稳定在 65% 左右，表现出比基线更强的鲁棒性。

3. 效率与计算成本分析

研究对比了不同时间建模方式的开销：

图像未来子目标预测：延迟增加至 115.9ms（基线的 1.59 倍）。
历史帧堆叠：延迟激增至 229.5ms（基线的 3.15 倍），且成功率反而下降至 90.4%。
HiF-VLA（运动信息）：仅引入未来推理时延迟为 82.7ms；同时加入历史信息后，延迟为 121.6ms，成功率达 93.2%。该方法在提升性能的同时，计算成本远低于传统图像堆叠方案。

4. 关键发现与设计优化

最优时序长度：历史长度设为 8 时性能最佳（单视角 94.4%），过长会导致冗余干扰，过短则信息不足。
信息注入策略：将历史信息直接注入决策模块（成功率 94.4%）优于直接输入视觉语言模型（成功率 92.8%），避免了干扰原有的视觉与语言理解过程。
运动 vs 图像：实验证明，运动信息比图像更适合表示时间变化，因为它剔除了大量静态冗余信息，保留了真正发生变化的动态特征。

值得关注

范式转变：HiF-VLA 标志着具身智能从“看到就做”的即时反应机制，转向“边想边做”的世界模型驱动机制。机器人开始具备记住过去、判断当前阶段并预判未来的能力。
技术路径：通过运动建模时间，不仅解决了长序列任务的不连贯问题，还大幅降低了计算开销，为机器人在复杂动态真实环境中的稳定工作提供了新的技术路径。
学术背景：该论文由西湖大学人工智能系副主任王东林与阿里巴巴达摩院算法专家黄思腾共同指导完成，相关成果已发表于 CVPR 2026。

阅读原文详情