蚂蚁灵波开源LingBot-Map：实现∞帧流式3D重建，打破实时与精度不可能三角

2026/04/16 20:33阅读量 107

蚂蚁灵波最新开源基础模型LingBot-Map，实现了基于纯自回归机制的无限帧流式3D重建，解决了传统方案中显存爆炸、长序列漂移及精度速度不可兼得的难题。该模型通过创新的几何上下文注意力（GCA）机制，在万帧视频测试中保持零轨迹漂移，推理速度达20FPS且仅需13.28GB显存，刷新了行业SOTA纪录。这一突破标志着具身智能“感知-建模-控制”全链路技术栈的完善，为机器人、自动驾驶及AR/VR的低成本规模化落地提供了关键支撑。

事件概述

蚂蚁灵波（Robbyant）正式开源了名为 LingBot-Map 的基础模型。该模型专为纯自回归的流式3D重建设计，突破了以往技术在实时性、长序列记忆与显存消耗之间的“不可能三角”。它能够在观看无限帧视频时，稳定地进行实时3D场景重建，无需依赖未来帧信息或人工规则优化。

核心技术创新

1. 纯自回归架构（Pure Autoregressive）

不同于依赖测试时优化或全局校准的传统方案，LingBot-Map严格遵循因果律：

仅依赖历史帧：完全基于已观测到的历史信息进行当前帧推理。
无后处理：不引入任何未来帧信息或人工设计的规则。
端到端学习：所有能力由模型直接习得，模拟人类“边走边认路”的视觉逻辑。

2. 几何上下文注意力（Geometric Context Attention, GCA）

受人类“选择性记忆”机制启发，LingBot-Map对记忆进行了分层结构化管理，以解决显存受限与灾难性遗忘问题：

锚点模块（Anchor）：锁定初始几帧作为基准，固定全局坐标系和尺度，防止坐标漂移和尺度模糊。
位姿参考窗口（Pose-reference Window）：保留最近 $k$ 帧的高维特征，确保局部几何细节的精准捕捉与拼接。
轨迹记忆（Trajectory Memory）：将长历史帧压缩为仅包含6个极简Token（相机、锚点、寄存器Token）并打上时间戳。相比传统因果注意力，单帧信息增长量降低80倍，使得万帧长视频处理的显存消耗几乎恒定。

性能表现与实测数据

在多项权威基准测试中，LingBot-Map全面超越现有流式模型，达到新的 SOTA 水平：

指标	LingBot-Map 表现	对比优势
长序列稳定性	在 10,000+ 帧视频序列中保持重建质量，无轨迹漂移	同类纯自回归模型通常在几百帧即出现扭曲
推理速度	20 FPS (分辨率 518×378)	比同类基线方法快近一倍，满足实时需求
轨迹误差	降低约 77% (Oxford Spires, ETH3D等数据集)	3D点云精度与全局一致性优于部分离线优化模型
显存占用	13.28 GB	普通消费级显卡即可部署；对比全历史缓存方案显存降低63%
效率提升	64帧窗口设计下，速度从3.12FPS提升至19.95FPS	速度提升6倍，同时精度更高

产业应用价值

LingBot-Map 的开源补齐了具身智能的关键拼图，结合此前开源的 LingBot-Depth（感知）、LingBot-World（物理规律）、LingBot-VLA（控制）及 LingBot-VA（世界模型），构建了完整的“感知 - 建模 - 模拟 - 控制”技术闭环。其应用场景包括：

机器人领域：仓库巡检与家庭服务机器人可摆脱昂贵激光雷达，仅凭摄像头实现低成本、大规模部署的实时建图。
AR/VR：实现虚拟物体在真实环境中的零延迟、无漂移叠加，大幅提升虚实融合体验。
自动驾驶与无人机：支持城市级大场景的实时建模，增强纯视觉方案的时空理解能力。

资源链接

Hugging Face: https://huggingface.co/robbyant/lingbot-map
ModelScope: https://www.modelscope.cn/models/Robbyant/lingbot-map
GitHub: https://github.com/Robbyant/lingbot-map
论文: https://arxiv.org/abs/2604.14141
项目主页: https://technology.robbyant.com/lingbot-map

阅读原文详情