Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型
2026/07/01 11:46阅读量 7
Om AI联汇发布全球首个面向物理世界的端侧流式多模态模型系列VLX,采用流式编码与缓存增量推理实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”闭环。系列包含三款模型:VLX-Flow(持续感知)、VLX-Seek(精准定位)、VLX-Go(行动执行),覆盖0.6B至10B参数规格,单路延迟最低0.06秒。
事件概述
Om AI联汇正式发布全球首个面向物理世界的端侧流式多模态模型系列 VLX,首次提出“流式多模态”架构。与传统视频理解模型切帧后离线处理不同,VLX 面向物理世界持续的视频流,通过流式编码与缓存增量推理实现毫秒级实时感知,并在端侧打通“持续感知→精准定位→行动决策”的完整闭环。
模型构成
VLX 系列由三款模型协同组成:
- VLX-Flow:负责持续感知,通过增量编码与缓存推理机制,让模型实时观察环境,随时吸收新画面并即时响应。
- VLX-Seek:负责精准定位,将坐标生成转化为区域检索(从候选区域中“选区域”),为端侧设备提供可靠空间感知。
- VLX-Go:负责行动执行,将视觉理解直接转化为机器人可执行的短时航点与运动轨迹(而非文本建议),实现跟随、避障与导航。
技术特点
- 流式推理:视觉信息以连续流方式持续进入模型,模型“边看边理解、必要时主动行动”。
- 端侧原生设计:完全围绕实时视频流与资源受限的终端算力构建,从架构层面为具身智能重新设计。
- 四大优势:快(单路延迟最低0.06秒)、小(参数规格0.6B至10B)、准(细粒度定位)、行(感知执行闭环)。
意义
VLX 系列为物理世界 AI 提供了一种全新架构范式,使终端设备具备持续理解、即时决策、自主行动的能力,推动 AI 从屏幕走向真实的物理世界。
