Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型

2026/07/01 11:46阅读量 7

Om AI联汇发布全球首个面向物理世界的端侧流式多模态模型系列VLX,采用流式编码与缓存增量推理实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”闭环。系列包含三款模型:VLX-Flow(持续感知)、VLX-Seek(精准定位)、VLX-Go(行动执行),覆盖0.6B至10B参数规格,单路延迟最低0.06秒。

事件概述

Om AI联汇正式发布全球首个面向物理世界的端侧流式多模态模型系列 VLX,首次提出“流式多模态”架构。与传统视频理解模型切帧后离线处理不同,VLX 面向物理世界持续的视频流,通过流式编码与缓存增量推理实现毫秒级实时感知,并在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

模型构成

VLX 系列由三款模型协同组成:

  • VLX-Flow:负责持续感知,通过增量编码与缓存推理机制,让模型实时观察环境,随时吸收新画面并即时响应。
  • VLX-Seek:负责精准定位,将坐标生成转化为区域检索(从候选区域中“选区域”),为端侧设备提供可靠空间感知。
  • VLX-Go:负责行动执行,将视觉理解直接转化为机器人可执行的短时航点与运动轨迹(而非文本建议),实现跟随、避障与导航。

技术特点

  • 流式推理:视觉信息以连续流方式持续进入模型,模型“边看边理解、必要时主动行动”。
  • 端侧原生设计:完全围绕实时视频流与资源受限的终端算力构建,从架构层面为具身智能重新设计。
  • 四大优势:快(单路延迟最低0.06秒)、小(参数规格0.6B至10B)、准(细粒度定位)、行(感知执行闭环)。

意义

VLX 系列为物理世界 AI 提供了一种全新架构范式,使终端设备具备持续理解、即时决策、自主行动的能力,推动 AI 从屏幕走向真实的物理世界。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。