Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

2026/07/01 11:46阅读量 7

Om AI联汇发布全球首个面向物理世界的端侧流式多模态模型系列VLX，采用流式编码与缓存增量推理实现毫秒级实时感知，并首次在端侧打通“持续感知→精准定位→行动决策”闭环。系列包含三款模型：VLX-Flow（持续感知）、VLX-Seek（精准定位）、VLX-Go（行动执行），覆盖0.6B至10B参数规格，单路延迟最低0.06秒。

事件概述

Om AI联汇正式发布全球首个面向物理世界的端侧流式多模态模型系列 VLX，首次提出“流式多模态”架构。与传统视频理解模型切帧后离线处理不同，VLX 面向物理世界持续的视频流，通过流式编码与缓存增量推理实现毫秒级实时感知，并在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

模型构成

VLX 系列由三款模型协同组成：

VLX-Flow：负责持续感知，通过增量编码与缓存推理机制，让模型实时观察环境，随时吸收新画面并即时响应。
VLX-Seek：负责精准定位，将坐标生成转化为区域检索（从候选区域中“选区域”），为端侧设备提供可靠空间感知。
VLX-Go：负责行动执行，将视觉理解直接转化为机器人可执行的短时航点与运动轨迹（而非文本建议），实现跟随、避障与导航。

技术特点

流式推理：视觉信息以连续流方式持续进入模型，模型“边看边理解、必要时主动行动”。
端侧原生设计：完全围绕实时视频流与资源受限的终端算力构建，从架构层面为具身智能重新设计。
四大优势：快（单路延迟最低0.06秒）、小（参数规格0.6B至10B）、准（细粒度定位）、行（感知执行闭环）。

意义

VLX 系列为物理世界 AI 提供了一种全新架构范式，使终端设备具备持续理解、即时决策、自主行动的能力，推动 AI 从屏幕走向真实的物理世界。

阅读原文详情

事件概述

模型构成

技术特点

意义

准备好启动您的定制项目了吗？