Om AI联汇提“端侧原生”方案,主打持续感知与空间理解,给物理AI技术路线增加新变量

2026/06/30 11:24阅读量 2

2026年被产业界视为物理AI元年,市场预计达数万亿美元,但技术路线尚未定论。中国AI公司Om AI联汇(联汇科技)提出“端侧原生”路径,发布VLX-Flow、VLX-Seek、VLX-Go系列模型,主打持续感知、精准定位与实时行动决策,而非主流VLA或世界模型路线。该方案已在云深处、宇树等机器人及公安、海事等低空场景部署,并完成百万级摄像头商业化接入。

事件概述

2026年被视为物理AI元年。据Future Markets预测,全球物理AI市场规模将从2026年约3830亿美元增长至2040年3.26万亿美元,Coatue Management更认为可达6万亿美元。一季度全球物理AI融资超64亿美元,包括AMI Labs 10.3亿美元种子轮、World Labs 10亿美元融资、千寻智能3月完成四轮共45亿元融资等。

技术路线分化与核心矛盾

当前物理AI基础模型层呈现VLM、VLA与世界模型三条路径收敛之势:VLM负责长程规划,VLA将指令与感知直接转化为动作,世界模型作为后台数据工厂合成训练数据并提供物理引擎进行动作模拟。产业界主流认为未来架构将是“VLA与世界模型的深度闭环”。

但Om AI联汇认为,这个路径忽略了物理AI最根本的瓶颈——机器缺乏对物理空间的基本理解。翻车案例显示,多数机器人能完成预设演示,但在家庭、工厂等真实场景中难以应对随机变数。大量物理终端(无人机、机器狗、工业巡检设备、AI眼镜等)真正缺失的不是灵巧操作,而是持续感知、空间理解、精准定位和自主导航能力。

“端侧原生”思路与VLX系列模型

Om AI联汇于6月27日-29日发布VLX系列模型,从物理AI最基础的视觉能力切入,采用“流式多模态”思路:

  • VLX-Flow:解决持续感知问题。通过Linear Attention和双层记忆机制(视觉缓存+文本carryover),使视频流像水流一样持续进入模型,AI主动持续观察,而非被动等待提问。
  • VLX-Seek:解决精准定位问题。将定位从“坐标生成”改为“区域指代”(Region Token),为设备提供毫米级空间锚点,以更小数据实现更优效果。
  • VLX-Go:解决行动决策问题。通过短时航点预测+离线轨迹学习+在线RL优化,直接输出可执行航点轨迹,0.6B参数规模下专注于实时响应,不做深度推理。

研发范式上,行业普遍通过裁剪云端模型移植到端侧,而VLX系列则先明确端侧算力天花板,在边界内做能力最大化的原生架构设计。端侧推理将决策延迟从秒级压缩至0.1秒以内,适应网络断连等恶劣工况。

产业验证

该方案已在多领域落地:

  • 机器人侧:云深处、宇树等具身头部企业完成部署;
  • 无人机侧:公安、海事、自然资源、园区、应急、救援等低空场景商用落地;
  • 安防摄像头侧:完成百万级摄像头商业化服务接入。

Om AI联汇认为,物理AI的终局形态尚未确定,真正价值在于能否在真实约束下创造可量化业务价值,而非技术参数堆叠。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。