RoboScience 发布 Visics 通用具身大模型：VLOA 架构赋能机器人跨场景自主执行

2026/06/25 17:15阅读量 4

RoboScience 发布通用具身大模型 Visics，采用 VLOA（Vision-Language-Object-Action）架构，以“物体 3D 点云轨迹”为统一中间表征，结合双引擎（具身世界模型+通用操作模型）实现跨本体、跨物体、跨任务的泛化操作。配套“仿真+视频”双数据飞轮将数据成本降至传统方案的百分之一以下，公司计划 2026 年内实现标准化机器人本体量产。

事件概述

RoboScience 正式发布通用具身大模型 Visics，并披露其核心技术架构 VLOA（Vision-Language-Object-Action）。该模型使机器人不再局限于单一任务的重复训练，而是具备跨本体、跨物体、跨任务的通用操作能力。

核心信息

解决行业痛点：创始人田野指出，传统“动作复刻”模式泛化性极差，换硬件或物体即失效。Visics 针对泛化能力差和长程任务执行难的问题设计。
核心技术：引入 “物体 3D 点云轨迹” 作为统一中间表征标准。内部采用双引擎架构——具身世界模型（通过海量视频预训练，理解物体运动规律与因果关系）和通用操作模型（将预判轨迹转化为硬件控制指令），实现分层解耦，类似人类先“看懂”再“执行”。
数据成本突破：构建 “仿真+视频”双数据飞轮，依托自研高精度仿真引擎 RoboMirage 及自动化数据标注管线，单条数据获取成本降至传统方案的百分之一甚至更低。当前以每周数十万小时的速度增长，目标 2026 年构建 1T 规模高质量数据集。
商业落地：优先切入商超、物流与康养等海量 SKU 和多品类操作场景，已在零售与物流领域试点，计划年内实现标准化机器人本体产品量产。

值得关注

Visics 的“物体 3D 点云轨迹”统一表征思路与双引擎解耦设计，为具身智能从实验室走向真实场景提供了一条可复用的技术路径。其数据成本的大幅降低也为行业规模化训练提供了参考。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？