RoboScience 发布 Visics 通用具身大模型:VLOA 架构赋能机器人跨场景自主执行

2026/06/25 17:15阅读量 4

RoboScience 发布通用具身大模型 Visics,采用 VLOA(Vision-Language-Object-Action)架构,以“物体 3D 点云轨迹”为统一中间表征,结合双引擎(具身世界模型+通用操作模型)实现跨本体、跨物体、跨任务的泛化操作。配套“仿真+视频”双数据飞轮将数据成本降至传统方案的百分之一以下,公司计划 2026 年内实现标准化机器人本体量产。

事件概述

RoboScience 正式发布通用具身大模型 Visics,并披露其核心技术架构 VLOA(Vision-Language-Object-Action)。该模型使机器人不再局限于单一任务的重复训练,而是具备跨本体、跨物体、跨任务的通用操作能力。

核心信息

  • 解决行业痛点:创始人田野指出,传统“动作复刻”模式泛化性极差,换硬件或物体即失效。Visics 针对泛化能力差和长程任务执行难的问题设计。
  • 核心技术:引入 “物体 3D 点云轨迹” 作为统一中间表征标准。内部采用双引擎架构——具身世界模型(通过海量视频预训练,理解物体运动规律与因果关系)和通用操作模型(将预判轨迹转化为硬件控制指令),实现分层解耦,类似人类先“看懂”再“执行”。
  • 数据成本突破:构建 “仿真+视频”双数据飞轮,依托自研高精度仿真引擎 RoboMirage 及自动化数据标注管线,单条数据获取成本降至传统方案的百分之一甚至更低。当前以每周数十万小时的速度增长,目标 2026 年构建 1T 规模高质量数据集。
  • 商业落地:优先切入商超、物流与康养等海量 SKU 和多品类操作场景,已在零售与物流领域试点,计划年内实现标准化机器人本体产品量产。

值得关注

Visics 的“物体 3D 点云轨迹”统一表征思路与双引擎解耦设计,为具身智能从实验室走向真实场景提供了一条可复用的技术路径。其数据成本的大幅降低也为行业规模化训练提供了参考。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。