RoboScience发布通用具身大模型Visics，VLOA双引擎架构首次完整展示

2026/06/26 16:33阅读量 2

RoboScience机器科学发布通用具身大模型Visics，首次披露VLOA（Vision-Language-Object-Action）架构。该架构以Object Trajectory为中间接口，将认知层（具身世界模型）与执行层（通用操作模型）解耦，实现跨本体、跨物体、跨任务的泛化。同时推出“仿真+视频”双数据飞轮，单条数据成本降至传统方案的1/20~1/200，已在家具拼装等复杂操作中实现毫米级精度。公司计划今年实现标准化本体量产。

事件概述

6月24日，通用具身智能企业RoboScience机器科学在深圳发布通用具身大模型Visics，首次完整披露自研技术架构VLOA（Vision-Language-Object-Action），并展示多项真实场景应用，包括全球最复杂的具身操作任务之一——家具拼装。

核心技术：VLOA双引擎架构

Visics大模型融合两大核心引擎：上层“具身世界模型”负责认知与物理轨迹预演，下层“通用操作模型”将轨迹转化为不同机器人的控制信号。两者通过**Object Trajectory（物体3D点云轨迹）**作为中间接口实现解耦，分别使用海量互联网视频和仿真数据进行预训练。

VLOA架构实现三大维度泛化：指导任意机器人、操作任意物体、完成任意任务。以抓取为例，其在成功率、姿态多样性及计算速度上相较现有方法均有显著提升。

数据策略：“仿真+视频”双数据飞轮

数据方面，RoboScience自研高精度仿真引擎RoboMirage，结合全自动视频标注与清洗管线，构建双数据飞轮：

具身世界模型基于互联网视频预训练，已积累数百万小时高维多模态操作数据集，以每周数十万小时速度增长，目标2026年达千万小时级。
通用操作模型基于仿真数据，已积累数百亿次高质量操作轨迹，目标2026年超1万亿次。

该体系将单条数据获取成本降至传统方案的1/20~1/200，为模型实现LLM级别的万亿级数据扩展奠定基础。

关键演示：家具拼装与精细操作

发布会上，Visics模型全程自主完成家具拼装任务，涉及手内操作、双臂协同、毫米级插接、精细力控等多重难点。机器人可读取说明书、理解零件结构、自主分解步骤，并在人为干扰后自动恢复并续接。此外，还展示了跨本体灵巧手抓取（青椒包覆、西瓜瓣捏取）、精细力控操作（开信封、立硬币、抓取薯片、针管注射）以及动态传送带抓取等能力。

团队与商业化规划

RoboScience团队兼具学术与产业背景：首席科学家邵林团队连续两年获ICRA最佳论文奖/提名；CEO田野曾任苹果AI Platform技术负责人；联合创始人刘朋海拥有科沃斯二十年量产经验。公司已获京东、商汤、达晨财智等投资，并在北京、深圳、苏州、杭州设有中心。

商业化路径分阶段推进：当前聚焦物体维度泛化，在商超、电商物流等场景完成POC验证；中短期扩展至任务与机器人维度，推动标准化本体量产，推出具身智能操作系统；长期构建全球化机器人应用生态。公司不绑定自有硬件销售，可提供纯软件授权或控制器方案。

阅读原文详情

事件概述

核心技术：VLOA双引擎架构

数据策略：“仿真+视频”双数据飞轮

关键演示：家具拼装与精细操作

团队与商业化规划

准备好启动您的定制项目了吗？