RoboScience发布通用具身大模型Visics,VLOA双引擎架构首次完整展示

2026/06/26 16:33阅读量 2

RoboScience机器科学发布通用具身大模型Visics,首次披露VLOA(Vision-Language-Object-Action)架构。该架构以Object Trajectory为中间接口,将认知层(具身世界模型)与执行层(通用操作模型)解耦,实现跨本体、跨物体、跨任务的泛化。同时推出“仿真+视频”双数据飞轮,单条数据成本降至传统方案的1/20~1/200,已在家具拼装等复杂操作中实现毫米级精度。公司计划今年实现标准化本体量产。

事件概述

6月24日,通用具身智能企业RoboScience机器科学在深圳发布通用具身大模型Visics,首次完整披露自研技术架构VLOA(Vision-Language-Object-Action),并展示多项真实场景应用,包括全球最复杂的具身操作任务之一——家具拼装。

核心技术:VLOA双引擎架构

Visics大模型融合两大核心引擎:上层“具身世界模型”负责认知与物理轨迹预演,下层“通用操作模型”将轨迹转化为不同机器人的控制信号。两者通过**Object Trajectory(物体3D点云轨迹)**作为中间接口实现解耦,分别使用海量互联网视频和仿真数据进行预训练。

VLOA架构实现三大维度泛化:指导任意机器人、操作任意物体、完成任意任务。以抓取为例,其在成功率、姿态多样性及计算速度上相较现有方法均有显著提升。

数据策略:“仿真+视频”双数据飞轮

数据方面,RoboScience自研高精度仿真引擎RoboMirage,结合全自动视频标注与清洗管线,构建双数据飞轮:

  • 具身世界模型基于互联网视频预训练,已积累数百万小时高维多模态操作数据集,以每周数十万小时速度增长,目标2026年达千万小时级。
  • 通用操作模型基于仿真数据,已积累数百亿次高质量操作轨迹,目标2026年超1万亿次。

该体系将单条数据获取成本降至传统方案的1/20~1/200,为模型实现LLM级别的万亿级数据扩展奠定基础。

关键演示:家具拼装与精细操作

发布会上,Visics模型全程自主完成家具拼装任务,涉及手内操作、双臂协同、毫米级插接、精细力控等多重难点。机器人可读取说明书、理解零件结构、自主分解步骤,并在人为干扰后自动恢复并续接。此外,还展示了跨本体灵巧手抓取(青椒包覆、西瓜瓣捏取)、精细力控操作(开信封、立硬币、抓取薯片、针管注射)以及动态传送带抓取等能力。

团队与商业化规划

RoboScience团队兼具学术与产业背景:首席科学家邵林团队连续两年获ICRA最佳论文奖/提名;CEO田野曾任苹果AI Platform技术负责人;联合创始人刘朋海拥有科沃斯二十年量产经验。公司已获京东、商汤、达晨财智等投资,并在北京、深圳、苏州、杭州设有中心。

商业化路径分阶段推进:当前聚焦物体维度泛化,在商超、电商物流等场景完成POC验证;中短期扩展至任务与机器人维度,推动标准化本体量产,推出具身智能操作系统;长期构建全球化机器人应用生态。公司不绑定自有硬件销售,可提供纯软件授权或控制器方案。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。