RoboScience机器科学发布Visics通用具身大模型,以VLOA架构实现跨本体、跨物体、跨任务泛化
RoboScience于6月24日发布Visics通用具身大模型,提出Object Trajectory作为统一中间表征,搭建VLOA分层架构,实现任意机器人、任意物体、任意任务的泛化操作。模型采用具身世界模型与通用操作模型双引擎,结合自研仿真引擎RoboMirage,将数据获取成本降至传统方案的1/20至1/200,计划2026年构建超1T高质量操作轨迹数据集。公司已获京东、商汤等投资,预计今年量产面向工业与商业场景的机器人本体。
2026年6月24日,通用具身智能企业RoboScience机器科学发布Visics通用具身大模型,首次完整披露其自研技术架构VLOA(Vision-Language-Object-Action),并展示在家具拼装、灵巧抓取、动态流水线等场景的应用。
核心创新:Object Trajectory统一中间表征
针对当前机器人操作泛化能力差、精细操作难、长程任务误差累积三大瓶颈,RoboScience提出Object Trajectory(物体3D点云轨迹)作为统一中间表征标准,以物体为中心重构机器人的认知与执行逻辑。该表征同时包含“物体”与“目标”两层含义,精准定义机器人与物件的交互关系及操作后物体的运动变化状态。
VLOA架构:双引擎分层解耦
Visics大模型采用双引擎架构:
- 具身世界模型:以海量互联网视频为预训练数据,学习物体在真实世界中的运动规律,包括物体状态、三维轨迹、接触力与物理因果关系。
- 通用操作模型:将物体运动轨迹转化为机器人控制指令,通过物理引擎生成大规模仿真数据持续迭代,支持刚体、铰链件、软质可形变体等多种物体,兼容视觉、触觉、力觉等多模态输入。
两大引擎通过Object Trajectory作为统一中间接口,上层模型负责预判合理轨迹,下层模型适配各类机器人硬件执行指令,最终实现三大维度泛化:适配任意机器人本体、操作任意类型物体、自主完成多样化任务。
数据策略:仿真+视频双飞轮
RoboScience以自研高精度仿真引擎RoboMirage为核心,结合全自动视频数据标注与清洗管线,将单条数据获取成本压至传统方案的1/20至1/200,以每周数十万小时速度扩张,预计2026年构建超过1T高质量操作轨迹数据集。
商业化进展
公司已获京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等投资,在北京、深圳、苏州、杭州设有研发和生产中心。目前与零售、物流、康养服务企业及机器人本体、灵巧手公司开展试点合作,计划2026年实现面向工业与商业场景的标准化机器人本体产品量产。
