灵初、穹彻等四家机构联合投资具身智能数据编译公司智域基石
2026/04/17 11:04阅读量 2
灵初智能、穹彻智能、浙江人形及智平方四家具身智能企业共同领投了专注于具身智能“数据编译”的初创公司智域基石(ArcheBase),完成数千万元天使轮融资。该公司由具备底层架构、机器人算法及产业落地背景的三人团队创立,旨在解决物理世界非标准化数据向高质量训练语料转化的难题。智域基石计划建立超万平米真机数据采集工厂,通过全量质检、时空对齐及语义编译等技术,将杂乱原始数据转化为可直接提升任务成功率的数据资产。
事件概述
融资主体与投资方
- 被投企业:智域基石(英文名:ArcheBase),一家专注于具身智能数据编译的公司。
- 投资方:灵初智能、穹彻智能、浙江人形、智平方。四家公司几乎同时完成数千万元天使轮投资,并作为首批客户。
- 成立时间线:创始团队从产生想法到正式成立仅用时一个月。
核心团队与能力互补
智域基石由三位创始人组成,其能力结构覆盖了具身智能数据赛道的核心环节:
- CEO 杨哲轩:PingCAP 早期核心成员,擅长大规模分布式系统与底层架构设计,负责技术路线与业务推进。
- CTO 徐良威:深耕机器人与算法领域,拥有软硬件系统及具身模型训练的复合背景。
- COO 张计业:前华为地市总经理,曾任穹彻智能生态负责人,负责行业落地与合作拓展。
核心共识:随着硬件与模型进步,行业壁垒已从“获取原始数据”转向“将物理世界混沌信息转化为机器人可用训练语料”的能力。
核心技术与解决方案
智域基石提出“数据编译”概念,区别于传统的数据清洗,是一套完整的自动化数据工程管线,包含五个关键环节:
- 数据质检(来料检测)
- 针对摄像头、IMU、关节状态、力控信号等多源数据的丢帧、漂移、同步误差进行前置筛选。
- 坚持全量质量控制而非抽检,利用云原生分布式架构降低计算成本,确保进入训练闭环的样本有效性。
- 数据底座重构(时空对齐)
- 时间对齐:解决不同频率传感器(如30Hz摄像头 vs 500Hz IMU)的时间基准统一问题。
- 空间对齐:将机器人本体、末端执行器、操作物体及环境统一到同一物理坐标系。
- 数据编译(特征提取)
- 将结构化数据进一步转化为任务层可用特征。例如在“拿起杯子”动作中,不仅记录语言描述,还补充空间位置、物体分布、接触稳定性、动作意图及失败片段推理等信息。
- 智能检索与组配
- 自研查询引擎,支持按任务、场景、物体、动作模式等维度从海量数据中快速筛选并组配数据集,适配仓储、家庭服务、工业等不同场景需求。
- 标准化打包与弹性交付
- 将处理后的数据转化为可训练、可评测、可追溯且适配不同客户训练栈的成品。
战略规划与行业洞察
基础设施建设
- 计划在全国建立面积超1万平方米的真机数据采集工厂。
- 部署机器人数量超400台,覆盖异构硬件形态超10种。
数据策略
- 真机数据优先:虽然支持仿真、互联网视频及第一视角数据接入,但现阶段重点聚焦真实物理世界数据,因其对机器人现场稳定完成任务的决定性作用。
- 自研采集设备:推进自研 Ego-centric(第一人称视角)设备,旨在完整记录人在真实世界中的感知、决策与操作全过程,还原“人-工具-物体-环境”的关系网络。
具身智能数据与自动驾驶的区别
- 末端执行复杂度:具身智能涉及机械臂、夹爪等多自由度协同,动作空间远大于自动驾驶的方向与速度控制。
- 场景多样性:涵盖家居、工业、物流、康养等差异化场景,缺乏统一模板,属于更开放、非标准的数据问题。
未来趋势判断
- VLA(视觉 - 语言 - 动作)主线:模型能力与系统能力的融合是主路径。
- 多源混合训练:整合互联网视频、遥操作、仿真及真实闭环数据成为标配。
- 数据资产定义重写:价值重心从“数据量”转向“数据质”、“跨本体迁移能力”及“复用效率”。
- 私有化部署加速:B端场景下,支持边界内训练与可审计流程的基础设施更具价值。
