OceanBase发布湖库一体AI数据库，重新定义AI时代数据基础设施

2026/07/01 17:05阅读量 2

OceanBase正式推出湖库一体AI数据库（Lakebase），基于存算分离与多模表设计，统一结构化、半结构化与非结构化数据管理。该方案通过消除数据搬运实现实时性，支持混合搜索（关系过滤+向量+全文），并提供Fork Database等Agent友好的版本控制能力。在混合搜索性能上比Elasticsearch提升30%以上，向量搜索领先Milvus等专用系统。

事件概述

OceanBase在2026年7月1日正式发布湖库一体AI数据库（OceanBase Lakebase），旨在解决AI Agent时代的数据基础设施问题。CTO杨传辉指出，AI正在改变数据库的使用者（从应用扩展到Agent）、管理的数据类型（从结构化扩展到多模态）以及工作负载（从事务分析扩展到搜索、上下文工程）。传统数据库架构无法满足这些新需求，需要重新定义数据库技术架构。

核心设计：湖库一体

湖库一体并非简单外接数据湖，而是合并三条边界：

数据形态统一：结构化、半结构化、非结构化数据、向量、图、全文索引在同一套表语义下管理。
计算路径统一：SQL查询、实时分析、混合搜索、Spark ETL、Ray上的AI计算围绕同一份数据工作，避免导出转换。
治理边界统一：元数据、权限、行级控制、审计、版本、生命周期对所有数据类型一致生效。

底层采用存算分离架构，数据存储在对象存储上，计算层独立伸缩（可瞬间扩容、空闲缩零）。中间通过多模表统一所有数据类型，上层支持开放计算（SQL、Spark、Daft on Ray）。关键价值在于实时性：通过消除数据搬运而非加速搬运实现离在线统一。

多模表：核心数据结构

多模表包含：

结构化数据的关系列
非结构化数据的多模列（可直接作为LOB存储）
AI列：自动触发Embedding、打标等模型计算，支持事务一致性语义（全部成功或全部失败）

LOB存储灵活：小对象行内存储节省IO，大对象切片存入对象存储，超大对象引用外部文件仅存元数据。上层应用看到的仍然是一张表。

混合搜索：AI数据库的关键负载

混合搜索在同一张表中融合关系过滤、全文搜索、向量搜索、图搜索及AI计算。向量搜索性能测试（HNSW算法，768维/1536维）显示，同等召回率下OceanBase远领先于Milvus、Elasticsearch和pgvector。混合搜索（MS MARCO数据集）性能比Elasticsearch提升30%以上。

开放计算与统一Catalog

通过统一Catalog管理表、视图、Schema、Lineage、行级权限（RLS）。支持多个计算引擎共享同一份数据：OceanBase SQL处理OLTP/OLAP/搜索，Spark处理PB级ETL，Daft on Ray处理AI推理，解决多系统间的数据一致性和延迟问题。

为Agent设计：版本控制与弹性规模

Fork Database：秒级创建数据库副本（Copy-on-Write），PB级数据秒级fork，仅占增量空间。Agent可在分支上开发测试，成功合并失败回滚，结合DIFF/MERGE实现SQL级版本控制。
逻辑表：解决Agent场景下Schema爆炸问题，每个Agent看到独立逻辑表，底层为同一物理表，支持千万级Agent低成本并行运行。

上下文层：让AI理解企业与用户

上下文层分为数据上下文和应用上下文：

数据上下文：基于Ant-OSI语义层标准，包含语义层（指标、口径）、上下文图谱、本体层，实现“语义即代码”。基于此开发的DataPilot产品在客户POC中准确率远好于业界其他产品。
应用上下文：研发PowerMem记忆系统及云上产品seekdb M0。在AppWorld公平蒸馏实验中，M0方案通过率39%（Hermes 22%），完成任务步骤6.2步（Hermes 10.4步），Token消耗降低32%。

架构总结

OceanBase AI数据库架构分为三层：

湖库引擎：多模表运行在对象存储上，支持SQL计算（OLTP/OLAP/搜索）、Spark ETL、AI计算。
上下文层：数据上下文（语义层+图谱+本体）和应用上下文（PowerMem记忆）。
应用Agent：数据开发Agent和数据分析Agent。

核心目标是通过一体化降低组件数量，减少多系统缝合带来的延迟和复杂度，实现数据实时性、一致性、安全性与低成本。

阅读原文详情