OceanBase发布湖库一体AI数据库,重新定义AI时代数据基础设施
OceanBase正式推出湖库一体AI数据库(Lakebase),基于存算分离与多模表设计,统一结构化、半结构化与非结构化数据管理。该方案通过消除数据搬运实现实时性,支持混合搜索(关系过滤+向量+全文),并提供Fork Database等Agent友好的版本控制能力。在混合搜索性能上比Elasticsearch提升30%以上,向量搜索领先Milvus等专用系统。
事件概述
OceanBase在2026年7月1日正式发布湖库一体AI数据库(OceanBase Lakebase),旨在解决AI Agent时代的数据基础设施问题。CTO杨传辉指出,AI正在改变数据库的使用者(从应用扩展到Agent)、管理的数据类型(从结构化扩展到多模态)以及工作负载(从事务分析扩展到搜索、上下文工程)。传统数据库架构无法满足这些新需求,需要重新定义数据库技术架构。
核心设计:湖库一体
湖库一体并非简单外接数据湖,而是合并三条边界:
- 数据形态统一:结构化、半结构化、非结构化数据、向量、图、全文索引在同一套表语义下管理。
- 计算路径统一:SQL查询、实时分析、混合搜索、Spark ETL、Ray上的AI计算围绕同一份数据工作,避免导出转换。
- 治理边界统一:元数据、权限、行级控制、审计、版本、生命周期对所有数据类型一致生效。
底层采用存算分离架构,数据存储在对象存储上,计算层独立伸缩(可瞬间扩容、空闲缩零)。中间通过多模表统一所有数据类型,上层支持开放计算(SQL、Spark、Daft on Ray)。关键价值在于实时性:通过消除数据搬运而非加速搬运实现离在线统一。
多模表:核心数据结构
多模表包含:
- 结构化数据的关系列
- 非结构化数据的多模列(可直接作为LOB存储)
- AI列:自动触发Embedding、打标等模型计算,支持事务一致性语义(全部成功或全部失败)
LOB存储灵活:小对象行内存储节省IO,大对象切片存入对象存储,超大对象引用外部文件仅存元数据。上层应用看到的仍然是一张表。
混合搜索:AI数据库的关键负载
混合搜索在同一张表中融合关系过滤、全文搜索、向量搜索、图搜索及AI计算。向量搜索性能测试(HNSW算法,768维/1536维)显示,同等召回率下OceanBase远领先于Milvus、Elasticsearch和pgvector。混合搜索(MS MARCO数据集)性能比Elasticsearch提升30%以上。
开放计算与统一Catalog
通过统一Catalog管理表、视图、Schema、Lineage、行级权限(RLS)。支持多个计算引擎共享同一份数据:OceanBase SQL处理OLTP/OLAP/搜索,Spark处理PB级ETL,Daft on Ray处理AI推理,解决多系统间的数据一致性和延迟问题。
为Agent设计:版本控制与弹性规模
- Fork Database:秒级创建数据库副本(Copy-on-Write),PB级数据秒级fork,仅占增量空间。Agent可在分支上开发测试,成功合并失败回滚,结合DIFF/MERGE实现SQL级版本控制。
- 逻辑表:解决Agent场景下Schema爆炸问题,每个Agent看到独立逻辑表,底层为同一物理表,支持千万级Agent低成本并行运行。
上下文层:让AI理解企业与用户
上下文层分为数据上下文和应用上下文:
- 数据上下文:基于Ant-OSI语义层标准,包含语义层(指标、口径)、上下文图谱、本体层,实现“语义即代码”。基于此开发的DataPilot产品在客户POC中准确率远好于业界其他产品。
- 应用上下文:研发PowerMem记忆系统及云上产品seekdb M0。在AppWorld公平蒸馏实验中,M0方案通过率39%(Hermes 22%),完成任务步骤6.2步(Hermes 10.4步),Token消耗降低32%。
架构总结
OceanBase AI数据库架构分为三层:
- 湖库引擎:多模表运行在对象存储上,支持SQL计算(OLTP/OLAP/搜索)、Spark ETL、AI计算。
- 上下文层:数据上下文(语义层+图谱+本体)和应用上下文(PowerMem记忆)。
- 应用Agent:数据开发Agent和数据分析Agent。
核心目标是通过一体化降低组件数量,减少多系统缝合带来的延迟和复杂度,实现数据实时性、一致性、安全性与低成本。
