中国团队将JEPA世界模型引入单细胞研究,发布12B参数AI虚拟细胞
2026/07/03 22:28阅读量 2
百曜科技发布全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型AURA CellOS,参数规模达12B,基于3.905亿个人类单细胞转录组训练。该模型首次将JEPA(联合嵌入预测架构)引入单细胞领域,在扰动响应预测等任务上达到国际领先水平,Pearson_edist指标达0.619,较最佳开源模型提升66%。模型采用多视角表征学习、JEPA隐空间预测及Dense-to-MoE三阶段训练策略,旨在让AI从“看懂表达”走向“理解细胞状态”。
事件概述
2026年7月,中国AI虚拟细胞(AIVC)企业百曜科技发布全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型——AURA CellOS。该模型是目前公开报道中参数规模最大的单细胞基础模型(12B参数),基于3.905亿个人类单细胞转录组数据训练,覆盖40余种人体组织、260余种细胞类型。其核心突破是将Yann LeCun提出的JEPA(联合嵌入预测架构)与世界模型理念系统性引入单细胞研究,旨在克服第一代AIVC模型在动态预测上的局限。
核心信息
技术背景:第一代AIVC的瓶颈
- 此前Geneformer、scGPT等模型主要依赖语言模型架构,训练目标为学习基因表达模式本身,而非细胞状态变化的内在机制。
- 2026年6月《Nature Methods》研究显示,在scTab语料库上的预训练模型中,性能在使用约1%数据后即进入平台期,表明单纯扩大数据量难以持续提升预测能力。
- CellOS认为问题在于传统架构与细胞数据特性的系统性错配,需要让模型学习细胞状态演化规律而非静态表达模式。
CellOS三大创新
- 多视角表征学习:在传统的“表达视角”(基因丰度)之外引入“群体感知视角”(基因在群体中的特异性),形成双视角互补机制,提升对关键生物学信号的敏感度。
- JEPA联合嵌入预测架构:不再让模型简单复述输入,而是用“一种视角”预测“另一种视角”的表征,在隐空间对齐,迫使模型建立细胞状态的内在动力学模型。
- 无损扩容训练方案(Dense-to-MoE):三阶段训练——先训练中小型稠密模型,再平滑扩容为12B参数的MoE(混合专家模型),最后加入多视角联合JEPA对齐训练,防止灾难性遗忘。
评测结果
- 在扰动响应预测任务中,以Pearson_edist衡量,CellOS得分为0.619,是目前唯一突破0.6的模型,较最佳开源模型TranscriptFormer(0.373)提升66%。
- 在细胞状态注释任务中,聚合注释基准生物学保守分数达0.792,全面超越UCE、scGPT、TranscriptFormer等主流模型。
行业动态
- AIVC赛道正加速竞争:2025年6月Arc Institute发起虚拟细胞挑战赛(VCC),被称为“细胞版图灵测试”,全球五百余支团队参赛,华人科学家团队表现突出;CellOS研发团队核心成员曾获预赛全球第一、决赛全能榜全球第二(国内第一)。
- 初创公司如Xaira Therapeutics(单轮融资10亿美元)、Somite.ai、Noetik等获得资本支持;大型药企也开始与AIVC公司合作。
- 监管层面,美国FDA推动NAMs(新方法学),鼓励计算模型替代部分动物实验;中国已将“细胞编程与调控”等列为前沿攻关方向。
- 行业面临四大挑战:高质量扰动数据稀缺、多模态融合待突破(目前多依赖单细胞转录组)、模型可解释性不足、商业价值需持续验证。
- 中国团队在本轮AIVC竞赛中正从“跟随者”转向“规则参与者”,百曜科技已搭建“数据—模型—实验”迭代闭环,布局细胞治疗、靶点发现、虚拟药筛等应用方向。
