中国团队将JEPA世界模型引入单细胞研究，发布12B参数AI虚拟细胞

2026/07/03 22:28阅读量 2

百曜科技发布全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型AURA CellOS，参数规模达12B，基于3.905亿个人类单细胞转录组训练。该模型首次将JEPA（联合嵌入预测架构）引入单细胞领域，在扰动响应预测等任务上达到国际领先水平，Pearson_edist指标达0.619，较最佳开源模型提升66%。模型采用多视角表征学习、JEPA隐空间预测及Dense-to-MoE三阶段训练策略，旨在让AI从“看懂表达”走向“理解细胞状态”。

事件概述

2026年7月，中国AI虚拟细胞（AIVC）企业百曜科技发布全球首个基于LLM-JEPA架构的AI虚拟细胞世界模型——AURA CellOS。该模型是目前公开报道中参数规模最大的单细胞基础模型（12B参数），基于3.905亿个人类单细胞转录组数据训练，覆盖40余种人体组织、260余种细胞类型。其核心突破是将Yann LeCun提出的JEPA（联合嵌入预测架构）与世界模型理念系统性引入单细胞研究，旨在克服第一代AIVC模型在动态预测上的局限。

核心信息

技术背景：第一代AIVC的瓶颈

此前Geneformer、scGPT等模型主要依赖语言模型架构，训练目标为学习基因表达模式本身，而非细胞状态变化的内在机制。
2026年6月《Nature Methods》研究显示，在scTab语料库上的预训练模型中，性能在使用约1%数据后即进入平台期，表明单纯扩大数据量难以持续提升预测能力。
CellOS认为问题在于传统架构与细胞数据特性的系统性错配，需要让模型学习细胞状态演化规律而非静态表达模式。

CellOS三大创新

多视角表征学习：在传统的“表达视角”（基因丰度）之外引入“群体感知视角”（基因在群体中的特异性），形成双视角互补机制，提升对关键生物学信号的敏感度。
JEPA联合嵌入预测架构：不再让模型简单复述输入，而是用“一种视角”预测“另一种视角”的表征，在隐空间对齐，迫使模型建立细胞状态的内在动力学模型。
无损扩容训练方案（Dense-to-MoE）：三阶段训练——先训练中小型稠密模型，再平滑扩容为12B参数的MoE（混合专家模型），最后加入多视角联合JEPA对齐训练，防止灾难性遗忘。

评测结果

在扰动响应预测任务中，以Pearson_edist衡量，CellOS得分为0.619，是目前唯一突破0.6的模型，较最佳开源模型TranscriptFormer（0.373）提升66%。
在细胞状态注释任务中，聚合注释基准生物学保守分数达0.792，全面超越UCE、scGPT、TranscriptFormer等主流模型。

行业动态

AIVC赛道正加速竞争：2025年6月Arc Institute发起虚拟细胞挑战赛（VCC），被称为“细胞版图灵测试”，全球五百余支团队参赛，华人科学家团队表现突出；CellOS研发团队核心成员曾获预赛全球第一、决赛全能榜全球第二（国内第一）。
初创公司如Xaira Therapeutics（单轮融资10亿美元）、Somite.ai、Noetik等获得资本支持；大型药企也开始与AIVC公司合作。
监管层面，美国FDA推动NAMs（新方法学），鼓励计算模型替代部分动物实验；中国已将“细胞编程与调控”等列为前沿攻关方向。
行业面临四大挑战：高质量扰动数据稀缺、多模态融合待突破（目前多依赖单细胞转录组）、模型可解释性不足、商业价值需持续验证。
中国团队在本轮AIVC竞赛中正从“跟随者”转向“规则参与者”，百曜科技已搭建“数据—模型—实验”迭代闭环，布局细胞治疗、靶点发现、虚拟药筛等应用方向。

阅读原文详情