通义实验室与人大高瓴联合开源统一科学大模型 LOGOS,覆盖7类模态44.87B tokens
2026/06/18 11:39阅读量 2
通义实验室联合中国人民大学高瓴人工智能学院开源 LOGOS,这是首个基于统一“科学语法”的多领域科学生成基础模型。模型预训练语料涵盖蛋白质、小分子、材料等7类模态共44.87B tokens,并实现跨领域知识迁移与预训练-下游任务对齐。
通义实验室联合中国人民大学高瓴人工智能学院宣布开源 LOGOS(Language Of Generative Objects in Science),一个基于统一“科学语法”的多领域科学生成基础模型。
事件概述
LOGOS 的核心洞察是:蛋白质、小分子、材料等科学对象底层遵循相似的组成规则、结构约束和相互作用语义,本质上属于同一种“科学语言”的不同方言。统一语法使得跨领域知识迁移、多任务协同优化、预训练与下游目标对齐成为可能。
核心信息
- 预训练语料库:涵盖7类模态,总计44.87B tokens,包括:
- 生物大分子层:蛋白质(28.9B tokens)、抗体(3.0B tokens)
- 化学实体与转化层:小分子(2.1B tokens)、化学反应与MOF材料(0.47B tokens)
- 界面互作层:蛋白质口袋(5.8B tokens)、蛋白口袋-配体复合物(4.6B tokens)
- 三大创新点:
- 统一“科学语法” + 空间交互的离散化
- 预训练和下游任务在形式和目标上完全一致,消除gap
- 跨领域知识正向迁移经实验证实有效
