通义实验室与人大高瓴联合开源统一科学大模型 LOGOS，覆盖7类模态44.87B tokens

2026/06/18 11:39阅读量 2

通义实验室联合中国人民大学高瓴人工智能学院开源 LOGOS，这是首个基于统一“科学语法”的多领域科学生成基础模型。模型预训练语料涵盖蛋白质、小分子、材料等7类模态共44.87B tokens，并实现跨领域知识迁移与预训练-下游任务对齐。

通义实验室联合中国人民大学高瓴人工智能学院宣布开源 LOGOS（Language Of Generative Objects in Science），一个基于统一“科学语法”的多领域科学生成基础模型。

事件概述

LOGOS 的核心洞察是：蛋白质、小分子、材料等科学对象底层遵循相似的组成规则、结构约束和相互作用语义，本质上属于同一种“科学语言”的不同方言。统一语法使得跨领域知识迁移、多任务协同优化、预训练与下游目标对齐成为可能。

预训练语料库：涵盖7类模态，总计44.87B tokens，包括：
- 生物大分子层：蛋白质（28.9B tokens）、抗体（3.0B tokens）
- 化学实体与转化层：小分子（2.1B tokens）、化学反应与MOF材料（0.47B tokens）
- 界面互作层：蛋白质口袋（5.8B tokens）、蛋白口袋-配体复合物（4.6B tokens）
三大创新点：
1. 统一“科学语法” + 空间交互的离散化
2. 预训练和下游任务在形式和目标上完全一致，消除gap
3. 跨领域知识正向迁移经实验证实有效