30B开源模型UniScientist：以动态系统重构科研闭环，性能超越Gemini与Claude

2026/03/09 12:11阅读量 31

UniPat AI推出开源项目UniScientist，一个仅30B参数的模型通过构建“假设-证据-验证”的动态系统，在多项权威科研榜单上匹敌甚至超越了参数量大一个数量级的闭源模型。该模型利用进化式多学科合成引擎，将开放式科研问题转化为可独立验证的Rubric检查项，实现了从叙事推理到可复现推导的跨越。评测显示，其激活参数仅3B的版本在FrontierScience-Research等基准上得分显著高于Claude Opus 4.5和Gemini 3 Pro。

事件概述

UniPat AI（此前发布过BabyVision多模态评测基准）推出了名为UniScientist的开源项目。这是一个参数量仅为30B的模型，旨在解决当前AI在科研领域“只会写报告、不懂真研究”的痛点。该模型成功跑通了“提出假设 - 收集证据 - 执行可复现推导 - 迭代验证直至结论成立”的完整科研闭环。

核心突破：形式化科研动态系统

UniScientist的核心创新在于将开放式科研过程建模为一个基于两个基本操作的动态系统，而非简单的文本生成或工具调用：

主动证据整合 (Active Evidence Integration)：模型获取外部权威信息或内部计算推导的证据。
模型溯因 (Model Abduction)：根据当前证据状态更新假说，使其能更好地解释事实。

系统将证据分为两类：

Evidence-Grounded：来自外部权威来源或经明确检查验证的内部产出。
Formally-Derivable：通过符号推导、数值计算或仿真实验可复现的证据。

系统循环执行“产生假说 -> 获取证据 -> 溯因更新”，直到证据状态稳定，最终沉淀为标准化的结构化科研成果。

数据引擎：人机分工与Rubric机制

针对高质量科研训练数据的瓶颈，UniScientist采用了独特的数据构建策略：

分工模式：利用大模型擅长生成的特性大规模提出候选问题和解法草案，由人类专家负责验证真伪和质量，实现“模型负责规模与多样性，人类负责质量与可验证性”。
Evolving Polymathic Synthesis (进化式多学科合成)：将专家验证的科学命题扩展为研究级课题，并同步合成评测标准（Rubrics）。
Rubric设计：将开放式成果分解为N个封闭、原子化、客观且可证据落地的检查项。每个实例包含20+条Rubric项，覆盖一致性、区分度和原子性要求。

目前数据集已包含超过4700个研究级实例，覆盖**50+学科和400+**研究方向，每条样本平均投入专家标注时间1-2小时。

训练目标与能力聚合

除了基础科研生成，UniScientist引入了成果聚合目标：给定同一问题的N份候选成果，模型学习融合各家优点，产出一份更稳健的最终成果。这通过Rubric阈值的rejection sampling筛选高质量参考答案来实现，将“集体科研智能”写入训练过程。

此外，系统集成了代码解释器，支持将假设实例化为计算实验，形成“测试-修正”循环，但目前尚未涉及真实世界的大规模GPU调度或湿实验流程。

评测表现

在多个权威榜单中，UniScientist的表现令人瞩目，尤其是考虑到其较小的参数量：

FrontierScience-Research：
- UniScientist-30B-A3B（激活参数仅3B）得分：28.3分。
- 超越模型包括：Claude Opus 4.5 (17.5)、Gemini 3 Pro (12.4)、GPT-5.2 xhigh (25.2) 及 DeepSeek V3.2 w/tools (26.7)。
- 在成果聚合模式下，得分提升至33.3。
FrontierScience-Olympiad：启用工具的UniScientist得分为71.0，匹配Claude Opus 4.5，超越其他多个前沿模型。
其他基准：在DeepResearch Bench、DeepResearch Bench II和ResearchRubrics上，表现与顶级闭源系统实力相当。

值得注意的是，即使在无工具评测条件下，性能仍有显著提升，证明模型自身的研究推理能力（检索、推导、验证、写作整合）得到了实质性增强，而非单纯依赖工具使用。

资源链接

开源地址: https://github.com/UniPat-AI/UniScientist
技术博客: https://unipat.ai/blog/UniScientist

阅读原文详情