8B模型生成生物实验方案,步骤不乱、剂量无幻觉,成果被ICLR 2026接收

2026/05/18 14:52阅读量 6

上海人工智能实验室、复旦大学、上海交通大学团队提出Thoth模型,基于8B参数的Qwen3-8B,在生物实验protocol生成任务上超越GPT-4o和DeepSeek-V3。该模型通过Sketch-and-Fill推理范式与SCORE奖励机制,确保实验步骤顺序正确、剂量无幻觉,并在ICLR 2026发表。

事件概述

Thoth由上海人工智能实验室、复旦大学、上海交通大学团队提出,是一项面向生物实验protocol生成的科学推理模型,相关论文已被ICLR 2026接收。现有大模型生成实验方案时常出现步骤缺失、顺序混乱、参数幻觉等问题,传统文本指标难以评估protocol的可执行性。Thoth通过结构化推理与新型奖励机制,使模型生成可解析、可评估、可执行的实验方案。

核心方法

  • SciRecipe数据集:从Nature Protocols、Bio-protocol等平台采集超过23K份原始protocol,经清洗、结构化处理和质量控制后保留约12K条高质量数据,覆盖27个生物学子领域,包含理解、规划、纠错、剂量缩放等多类任务。
  • Sketch-and-Fill推理范式:将protocol生成拆分为三个阶段——think(分析任务与依赖)、key(生成原子步骤,包含action、objects、parameters三个字段)、orc(将结构化步骤改写为自然语言protocol),并要求key与orc一一对应,确保实验细节不遗漏。
  • SCORE奖励机制:从Step Scale(步骤粒度)、Action Order(动作顺序)、Semantic Fidelity(语义保真度)三个维度评估protocol可执行性,并加入格式门控与一致性门控,替代成本高昂且不稳定的LLM-as-a-Judge。
  • Knowledge-to-Action三阶段训练:先在大规模protocol文本上预训练,再通过Sketch-and-Fill格式进行监督微调,最后使用GRPO算法配合SCORE奖励进行强化学习优化。

实验结果

在SciRecipe-Eval评估中,Thoth(基于Qwen3-8B)取得SOTA表现,平均性能比基座模型提升17.78%,Thoth-mini提升22.01%。与闭源模型对比,Thoth平均分超过ChatGPT-4o达3.69%;与DeepSeek-V3对比,在步骤对齐、逻辑顺序和动作保真上分别提升4.88%、4.06%和11.29%。消融实验表明,移除步骤粒度奖励或动作顺序约束会导致性能显著下降,用普通语义相似度奖励替代SCORE也会降低protocol可执行性。此外,Thoth在HLE、LAB-Bench、PubMedQA等更广泛的科学基准上也有泛化提升。

意义

该工作将生物实验protocol生成从自由文本推进到结构化科学推理,Thoth不仅回答“实验怎么做”,更将科学知识转化为可检查、可复现、可执行的实验行动,有望成为未来自动化实验系统的核心推理模块。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。