8B模型生成生物实验方案，步骤不乱、剂量无幻觉，成果被ICLR 2026接收

2026/05/18 14:52阅读量 6

上海人工智能实验室、复旦大学、上海交通大学团队提出Thoth模型，基于8B参数的Qwen3-8B，在生物实验protocol生成任务上超越GPT-4o和DeepSeek-V3。该模型通过Sketch-and-Fill推理范式与SCORE奖励机制，确保实验步骤顺序正确、剂量无幻觉，并在ICLR 2026发表。

事件概述

Thoth由上海人工智能实验室、复旦大学、上海交通大学团队提出，是一项面向生物实验protocol生成的科学推理模型，相关论文已被ICLR 2026接收。现有大模型生成实验方案时常出现步骤缺失、顺序混乱、参数幻觉等问题，传统文本指标难以评估protocol的可执行性。Thoth通过结构化推理与新型奖励机制，使模型生成可解析、可评估、可执行的实验方案。

核心方法

SciRecipe数据集：从Nature Protocols、Bio-protocol等平台采集超过23K份原始protocol，经清洗、结构化处理和质量控制后保留约12K条高质量数据，覆盖27个生物学子领域，包含理解、规划、纠错、剂量缩放等多类任务。
Sketch-and-Fill推理范式：将protocol生成拆分为三个阶段——think（分析任务与依赖）、key（生成原子步骤，包含action、objects、parameters三个字段）、orc（将结构化步骤改写为自然语言protocol），并要求key与orc一一对应，确保实验细节不遗漏。
SCORE奖励机制：从Step Scale（步骤粒度）、Action Order（动作顺序）、Semantic Fidelity（语义保真度）三个维度评估protocol可执行性，并加入格式门控与一致性门控，替代成本高昂且不稳定的LLM-as-a-Judge。
Knowledge-to-Action三阶段训练：先在大规模protocol文本上预训练，再通过Sketch-and-Fill格式进行监督微调，最后使用GRPO算法配合SCORE奖励进行强化学习优化。

实验结果

在SciRecipe-Eval评估中，Thoth（基于Qwen3-8B）取得SOTA表现，平均性能比基座模型提升17.78%，Thoth-mini提升22.01%。与闭源模型对比，Thoth平均分超过ChatGPT-4o达3.69%；与DeepSeek-V3对比，在步骤对齐、逻辑顺序和动作保真上分别提升4.88%、4.06%和11.29%。消融实验表明，移除步骤粒度奖励或动作顺序约束会导致性能显著下降，用普通语义相似度奖励替代SCORE也会降低protocol可执行性。此外，Thoth在HLE、LAB-Bench、PubMedQA等更广泛的科学基准上也有泛化提升。

意义

该工作将生物实验protocol生成从自由文本推进到结构化科学推理，Thoth不仅回答“实验怎么做”，更将科学知识转化为可检查、可复现、可执行的实验行动，有望成为未来自动化实验系统的核心推理模块。

阅读原文详情

事件概述

核心方法

实验结果

意义

准备好启动您的定制项目了吗？