DeepSeek研究员用Agent自动写论文：人类仅动脑2小时，提出AI研究自主度L1-L5分级

2026/05/27 09:14阅读量 8

DeepSeek研究员陈德里开发DeliAutoResearch技能，基于DeepSeek-V4-Pro自动完成一篇关于自动研究智能体自主度分级的综述论文。论文迭代6次、消耗64.8万token，人类仅参与约2小时脑力工作。论文提出L1-L5自主分级体系，分析四大架构模式及17个主流系统，并指出迈向L5的核心瓶颈在于持续知识积累与可靠自我评估。

事件概述

DeepSeek研究员陈德里在个人博客发布一篇研究综述论文，该论文由他开发的自动化研究技能 DeliAutoResearch 自主完成。论文使用 DeepSeek-V4-Pro 进行研究和写作，GPT-Image2 绘图，人类仅贡献约1%的内容（约2小时脑力思考），其余99%由Agent完成。

论文关键数据

迭代6次（V1:4次，V2:1次，V3:1次），总耗时6天
约108轮Agent调用，消耗64.8万token
生成2234行LaTeX代码，引用103个参考文献（全部已验证）
论文共46页，含7个图表+4个表格

核心内容：L1-L5自主度分类体系

论文核心是提出自动研究智能体的自主度分级体系，类比自动驾驶SAE级别：

L1（自动补全）：早期GitHub Copilot，预测下一行代码
L2（任务执行）：ChatGPT/Claude聊天机器人加工具，每一步需人类批准
L3（多步骤执行）：当前主流（Claude Code、Cursor Agent），可自主执行10-100步，关键点请求人类审核
L4（受限领域全自主执行）：人类仅提供研究目标并评估最终成果，智能体可完成多步实验、代码、论文撰写，但无法自主选题
L5（完全自定研究议程）：智能体可自主选题、分配资源、跨领域持续研究，当前未实现，核心瓶颈为持续知识积累、可靠自我评估、架构规模化

当前行业前沿初步达到L4，L5仍是设想。论文认为真正的瓶颈不是模型能力，而是持续知识积累和可靠自我评估。

四大智能体架构模式

单智能体循环：ReAct、Reflexion、LATS等，简单高效但复杂任务有限
多智能体协作：CAMEL、AutoGen、MetaGPT等，分工协作、多视角纠错，成本较高
分层调度：Claude Code、Devin等，分层规划、任务分解，适合长时程复杂研究
工具增强执行：SWE-Agent等，依赖代码执行、网页浏览、API等外部工具

实际应用中多采用混合架构。

17个主流系统分析与六大开放问题

论文横向对比了17个常见自主研究智能体，指出领域已从早期原型演进至L4级专用系统。代码智能体成熟度最高，科学智能体开始产出可验证新发现。

提出的六大开放问题包括：认知循环陷阱、上下文限制、创新性评估、可复现性、安全伦理及成本问题（单任务成本可达$50，加剧科研不平等）。

意义与展望

陈德里认为，Code Agent导致计算机科学论文数量膨胀，过去需一个月的工作如今仅需2小时脑力劳动。人类的角色从“执行者”转变为“发起者”。该工作为自动研究智能体领域提供了统一的分类框架和评估基准。

阅读原文详情