DeepSeek研究员用Agent自动写论文:人类仅动脑2小时,提出AI研究自主度L1-L5分级
2026/05/27 09:14阅读量 8
DeepSeek研究员陈德里开发DeliAutoResearch技能,基于DeepSeek-V4-Pro自动完成一篇关于自动研究智能体自主度分级的综述论文。论文迭代6次、消耗64.8万token,人类仅参与约2小时脑力工作。论文提出L1-L5自主分级体系,分析四大架构模式及17个主流系统,并指出迈向L5的核心瓶颈在于持续知识积累与可靠自我评估。
事件概述
DeepSeek研究员陈德里在个人博客发布一篇研究综述论文,该论文由他开发的自动化研究技能 DeliAutoResearch 自主完成。论文使用 DeepSeek-V4-Pro 进行研究和写作,GPT-Image2 绘图,人类仅贡献约1%的内容(约2小时脑力思考),其余99%由Agent完成。
论文关键数据
- 迭代6次(V1:4次,V2:1次,V3:1次),总耗时6天
- 约108轮Agent调用,消耗64.8万token
- 生成2234行LaTeX代码,引用103个参考文献(全部已验证)
- 论文共46页,含7个图表+4个表格
核心内容:L1-L5自主度分类体系
论文核心是提出自动研究智能体的自主度分级体系,类比自动驾驶SAE级别:
- L1(自动补全):早期GitHub Copilot,预测下一行代码
- L2(任务执行):ChatGPT/Claude聊天机器人加工具,每一步需人类批准
- L3(多步骤执行):当前主流(Claude Code、Cursor Agent),可自主执行10-100步,关键点请求人类审核
- L4(受限领域全自主执行):人类仅提供研究目标并评估最终成果,智能体可完成多步实验、代码、论文撰写,但无法自主选题
- L5(完全自定研究议程):智能体可自主选题、分配资源、跨领域持续研究,当前未实现,核心瓶颈为持续知识积累、可靠自我评估、架构规模化
当前行业前沿初步达到L4,L5仍是设想。论文认为真正的瓶颈不是模型能力,而是持续知识积累和可靠自我评估。
四大智能体架构模式
- 单智能体循环:ReAct、Reflexion、LATS等,简单高效但复杂任务有限
- 多智能体协作:CAMEL、AutoGen、MetaGPT等,分工协作、多视角纠错,成本较高
- 分层调度:Claude Code、Devin等,分层规划、任务分解,适合长时程复杂研究
- 工具增强执行:SWE-Agent等,依赖代码执行、网页浏览、API等外部工具
实际应用中多采用混合架构。
17个主流系统分析与六大开放问题
论文横向对比了17个常见自主研究智能体,指出领域已从早期原型演进至L4级专用系统。代码智能体成熟度最高,科学智能体开始产出可验证新发现。
提出的六大开放问题包括:认知循环陷阱、上下文限制、创新性评估、可复现性、安全伦理及成本问题(单任务成本可达$50,加剧科研不平等)。
意义与展望
陈德里认为,Code Agent导致计算机科学论文数量膨胀,过去需一个月的工作如今仅需2小时脑力劳动。人类的角色从“执行者”转变为“发起者”。该工作为自动研究智能体领域提供了统一的分类框架和评估基准。
