DeepSeek陈德里开发自动研究Skill，写一篇论文人类只动脑2小时

Q: 未来展望

探讨未来的研究方向和可能的解决方案。

量子位

量子位2026年5月27日

DeepSeek陈德里开发自动研究Skill，写一篇论文人类只动脑2小时

8.5Score

TL;DR · AI 摘要

DeepSeek陈德里开发了自动研究技能DeliaAutoResearch，利用GPT-Image2等工具，通过6次迭代和108轮Agent调用，仅用6天时间完成了2234行LaTeX代码的论文，展示了自动研究的巨大潜力。

核心要点

DeliaAutoResearch通过6次迭代和108轮Agent调用，仅用6天时间完成了2234行LaTeX代码的论文。
该研究提出了一种L1-L5的自主分级体系，类比自动驾驶的SAE级别，将AI Agent领域理出清晰的谱系。
论文指出，真正的瓶颈在于持续知识积累和可靠自我评估，而非模型能力。

结构提纲

按章节快速跳转。

§引言
介绍DeepSeek研究员陈德里及其开发的自动研究技能DeliaAutoResearch。
·DeliaAutoResearch的工作流程
详细描述DeliaAutoResearch的6次迭代过程和108轮Agent调用，展示其高效性。
·L1-L5自主分级体系
介绍陈德里提出的L1-L5自主分级体系，类比自动驾驶的SAE级别，将AI Agent领域理出清晰的谱系。
·研究领域的现状与挑战
分析当前研究领域的现状，指出持续知识积累和可靠自我评估作为核心瓶颈。
·未来展望
探讨未来的研究方向和可能的解决方案。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

自动研究技能DeliaAutoResearch
- 6次迭代和108轮Agent调用
  - 6天完成2234行LaTeX代码
- L1-L5自主分级体系
  - 类比自动驾驶的SAE级别
  - 解决AI Agent领域混乱的问题
- 研究领域的现状与挑战
  - 持续知识积累和可靠自我评估为核心瓶颈
- 未来展望
  - 探索新的研究方向和解决方案

金句 / Highlights

值得收藏与分享的关键句。

1%是我写的，99%是Agent写的。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
论文共迭代6次（V1：4 次，V2：1 次，V3：1 次），总耗时6天，进行了约108轮Agent调用，消耗64.8万token，写了2234行LaTeX代码。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
陈德里认为，Code Agent导致计算机科学论文数量疯狂膨胀，同样的工作以前至少需要一个月才能完成。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

#DeepSeek#陈德里#DeliaAutoResearch#自动研究#L1-L5自主分级体系

打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-27 09:14:35 来源：量子位

“1%是我写的，99%是Agent写的。”

梦晨发自凹非寺
量子位 | 公众号 QbitAI

DeepSeek研究员陈德里，在个人博客更新一篇研究综述论文。

1%是我写的，99%是Agent写的。

用的是他自己的技能DeliAutoResearch，DeepSeek-V4-Pro研究和写作，GPT-Image2画图。

论文共迭代6次（V1：4 次，V2：1 次，V3：1 次），总耗时6天，进行了约108轮Agent调用，消耗64.8万token，写了2234行LaTeX代码。

103个参考文献，全部已验证。论文现为46页，538KB，含7个图表+4个表格。

论文讲的是自动研究智能体L1–L5自主度分类体系的事：

通过分析四大架构模式，给出了可扩展性、成本、可靠性等维度对比。

并基于六维特征矩阵分析了17个主流系统。

还提出了六大开放问题与对应研究方向。

陈德里认为，Code Agent导致计算机科学论文数量疯狂膨胀，同样的工作以前至少需要一个月才能完成。

但现在，他的碳基大脑处理这个问题的“总CPU时间”不到2小时。

他也写了一句免责声明：观点仅为个人所有，不代表任何组织。

DeepSeek研究员与V4 Pro合写的论文

基础模型推动AI工具从研究辅助转向自主研究，但领域缺乏统一框架、术语混乱、评估标准不一。

陈德里和它的AI合著者们提出了一个L1-L5的自主分级体系。

类比自动驾驶的SAE级别，把混乱的AI Agent领域理出了清晰的谱系。

L1是最基础的自动补全，也就是最早的GitHub Copilot，预测你下一行代码。
L2是任务执行，代表是ChatGPT/Claude聊天机器人加上各种工具，能分解任务，但每一步都得人类批准。
L3是多步骤执行，目前最主流的Claude Code、Cursor Agent这种，能自主执行10到100步，只在关键点请求人类审核
L4是受限领域内全自主执行，人类仅提供研究目标、评估最终成果，智能体可完成多步实验、代码、论文撰写，但无法自主选择研究问题。
L5级是完全自定研究议程，智能体可自主选题、分配资源、长期积累知识、跨领域持续研究，是当前未实现的理想状态，核心瓶颈为持续知识积累、可靠自我评估、架构规模化。

目前行业前沿初步达到L4，L5还只是个设想。

论文认为真正的瓶颈不是模型能力，而是「持续知识积累」和「可靠自我评估」。

除了按自主性级别，论文中又按智能体架构总结了4种主流模式。

单智能体循环

早期研究ReAct、Reflexion、LATS、思维树等为代表。单模型迭代推理-行动-观察，简单高效，但复杂任务能力有限。

多智能体协作

早期智能体框架CAMEL、AutoGen、MetaGPT等为代表，特点是分工协作、多视角纠错，成本较高，沟通易混乱。

分层调度

Claude Code和Devin等为代表，分层规划、任务分解，适合长时程复杂研究。

工具增强执行

SWE-Agent等为代表，核心工具有代码执行环境、网页浏览、API / 数据库、多模态工具，Agent-Computer Interface（ACI）的设计直接影响性能。

论文四种模式不是谁优谁劣，而是针对特定的任务要选择合适的工具。

如简单短任务选单智能体循环（低成本、易实现）；需要多视角纠错、复杂分工选多智能体协作；长时程、高复杂度研究选分层调度（强规划、易监管）；需要对接外部工具、环境交互选工具增强执行（能力边界由工具决定）。

但实际应用中，其实多采用混合架构，结合多种模式优势。

有了研究框架，再横向对比当前常见的17个自主研究智能体，揭示领域已从早期通用脆弱原型，演进为L4级受限域专用系统。代码智能体成熟度最高，科学智能体开始产出可验证新发现。

而迈向L5完全自主的核心瓶颈在于持续知识积累、可靠自我评估、架构规模化。

最后，论文中还提出了，六大开放问题：

认知循环陷阱：智能体陷入重复无效策略，无自我终止能力。
上下文限制：固定窗口（4K-1M token）无法支撑长时程研究。
创新性评估：无自动化方法衡量研究原创性与价值。
可复现性：模型随机性、提示敏感性导致结果无法复现。
安全伦理：双用途风险、自主提升风险、学术诚信风险。
成本问题：单任务成本 50，高成本加剧科研不平等。

One More THing

陈德里自述，高强度工作导致的精力不足，让他搁置了很多事。

博客、写作，现在是Agent让他有机会把这些重新捡了起来。

除了这篇研究综述，还更新了个人主页。

有了Agent，这些任务完成起来效率超高。

人类的角色，从“执行者”变成了“发起者”。

参考链接：

[1]

https://x.com/victor207755822/status/2059269472297623843?s=20