刚刚，DeepSeek陈德里与两个AI，合写了一篇论文

IP属地中国·北京 机器之心Pro 时间：2026-05-27 12:27:33

机器之心编辑部
「借助 CodeAgent，我终于可以重新捡起很多过去因为精力不足而搁置的事情了，写博客就是其中之一。这篇博客大概 1% 是我写的，99% 是 Agent 写的」。
刚刚，DeepSeek 研究员陈德里（Deli Chen）在 X 上分享了一篇由 AI Agent 深度参与完成的文章「From Copilots to Colleagues: A Survey of Autonomous Research Agents」。

文章地址：https://victorchen96.github.io/auto_research_survey.pdf
陈德里也特别说明，这篇文章更多是一次兴趣驱动的尝试：一方面是出于好玩，另一方面也是为了测试自己开发的 DeliAutoResearch 技能。因此，它并不是一篇严格意义上的学术论文，文中观点也仅代表个人，不代表任何公司或组织立场。
这篇论文一共迭代了6 轮（V1：4 轮，V2：1 轮，V3：1 轮），V1 初稿耗时 76 分钟，总耗时 6 天。大约经历了 108 轮 Agent 交互，消耗约64.8 万 tokens，LaTeX 共 2234 行。
103 篇参考文献，全部已核验。篇幅从 45 页增加到 46 页。包含 7 张图和 4 张表。现在论文一共 46 页，文件大小 538KB。
完成这篇文章后，陈德里也由此抛出了一个颇有意思的判断，他形容为个人暴论：Code Agent 正在让计算机科学论文发生疯狂通胀 —— 过去同样的工作，至少要花一个月。
陈德里表示，在这个过程里真正动脑消耗的「总 CPU 」时间：不到 2 小时

简单介绍一下，第一作者陈德里来自 DeepSeek，是 V1、V2、V3、V4、R1、DeepSeek-Coder 和 DeepSeek-MoE 架构的核心贡献者之一。他还曾在世界互联网大会上代表 DeepSeek 发言。

博客地址：https://victorchen96.github.io/
另外两位「合著者」，一位是 DeepSeek-V4-Pro，一位是 GPT-Image2—— 前者负责文字，后者负责图像
也就是说，这篇论文本质上是陈德里用 AI 写了一篇关于 AI 做科研的综述。这个设定也是一个重要的实验：陈德里搭建了一个他称为「Deli AutoResearch SKILL」的自主科研智能体框架，这篇 45 页的文章的部分内容正是用它生产出来的。此外，他还在论文中声明：这篇综述是他以「个人研究项目」名义发布的，观点不代表任何公司立场。

研究者本身成为了研究对象。这件事意味着什么，论文的其余部分会慢慢说清楚。
综述覆盖了超过 95 篇论文，系统分析了 17 个主流系统，试图为一个混乱生长的领域第一次画出清晰的地图。这个领域叫做「自主科研智能体（Autonomous Research Agents）」：给 AI 一个科研目标，它能独立完成从假设提出、实验设计、代码执行、结果分析到论文撰写的完整循环，全程无需人类在每一步审批。

这已经不是设想。就在过去 18 个月里，衡量软件工程能力的 SWE-bench 基准上，AI 解决真实 GitHub 问题的比率从不足 5% 攀升至 70% 以上；有系统以每篇 15 美元的成本产出完整学术论文并通过了人类初审；还有系统在无人引导的情况下，发现了超越已知边界的新数学构造。

AI 正在从「研究工具」变成「研究者」本身，速度之快出乎所有人的预料。
背景：「副驾驶」还是「同事」？
要理解这场变革的意义，不妨先想象一位传统的科研助理：给他一个课题，他能帮你检索文献、整理表格、执行代码。但你需要告诉他每一步怎么做，他遇到问题会停下来等你指示，他不会主动思考「接下来研究什么更有价值」。
这是过去几年 AI 扮演的角色 —— 副驾驶（Copilot）。方向盘，始终在人类手里。
现在正在发生的是一场「交权实验」。新一代智能体系统正在尝试独立完成完整的科研循环：提出假设、设计实验、执行代码、分析结果、撰写报告，甚至自我审阅和迭代。从头到尾，无需人类在每一步批准。
这种转变有多快？研究者们描述它「迅速而决定性」：短短 18 个月，便从工具进化到了同事。
但「同事」的含义也差别悬殊。有的系统只是能跑完一段代码不报错；有的则可以在机器人实验室里独自合成化合物。要给这片混乱的版图建立秩序，需要一套统一的语言。这正是这篇综述的核心贡献。
核心贡献一：为「自主程度」建立五级分类
这篇综述最重要的贡献是提出了一套L1 至 L5 的自主等级分类体系，类比汽车驾驶自动化的 SAE 标准：

L1（自动补全），是最常见的状态。GitHub Copilot、各类代码补全工具都在此列。AI 预测下一行代码，但你掌控一切方向。生产力提升约 30% 至 55%，代价是毫无自主性。
L2（任务执行），是现在大多数人用 ChatGPT、Claude 日常交互的层级。AI 能分解任务、调用工具，但每一步都需要你点头认可。你是策略决策者，AI 是执行者。
L3（多步自主，设有检查点），是当前主流「智能体编程工具」的位置 ——Claude Code、Cursor Agent 属于这一层。AI 能在设定的检查节点前独立执行数十步操作，出了预定范围才来找你确认。人类保持战略监督，但不必过问每个细节。
L4（端到端全自动），是当前技术前沿。Devin、SWE-Agent、AI Scientist 都在这里。给它一个科研目标，它能独立工作数小时乃至数天，产出完整成果。你只需要在最后评估结果。综述中分析的 17 个主要系统，最高均处于 L4。
L5（自主设定研究议程），目前仍是「愿景」。这一层级的系统不只执行研究，还能自己选择研究什么问题、分配资源、在数周到数月的时间跨度里持续积累知识。没有任何现有系统完整实现了 L5，但一些苗头已经出现：Google 的 Co-Scientist 具备部分自主假设生成能力，DeepMind 的 FunSearch 通过迭代程序搜索发现了真正的数学新知。

这套分类描绘了一条清晰的演化路径：从「帮你干活」到「替你思考」，每一级之间横亘着什么样的技术鸿沟。

核心贡献二：四种架构模式的得与失
知道「系统自主到什么程度」还不够，还需要理解「它是怎么做到的」。综述归纳了当前主流的四种智能体架构。

单智能体循环，是最简洁的形态：一个模型反复「计划 — 行动 — 观察 — 反思」。像一位独自工作的研究员，想好了就动手，看到结果再调整。好处是简单可控，缺点是遇到复杂任务容易触及上限。就像一个人同时负责所有工种，体力和注意力都会先撑不住。

多智能体协作，相当于组建团队。不同智能体分工扮演不同角色，相互审核和补充。MetaGPT 走得更远：它把标准作业流程（SOP）编码进多智能体协作中，就像一家软件公司，产品经理、架构师、工程师、测试员各司其职，通过规范化文档交接，而非自由聊天。结果是任务完成率从 67% 跃升至 100%。
层级编排，是「管理者 - 执行者」模式的技术实现。一个高层智能体分解目标、分配任务，多个专项子智能体各自负责具体执行并汇报结果。Claude Code 采用这一架构：主智能体维持全局状态和高层规划，遇到文件编辑或网页搜索之类的具体任务，便派出子智能体独立完成，避免无关信息污染主体判断。
工具增强执行，是「给智能体配备外部手脚」—— 代码执行环境、网络浏览、数据库查询、实验室机器人控制接口……ChemCrow 集成了 18 种化学专用工具，让模型从「知道怎么回答化学问题」升级到「能真正操作化学流程」。化学问题的正确率因此从原始 GPT-4 的不足 30% 跳升至 75%。
这四种架构各有擅长，没有哪一种全面碾压其他。现实中最强大的系统，往往是将它们混合使用：层级编排负责统筹，工具增强负责执行，多智能体协作负责质量审核，单智能体循环负责具体推理。
核心贡献三：六大未解难题
综述最诚实的部分是直面这个领域仍无解的困境。

认知循环陷阱：智能体陷入死循环 —— 反复执行同一个失败操作，却意识不到自己在原地打转。AutoGPT 因此声名狼藉：进入无限循环是它最常被提及的缺陷。目前没有通用的系统性解决方案，大多数「反循环」机制靠的是特定任务的手工调参。
上下文窗口限制：模型的「工作记忆」是有限的。一次长时间科研会话可能产生十万个以上的词元（token），超出窗口范围的早期信息便永久消失。层级编排能缓解这个问题，但仍难以真正实现跨会话的「研究记忆」。
新颖性评估：AI 产出的研究成果，如何判断它是否真正新颖？引用量预测受社会因素干扰，语义相似度又无法区分「新颖」和「偏僻冷门」。目前能做到客观验证的，只有像 FunSearch 那样用程序输出量化衡量的极少数领域。
可重现性危机：同样的系统、同样的任务，每次运行结果可能大相径庭。基准测试上的性能数字，标准差动辄达到 5% 至 15%。如何在随机性和严谨性之间找到平衡，目前尚无定论。

安全与伦理：能自主设计化学合成方案的系统，同样可能被引向危险化合物。这不只是「加一个过滤器」就能解决的工程问题，而是一个根本性的架构矛盾 —— 对益处有用的能力，往往和对害处有用的能力难以分离。
成本与可及性：解决一个 SWE-bench 任务的 API 费用，约在 5 至 50 美元之间；完整的科研流程则可能消耗数百至数千美元。最强大的基础模型仍是专有的、昂贵的。如果自主科研能力只属于资源雄厚的机构，那么它加速的，也可能是科研不平等而非科研本身。
结语
综述覆盖了超过 95 篇论文，详细分析了 17 个主要系统。结论清醒而审慎：当前最好的系统处于 L4，L5 仍是愿景；代码类任务已有相当成熟的自动化能力，真正意义上的开放科学发现仍停留在演示阶段。
论文的最后写道：「L5 自主研究 —— 能够自主制定长期研究议程的智能体 —— 是一个『何时』而非『是否』的问题。研究社区的任务是确保这一转变伴随着充分的理解、适当的保障，以及公平的收益分配。」

这句话出自一位参与构建了 DeepSeek-R1 的研究员和两个 AI。他们共同写下了这段对自身未来的警示。
这本身就是一件值得细想的事。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

美团、青桔、哈啰共享单车调价！

世界互联网大会开放日连尚集团展示多场景AI应用布局

OPPO与支付宝深化AI生态合作一句话办近200项服务

深圳父女卖存储狂赚38亿！冲刺港股IPO：全球第五大独立存储器厂诞生

马斯克的Grok 4.5刚追上Claude，转头就把用户整个代码库偷偷打包带走

日媒认输：中国车企研发的速度太快了日本一直在追

全站最新

美团、青桔、哈啰共享单车调价！

世界互联网大会开放日连尚集团展示多场景AI应用布局

OPPO与支付宝深化AI生态合作一句话办近200项服务

深圳父女卖存储狂赚38亿！冲刺港股IPO：全球第五大独立存储器厂诞生

热门推荐

美团、青桔、哈啰共享单车调价！

“网红”分析师孙潇雅被罚8亿？天风证券紧急回应：消息不实，已报案！

三星代工双喜临门：牵手Anthropic又推进特斯拉AI5芯片，发展势头正劲

国产火箭一子级成功回收！全球首创网系回收技术引领商业航天新突破

蔚来战略投资长鑫科技：双方将构建稳定、互信的战略供应关系

科大讯飞入股恒特电子

华泰汽车被恢复执行18.4亿

机构：预估陪伴型人形机器人2030年产值达11亿美元

金山办公将推出独立AI办公智能体灵犀专业版，率先上线PC端

人工智能文创产业基地揭牌，浦东、阅文打造全国标杆型“AI+文创”产业项目

GPT-5. 6 上线引爆需求：奥尔特曼称上周OpenAI智能体产品用量增长2. 5 倍

全球首款手机级 27B 多模态 AI 模型 Bonsai 27B 横空出世

大麦娱乐启动“麦芒计划” 直播招募新生代演艺人才

世界互联网大会开放日连尚集团展示多场景AI应用布局

OPPO与支付宝深化AI生态合作一句话办近200项服务