当前位置: 首页 » 资讯 » 科技头条 » 正文

刚刚,DeepSeek陈德里与两个AI,合写了一篇论文

IP属地 中国·北京 机器之心Pro 时间:2026-05-27 12:27:33



机器之心编辑部

「借助 CodeAgent,我终于可以重新捡起很多过去因为精力不足而搁置的事情了,写博客就是其中之一。这篇博客大概 1% 是我写的,99% 是 Agent 写的」。

刚刚,DeepSeek 研究员陈德里(Deli Chen)在 X 上分享了一篇由 AI Agent 深度参与完成的文章「From Copilots to Colleagues: A Survey of Autonomous Research Agents」。



文章地址:https://victorchen96.github.io/auto_research_survey.pdf

陈德里也特别说明,这篇文章更多是一次兴趣驱动的尝试:一方面是出于好玩,另一方面也是为了测试自己开发的 DeliAutoResearch 技能。因此,它并不是一篇严格意义上的学术论文,文中观点也仅代表个人,不代表任何公司或组织立场。

这篇论文一共迭代了6 轮(V1:4 轮,V2:1 轮,V3:1 轮),V1 初稿耗时 76 分钟,总耗时 6 天。大约经历了 108 轮 Agent 交互,消耗约64.8 万 tokens,LaTeX 共 2234 行。

103 篇参考文献,全部已核验。篇幅从 45 页增加到 46 页。包含 7 张图和 4 张表。现在论文一共 46 页,文件大小 538KB。

完成这篇文章后,陈德里也由此抛出了一个颇有意思的判断,他形容为个人暴论:Code Agent 正在让计算机科学论文发生疯狂通胀 —— 过去同样的工作,至少要花一个月。

陈德里表示,在这个过程里真正动脑消耗的「总 CPU 」时间:不到 2 小时



简单介绍一下,第一作者陈德里来自 DeepSeek,是 V1、V2、V3、V4、R1、DeepSeek-Coder 和 DeepSeek-MoE 架构的核心贡献者之一。他还曾在世界互联网大会上代表 DeepSeek 发言。



博客地址:https://victorchen96.github.io/

另外两位「合著者」,一位是 DeepSeek-V4-Pro,一位是 GPT-Image2—— 前者负责文字,后者负责图像

也就是说,这篇论文本质上是陈德里用 AI 写了一篇关于 AI 做科研的综述。这个设定也是一个重要的实验:陈德里搭建了一个他称为「Deli AutoResearch SKILL」的自主科研智能体框架,这篇 45 页的文章的部分内容正是用它生产出来的。此外,他还在论文中声明:这篇综述是他以「个人研究项目」名义发布的,观点不代表任何公司立场。



研究者本身成为了研究对象。这件事意味着什么,论文的其余部分会慢慢说清楚。

综述覆盖了超过 95 篇论文,系统分析了 17 个主流系统,试图为一个混乱生长的领域第一次画出清晰的地图。这个领域叫做「自主科研智能体(Autonomous Research Agents)」:给 AI 一个科研目标,它能独立完成从假设提出、实验设计、代码执行、结果分析到论文撰写的完整循环,全程无需人类在每一步审批。



这已经不是设想。就在过去 18 个月里,衡量软件工程能力的 SWE-bench 基准上,AI 解决真实 GitHub 问题的比率从不足 5% 攀升至 70% 以上;有系统以每篇 15 美元的成本产出完整学术论文并通过了人类初审;还有系统在无人引导的情况下,发现了超越已知边界的新数学构造。



AI 正在从「研究工具」变成「研究者」本身,速度之快出乎所有人的预料。

背景:「副驾驶」还是「同事」?

要理解这场变革的意义,不妨先想象一位传统的科研助理:给他一个课题,他能帮你检索文献、整理表格、执行代码。但你需要告诉他每一步怎么做,他遇到问题会停下来等你指示,他不会主动思考「接下来研究什么更有价值」。

这是过去几年 AI 扮演的角色 —— 副驾驶(Copilot)。方向盘,始终在人类手里。

现在正在发生的是一场「交权实验」。新一代智能体系统正在尝试独立完成完整的科研循环:提出假设、设计实验、执行代码、分析结果、撰写报告,甚至自我审阅和迭代。从头到尾,无需人类在每一步批准。

这种转变有多快?研究者们描述它「迅速而决定性」:短短 18 个月,便从工具进化到了同事。

但「同事」的含义也差别悬殊。有的系统只是能跑完一段代码不报错;有的则可以在机器人实验室里独自合成化合物。要给这片混乱的版图建立秩序,需要一套统一的语言。这正是这篇综述的核心贡献。

核心贡献一:为「自主程度」建立五级分类

这篇综述最重要的贡献是提出了一套L1 至 L5 的自主等级分类体系,类比汽车驾驶自动化的 SAE 标准:



L1(自动补全),是最常见的状态。GitHub Copilot、各类代码补全工具都在此列。AI 预测下一行代码,但你掌控一切方向。生产力提升约 30% 至 55%,代价是毫无自主性。

L2(任务执行),是现在大多数人用 ChatGPT、Claude 日常交互的层级。AI 能分解任务、调用工具,但每一步都需要你点头认可。你是策略决策者,AI 是执行者。

L3(多步自主,设有检查点),是当前主流「智能体编程工具」的位置 ——Claude Code、Cursor Agent 属于这一层。AI 能在设定的检查节点前独立执行数十步操作,出了预定范围才来找你确认。人类保持战略监督,但不必过问每个细节。

L4(端到端全自动),是当前技术前沿。Devin、SWE-Agent、AI Scientist 都在这里。给它一个科研目标,它能独立工作数小时乃至数天,产出完整成果。你只需要在最后评估结果。综述中分析的 17 个主要系统,最高均处于 L4。

L5(自主设定研究议程),目前仍是「愿景」。这一层级的系统不只执行研究,还能自己选择研究什么问题、分配资源、在数周到数月的时间跨度里持续积累知识。没有任何现有系统完整实现了 L5,但一些苗头已经出现:Google 的 Co-Scientist 具备部分自主假设生成能力,DeepMind 的 FunSearch 通过迭代程序搜索发现了真正的数学新知。



这套分类描绘了一条清晰的演化路径:从「帮你干活」到「替你思考」,每一级之间横亘着什么样的技术鸿沟。



核心贡献二:四种架构模式的得与失

知道「系统自主到什么程度」还不够,还需要理解「它是怎么做到的」。综述归纳了当前主流的四种智能体架构。



单智能体循环,是最简洁的形态:一个模型反复「计划 — 行动 — 观察 — 反思」。像一位独自工作的研究员,想好了就动手,看到结果再调整。好处是简单可控,缺点是遇到复杂任务容易触及上限。就像一个人同时负责所有工种,体力和注意力都会先撑不住。



多智能体协作,相当于组建团队。不同智能体分工扮演不同角色,相互审核和补充。MetaGPT 走得更远:它把标准作业流程(SOP)编码进多智能体协作中,就像一家软件公司,产品经理、架构师、工程师、测试员各司其职,通过规范化文档交接,而非自由聊天。结果是任务完成率从 67% 跃升至 100%。

层级编排,是「管理者 - 执行者」模式的技术实现。一个高层智能体分解目标、分配任务,多个专项子智能体各自负责具体执行并汇报结果。Claude Code 采用这一架构:主智能体维持全局状态和高层规划,遇到文件编辑或网页搜索之类的具体任务,便派出子智能体独立完成,避免无关信息污染主体判断。

工具增强执行,是「给智能体配备外部手脚」—— 代码执行环境、网络浏览、数据库查询、实验室机器人控制接口……ChemCrow 集成了 18 种化学专用工具,让模型从「知道怎么回答化学问题」升级到「能真正操作化学流程」。化学问题的正确率因此从原始 GPT-4 的不足 30% 跳升至 75%。

这四种架构各有擅长,没有哪一种全面碾压其他。现实中最强大的系统,往往是将它们混合使用:层级编排负责统筹,工具增强负责执行,多智能体协作负责质量审核,单智能体循环负责具体推理。

核心贡献三:六大未解难题

综述最诚实的部分是直面这个领域仍无解的困境。



认知循环陷阱:智能体陷入死循环 —— 反复执行同一个失败操作,却意识不到自己在原地打转。AutoGPT 因此声名狼藉:进入无限循环是它最常被提及的缺陷。目前没有通用的系统性解决方案,大多数「反循环」机制靠的是特定任务的手工调参。

上下文窗口限制:模型的「工作记忆」是有限的。一次长时间科研会话可能产生十万个以上的词元(token),超出窗口范围的早期信息便永久消失。层级编排能缓解这个问题,但仍难以真正实现跨会话的「研究记忆」。

新颖性评估:AI 产出的研究成果,如何判断它是否真正新颖?引用量预测受社会因素干扰,语义相似度又无法区分「新颖」和「偏僻冷门」。目前能做到客观验证的,只有像 FunSearch 那样用程序输出量化衡量的极少数领域。

可重现性危机:同样的系统、同样的任务,每次运行结果可能大相径庭。基准测试上的性能数字,标准差动辄达到 5% 至 15%。如何在随机性和严谨性之间找到平衡,目前尚无定论。



安全与伦理:能自主设计化学合成方案的系统,同样可能被引向危险化合物。这不只是「加一个过滤器」就能解决的工程问题,而是一个根本性的架构矛盾 —— 对益处有用的能力,往往和对害处有用的能力难以分离。

成本与可及性:解决一个 SWE-bench 任务的 API 费用,约在 5 至 50 美元之间;完整的科研流程则可能消耗数百至数千美元。最强大的基础模型仍是专有的、昂贵的。如果自主科研能力只属于资源雄厚的机构,那么它加速的,也可能是科研不平等而非科研本身。

结语

综述覆盖了超过 95 篇论文,详细分析了 17 个主要系统。结论清醒而审慎:当前最好的系统处于 L4,L5 仍是愿景;代码类任务已有相当成熟的自动化能力,真正意义上的开放科学发现仍停留在演示阶段。

论文的最后写道:「L5 自主研究 —— 能够自主制定长期研究议程的智能体 —— 是一个『何时』而非『是否』的问题。研究社区的任务是确保这一转变伴随着充分的理解、适当的保障,以及公平的收益分配。」



这句话出自一位参与构建了 DeepSeek-R1 的研究员和两个 AI。他们共同写下了这段对自身未来的警示。

这本身就是一件值得细想的事。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。