独家专访OpenAI科学家：OpenAI正全力攻克推理模型串联知识难题

IP属地中国·北京 编辑：冯璃月 DeepTech深科技 时间：2025-08-01 14:07:43

近日，《麻省理工科技评论》与 OpenAI 的两位研究主管陈信翰（Mark Chen）和雅各布·帕霍基（Jakub Pachocki）进行了独家对话，探讨了如何构建更强大推理模型的路径，以及“超级对齐”的未来。该文章在发布之后还得到了 OpenAI 首席执行官山姆·奥特曼（Sam Altman）在 X 上的转发。

图 | 从左到右：马克·陈和雅各布·帕霍基（OpenAI）
过去几年，OpenAI 给人的印象仿佛是一家“一个人的公司”。首席执行官山姆·奥特曼（Sam Altman）凭借明星般的风格和在融资中的高调表现，让公司其他重要人物都显得黯然失色。即便曾被“赶下台”，最终也强势回归，比以往更具声望。但如果撇开这位光鲜的掌舵者，就能更清楚地看见公司真正的方向。毕竟，OpenAI 声名远播的技术，并非出自奥特曼本人之手。
这一责任落在了 OpenAI 的两位研究主管——首席研究官马克·陈（Mark Chen）和首席科学家雅各布·帕霍基（Jakub Pachocki）肩上。他们共同负责确保 OpenAI 始终领先于谷歌等强劲对手。
最近，两人前往英国伦敦——OpenAI 于 2023 年在此设立了首个海外办公室。《麻省理工科技评论》在那次行程中对他们进行了独家专访。我们聊到了如何平衡研究与产品之间的天然张力。他们还解释了为什么认为编程和数学是通用模型变得更强的关键；他们谈论的 AGI 究竟意味着什么；以及由联合创始人、前首席科学家伊利亚·苏茨克弗（Ilya Sutskever）成立、旨在预防“超级智能失控”的超级对齐团队，在他离职后为何迅速解散。
我尤其想了解，在 OpenAI 即将发布数月来最重要产品 GPT-5 之际，他们对这项工作的关注点在哪里。
有报道称，该公司的下一代模型将于 8 月发布。OpenAI（或者说奥特曼）给出的官方说法是：GPT-5 将会“很快”上线。人们对此期待已久。GPT-3 和 GPT-4 的接连突破，显著抬高了公众对 AI 技术潜力的认知门槛。然而，GPT-5 的推迟也引发了各种猜测——有人认为，OpenAI 正面临难题，无法打造出连自己都满意的模型，更别说满足外界期待了。
奥特曼一改往日风格，罕见地表现得颇为低调。他在 X 上发文称：GPT-5 是一个实验性质的模型，融合了我们将在未来模型中采用的新研究方法。”听起来这更像是一个进行中的尝试，而不是又一次颠覆式发布。
但对于一家近几年一直引领行业走向的公司来说，管理好外界预期也是工作的一部分。而在 OpenAI 内部，制定议程的人就是陈和帕霍基。

图 | 奥特曼在 X 上转发本次文章的英文版（X）

双峰
OpenAI 在伦敦的主办公室位于圣詹姆斯公园，距离白金汉宫不远。但我是在国王十字附近的一间共享办公室里见到陈和帕霍基的。这里是 OpenAI 在伦敦科技核心区的小型据点，附近还有谷歌 DeepMind 和 Meta。OpenAI 的研究传播主管劳伦斯·福康内特（Laurance Fauconnet）坐在桌子尽头，打开了笔记本电脑。
陈穿着酒红色 POLO 衫，干净利落，带点精英预科生气质。他接受过媒体培训，与记者交流毫不怯场。（他曾在 GPT-4o 发布视频中与聊天机器人打情骂俏。）帕霍基穿着印有大象图案的黑色 T 恤，气质更像电视剧里的黑客，说话时常盯着自己的手看。
不过两人合作得比外表更紧密。
帕霍基说，陈主要负责组建和管理研究团队。“而我则负责制定研究路线图，设定我们长期的技术愿景。”
“但我们的角色是可以互换的。”陈说，“我们都是研究员，都会深入技术细节。只要发现有技术可解的问题，我们都会主动解决。”
陈于 2018 年加入 OpenAI，此前是华尔街 Jane Street 的量化交易员，在那里他开发了期货交易的机器学习模型。在 OpenAI，他主导开发了生成式图像模型 DALL-E，后又参与 GPT-4 图像识别功能的实现，并带领团队打造了代码生成模型 Codex（GitHub Copilot 的核心）。
帕霍基 2017 年从理论计算机科学研究领域转向工业界，加入 OpenAI，并在 2024 年接替苏茨克弗出任首席科学家。他是 OpenAI 推理模型（如 o1 和 o3）的主要架构师，这些模型专为攻克数学、科学、编程等复杂任务而设计。
我们见面时，两人正为 OpenAI 技术的连续胜利而兴奋不已。
7 月 16 日，OpenAI 的大语言模型在 AtCoder 世界总决赛中夺得第二名，这是世界最难的编程竞赛之一。7 月 19 日，OpenAI 又宣布其模型在 2025 年国际数学奥林匹克竞赛（IMO）中取得金牌水平成绩。
这一数学结果之所以登上头条新闻，不仅是因为 OpenAI 取得了非凡成就，还因为两天后其竞争对手谷歌 DeepMind 透露，其一款模型取得了相同的成绩。谷歌 DeepMind 遵守了比赛规则，在等待主办方核实结果后才宣布了这一消息；而 OpenAI 则是自行评分。
对于陈和帕霍基来说，结果本身就说明了一切。无论如何，他们最兴奋的是编程竞赛的胜利。“我认为这被低估了。”陈告诉我。他说，在国际数学奥林匹克竞赛中获得金牌意味着你跻身前 20 至 50 名参赛者之列。但在 AtCoder 竞赛中，OpenAI 的模型排在前两名：“真正跻身人类表现的全新层级——这是前所未有的。”

一切以发布为核心！
OpenAI 员工仍然喜欢称自己是在研究实验室工作，但自三年前 ChatGPT 发布以来，这家公司早已不可同日而语。它如今估值达 3000 亿美元，正与全球最强的科技巨头竞争。光有突破性的研究和炫技演示已经远远不够——它必须推出产品，并让产品真正落地——而它确实做到了。
OpenAI 持续推出新产品——对其 GPT-4 系列进行了重大更新，发布了一系列生成式图像和视频模型，并引入了用语音与 ChatGPT 对话的功能。六个月前，它推出了名为 o1 的新一代推理模型，随后又推出了 o3。它还推出了浏览器智能体 Operator。目前，其产品每周活跃用户超 4 亿，每天收到 25 亿条指令。
OpenAI 即将上任的应用程序首席执行官菲吉·西莫（Fidji Simo）希望保持这一势头。在给公司的一份备忘录中，她告诉员工，她期待“帮助 OpenAI 的技术被全球更多人掌握”，这些技术将“为更多人带来前所未有的机会”。预计产品会源源不断地推出。
我问 OpenAI 是如何平衡开放式研究和产品开发的。“这是我们在 ChatGPT 出现之前就一直思考的问题。”帕霍基说。“若我们认真对待通用人工智能目标，那在这个过程中，很多研究支线其实本身就会变成伟大的产品。”换言之，就是不断摇动树干，总会掉下果子。
OpenAI 员工经常提到的一个观点是，将实验性模型推向市场，本身就是研究的一部分。其目的是让人们意识到这项技术已经变得多么出色。“我们想告诉人们即将发生什么，这样我们才能参与到一场非常艰难的社会对话中。”奥特曼（Altman）在 2022 年告诉我。这项奇怪新技术的创造者也很好奇它可能用于什么：OpenAI 热衷于将其交到人们手中，看看他们会用它来做什么。
现在还是这样吗？他们几乎同时回答：“是的！”陈说。“在某种程度上吧。”帕霍基说。
陈笑着示意帕霍基继续。帕霍基说：“我不会说研究就是产品迭代。但如今模型在传统基准测试上已接近上限，我们长期以来关注的问题也开始出现突破。我们现在真正想看的是，这些模型在现实世界中能做些什么。”
就像在编程竞赛中与人类一较高下一样。在今年于日本举行的 AtCoder 竞赛中，击败 OpenAI 模型的是一位名叫 Przemysław Dębiak 的程序员，他也被人们称为 Psyho。这场竞赛是一场解谜马拉松，参赛者有 10 个小时的时间来寻找解决复杂编程问题的最有效方法。获胜后，Psyho 在 X 上发帖称：“我完全筋疲力尽了……我快崩溃了。”
陈和帕霍基与竞技编程界有着密切的联系。两人都曾参加过国际编程竞赛，陈还执教美国计算机奥林匹克竞赛队。我问他们，他们对编程比赛的热情是否让他们过于看重模型在这类挑战中的表现。
他们都笑了。“确实如此。”帕霍基说，“Psyho 算是个传奇人物，多年来一直是头号选手。他也是我朋友——我们以前常一起参赛。”他还曾在 OpenAI 工作过。
当帕霍基参加编程竞赛时，他更青睐那些专注于较短且具有具体解决方案的问题。但 Psyho 则喜欢那些更长、没有明确正确答案的开放式问题。
“他过去总是取笑我，说我喜欢的那种比赛在他喜欢的那些比赛之前很久就会被自动化。”帕霍基回忆道，“所以我在这次最新的比赛中对这个模型的表现寄予了厚望。”
帕霍基告诉我，他一直守在东京的深夜直播中，看着他的模型获得第二名：“Psyho 目前还在抵抗。”
“我们追踪大模型在编程竞赛中的表现已经有一段时间了。”陈说道，“我们见证了它们的表现超越了我，超越了帕霍基。这就像李世石和 AlphaGo 的故事。”
李世石是围棋大师，2016 年，他在一系列比赛中输给了 DeepMind 的游戏模型 AlphaGo。这一结果震惊了国际围棋界，并导致李世石放弃了职业比赛。去年，他告诉《纽约时报》:“从某种意义上说，输给人工智能意味着我的整个世界正在崩溃……我再也无法享受比赛了。”然而，与李世石不同，陈和帕霍基对被超越感到兴奋。
但我们普通人为什么要关心这些小众领域的胜利呢？很明显，这项旨在模仿并最终取代人类智能的技术，是由那些认为顶尖智能就是数学竞赛中的高分或能与传奇程序员一较高下的人所开发的。这种偏重数学和分析能力的智能观是否过于狭隘？
“你说得没错——我们确实有点私心地想造出能提升我们效率的模型。”陈说。“我们认为这是取得进步的一个非常迅速的因素。”
像陈和帕霍基这样的研究人员提出的论点是，数学和编程是更为普遍的智能形式的基石，这种智能能够以我们自己可能都没有想到的方式解决各种各样的问题。“我们在这里谈论的是编程和数学。”帕霍基说，“但它实际上是关于创造力，关于提出新颖的想法，关于将来自不同领域的想法联系起来。”
看看最近的两场比赛：“在这两场比赛中，都出现了需要非常艰难、打破常规思维的问题。Psyho 在编程比赛的一半时间里都在思考，然后想出了一个非常新颖且与我们模型所见的任何解决方案都截然不同的解决方案。”
“这确实是我们所追求的。”帕霍基继续说道，“我们如何让模型发现这种新颖的见解？如何真正增进我们的知识？我认为它们已经在某些有限方面具备了这种能力。但我认为这项技术有潜力真正加速科学进步。”
我回到了关于对数学和编程的关注是否成问题的问题上，承认如果我们正在构建的是帮助我们进行科学的工具，那么这或许也没什么问题。我提出，我们并不一定希望大型语言模型取代政治家，也不希望它们具备人际交往能力。
陈做了个鬼脸，抬头望向天花板：“有何不可？”

还缺什么？
OpenAI 的诞生带有一种即便以硅谷标准也算傲慢的雄心。在 AGI 还被视为异想天开的年代，它就大张旗鼓地宣布要实现 AGI。如今，OpenAI 对 AGI 的执着依旧，并且比多数公司都更努力地将 AGI 推进为主流、甚至千亿美元级的技术方向。但它仍未抵达终点。我问陈和帕霍基，他们认为通向 AGI 还缺了什么。
“我觉得，想象未来最好的方式，是深入研究我们今天已经看到的技术。”帕霍基说。“OpenAI 从一开始就把深度学习看作神秘但极具潜力的强大工具。我们一直在试图理解它的瓶颈：它能做什么？不能做什么？”
陈说，目前最前沿的是推理模型，它们能把大问题拆解成更小、可管理的步骤。但即便如此，模型仍有局限性：“你会发现，有些模型知道很多知识，但无法把这些知识串联起来。为什么会这样？它们为什么不能像人类那样推理？”
OpenAI 正全力以赴想弄清楚这个问题。
“我们可能还处于这种推理范式的初级阶段。”帕霍基告诉我，“实际上，我们正在思考如何让这些模型长期学习和探索，并真正产生全新的想法。”
陈进一步强调：“我不认为我们已经攻克了推理。肯定还没做到。你得让模型读足够多的文本，才能大致模拟出人类的知识水平。”
OpenAI 不愿透露其用来训练模型的数据，也不愿详细说明这些数据的规模和结构——只是表示他们正在努力提高开发流程各阶段的效率。
这些努力让他们相信，所谓的“扩展定律”（即模型会随着计算能力的提升而不断优化）并未显示出失效的迹象。
“我没看到任何迹象表明扩展定律失效了。”陈坚称。“瓶颈当然存在。有时是模型架构问题，有时是数据问题。但归根结底，就是找到能突破当前瓶颈的研究路径。”
对进步的信念是坚定不移的。我提到了帕霍基在 5 月份接受《自然》杂志采访时谈到的关于 AGI 的事情：“2017 年我加入 OpenAI 时，我仍是公司里最大的怀疑论者之一。”他听完后显得有些迟疑。
“我不确定自己是否曾对这个概念持怀疑态度。”他说，“但我想我确实怀疑过——”他顿了顿，看着自己放在面前桌子上的双手。“当我加入 OpenAI 时，我原以为，要达到我们现在的阶段，至少还得花更长时间。”
“AI 的影响有很多，”他说，“但我最关注的是自动化研究。当我们回顾人类历史，会发现其中很多都与科技进步、人类创造新技术有关。计算机能够自行开发新技术，这一时刻似乎是一个非常重要的转折点。”
“我们已经看到这些模型在辅助科学家工作。但当它们能够着眼于更长远的未来——当它们能够为自己建立研究项目时——世界将会发生有意义的改变。”
对于陈而言，模型能够自主工作更长时间的能力是关键。“我的意思是，我确实认为每个人对 AGI 都有自己的定义。”他说。“但‘自主时间’这个概念很重要——即模型可以在不陷入死胡同的前提下，持续解决一个困难问题的时间。这就是我们努力的方向之一。”
这是一个大胆的愿景——远远超出了当今模型的能力范围。但陈和帕霍基让 AGI 听起来几乎平淡无奇，这还是让我感到震惊。这与我 18 个月前与苏茨克维尔交谈时他的回应形成了鲜明对比。“这将具有里程碑意义，惊天动地。“他告诉我。它会把历史划分为‘之前’和‘之后’。”他对 AGI 的信念如此深刻，以至于放弃继续研发最强模型，转而投身研究“如何控制这项可能比他更聪明的技术”。
两年前，苏茨克维尔组建了一支他称之为“超级对齐”的团队，他将与另一位 OpenAI 安全研究员简·莱克（Jan Leike）共同领导该团队。据称，该团队将把 OpenAI 五分之一的资源投入到研究如何控制一种假设的超级智能中。如今，包括苏茨克维尔和莱克在内的超级对齐团队的大多数成员已经离开公司，该团队也不复存在。
莱克辞职时表示，这是因为团队没有得到他认为应得的支持。他在 X 上发帖称：“打造比人类更智能的机器是一项本质上危险的任务。OpenAI 肩负着全人类的巨大责任。但在过去几年里，安全文化和流程让位于光鲜亮丽的产品。”其他离职的研究人员也发表了类似声明。
我问陈和帕霍基他们对这些担忧有何看法。“很多事情都是高度个人化的决定。”陈说。“你知道，研究人员有时会……”
他停顿了一下，重新组织语言：“他们可能坚信这个领域会以某种方式发展，他们的研究会取得成功并结出果实。而且，你知道，也许公司并没有按照你想要的方式重塑。这是个高度动态的领域。”
“很多事情都是个人决定。”他重复道，“有时候，这个领域的发展与你做研究的方式并不那么一致。”
但两人都坚称，对齐工作如今已成为核心业务的一部分，而不再是一个特定团队所关注的问题。帕霍基表示，除非这些模型能如你所愿地工作，否则它们根本不起作用。而让现有模型行为符合预期，已经够难了——没人还有精力去思考假想中的超级智能该如何对齐。
“两年前，我们想象中的风险大多为理论风险。”帕霍基说，“但现在世界已经不同，很多对齐问题已变得非常实际、具体。”
尽管如此，实验技术正以前所未有的速度被转化为大众市场产品。这真的不会导致两者之间产生分歧吗？
“我常常有幸能真正从长远角度思考技术未来的发展方向。”帕霍基说，“而应对流程中的现实问题——无论是人员方面，还是更广泛的公司需求方面——则落在马克身上。这并非真正的分歧，但这些不同的目标与公司所面临的不同挑战之间，自然而然会产生紧张关系，而这种关系在我们之间也体现了出来。”
陈插话说：“我认为这是一种非常微妙的平衡。”
附 Mark Chen 和雅各布·帕霍基（Jakub Pachocki）的个人介绍：
Mark Chen（陈信翰）是 OpenAI 的核心技术领导者之一，现任首席研究官（Chief Research Officer），负责统筹 OpenAI 的前沿 AI 研究，并推动科研成果向产品转化。他出生于中国台湾，成长于美国，高中时期随家人返台，曾就读于新竹实验中学双语部，并在麻省理工学院获得数学与计算机科学双学位。Mark Chen 在 OpenAI 的贡献极为突出，曾主导开发了多个关键 AI 模型，包括：DALL·E 系列：OpenAI 的突破性图像生成模型。Codex：为 GitHub Copilot 提供支持的 AI 编程系统。GPT-4 视觉功能：为 GPT-4 引入图像识别能力。GPT-5 研发：目前正与首席科学家 Jakub Pachocki 共同领导 OpenAI 下一代大模型的开发。2024 年，他升任研究高级副总裁（SVP of Research），并在 OpenAI 高层重组后进一步晋升为首席研究官。他以其深厚的技术背景和领导力，推动 OpenAI 在 AI 竞赛（如国际数学奥林匹克、AtCoder 编程比赛）中取得突破性成绩。此外，他曾在清华大学发表演讲，分享 ChatGPT 的研发历程，展现其技术影响力。Mark Chen 不仅是 OpenAI 的技术骨干，也是 AI 安全与推理能力发展的关键推动者，强调 AI 的稳健性和社会价值。
Jakub Pachocki是 OpenAI 的首席科学家，自 2017 年加入公司以来，一直是推动 AI 前沿技术发展的核心人物。他于 2024 年接替 Ilya Sutskever 成为 OpenAI 的首席科学家，领导了多个关键 AI 模型的研发，包括 GPT-4、OpenAI Five（Dota 2 AI 玩家）以及 o 系列推理模型（如 o1、o3）。Pachocki 在 AI 领域的贡献不仅限于语言模型，他还专注于强化学习（RL）和世界模型（World Model）的研究，认为 AI 未来将能自主发现科学知识，而不仅仅是辅助工具。他强调，AI 推理能力的提升依赖于预训练与强化学习的结合，使模型能够“自主思考”而非仅依赖人类引导。在 AGI 的探索上，Pachocki 认为 AI 的经济价值将是关键里程碑，预计未来五年 AI 将能自主进行科学研究，甚至今年就可能实现近乎自主的软件开发。此外，他还带领 OpenAI 的 AI 系统在国际数学奥林匹克竞赛（IMO）和 AtCoder 编程比赛中取得顶尖成绩，证明 AI 已具备高级推理能力。Pachocki 低调务实，曾是谷歌 Code Jam 冠军和 ACM ICPC 金牌得主，拥有深厚的计算机科学背景。他的研究正在推动 AI 从工具向自主科研伙伴的转变。
参考资料：
https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/
运营/排版：何晨龙

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

2025年我国汽车产销双超3400万辆

汽车产业竞争力源自硬实力（经济聚焦）

英国首相：不会就X平台生成虚假色情内容妥协

美媒：“星链”向伊朗用户提供免费互联网接入服务

死了么APP征集新中文名

专利显示谷歌Pixel 11 Pro Fold折叠屏手机电池更便于后期更换

全站最新

2025年我国汽车产销双超3400万辆

汽车产业竞争力源自硬实力（经济聚焦）

英国首相：不会就X平台生成虚假色情内容妥协

美媒：“星链”向伊朗用户提供免费互联网接入服务

热门推荐

国产纳米晶体结构快速解析仪发布

小麦赤霉病关键“感病开关”基因被发现

2025年我国汽车产销双超3400万辆

汽车产业竞争力源自硬实力（经济聚焦）

百台机器人“打工” 规模化采集打造数据基座

英国首相：不会就X平台生成虚假色情内容妥协

上海发布“模速智行”行动计划有序扩大自动驾驶开放区域

微创机器人重塑全球手术机器人市场格局

美媒：“星链”向伊朗用户提供免费互联网接入服务

死了么APP征集新中文名

专利显示谷歌Pixel 11 Pro Fold折叠屏手机电池更便于后期更换

西班牙媒体：研究发现，格陵兰冰盖曾于7000年前完全消融

美媒：比拼颜值，“萌系AI”来了

施加种种限制，暴露“防华”心态，美有条件“放行”H200芯片

财经观察：DeepSeek一周年，中美AI之路再对比