当前位置: 首页 » 资讯 » 科技头条 » 正文

OpenAI 后训练负责人:AI 没有突然变强,只是刚刚跨过一道坎

IP属地 中国·北京 编辑:杨凌霄 AGIHunt 时间:2026-05-24 00:07:40

纽约 VC Matt Turck 和 OpenAI 后训练负责人 Yann Dubois 做了一期深度访谈。

访谈封面

从 GPT-5.5 的发布内幕,到强化学习为什么突然管用了,再到 AI 行业最大的未解难题,这期对话干货密度很高。

01他们是谁

Yann Dubois是 OpenAI 后训练前沿团队(Post-Training Frontiers)的联合负责人。他的团队负责的事情是: 把一个什么都知道但什么都不太好用的大模型,变成一个真正能帮上忙的产品

GPT-5.5、o3、GPT-5 Thinking,这些 OpenAI 最近的核心推理模型,都经过了他团队的手。

Yann Dubois

Dubois 是瑞士人,本科在 EPFL 学生物工程,后来在剑桥拿了机器学习硕士,又拿着 Knight-Hennessy 奖学金去 Stanford 读了计算机博士。读博之前,他还在新加坡的 Grab 做过 NLP,给泰语、高棉语、缅甸语这些小语种搭语言处理管线,覆盖了 4000 万用户。

在 Stanford 期间,他做了两件影响很大的事:一是 Stanford Alpaca,用不到 600 美元的成本微调出了一个接近 GPT-3.5 水平的开源模型,直接点燃了整个开源后训练社区。二是 AlpacaEval,至今仍是业界最广泛使用的指令跟随模型自动评估工具之一。

去年 GPT-5 发布时,他上台做了一个现场演示:让 GPT-5 给他的法语区家人做了一个法语学习应用,包含闪卡、测验和一个贪吃蛇小游戏,两分钟内写出 240 行代码跑起来了。(据他自己说,最后一次彩排的时候其实没跑通,所以上台时还挺紧张的。)

Matt Turck是纽约早期风投 FirstMark Capital 的合伙人。他从 2012 年开始每年发布一份 MAD(Machine Learning, AI & Data)Landscape 全景图,已经成了 AI 行业的年度必看图谱,2024 年版塞进了 2011 个公司 logo。他本人也是法国人,之前联合创办过企业级 AI 搜索引擎 TripleHop,后来被 Oracle 收购了。

02跨过可靠性门槛

Yann 在一开始就抛出了一个核心判断: AI 的进步其实一直是连续的,但人们的感受却像是一个台阶函数

为什么呢? 他给了三个原因。

第一个,也是最关键的: 可靠性终于跨过了临界点。

“ 你需要达到这个可靠性水平,才能让 AI 工具真正有用。我认为我们大概在去年 12 月跨过了这道坎,至少在 OpenAI 是这样。现在我们可以信任这些模型来完成我们正在做的大量工作。

他打了一个比方:如果你把 Agent 模型想象成每两分钟有一定概率出错的系统,那它运行时间越长,最终答案出错的概率就越高。而他们一直在做的事情,就是不断降低这个「每两分钟出错」的概率。

当这个概率低到一定程度后,使用者的感受就会发生质变,即使进步本身是渐进的。

跨过可靠性门槛

第二个原因: 模型开始加速自身。

OpenAI 内部大量使用自家模型来写代码、搭工具、做研究。当模型变强了,内部研发的速度也跟着提上来了,形成了一个正向飞轮。

第三个原因: 强化学习从竞赛走向了现实。

去年的 o1、o3 还主要在数学竞赛和编程竞赛上发力,因为这些场景容易判断对错。而今年,他们发现那些为「可验证奖励」开发的工具和方法,竟然也能用在真实场景里。

从竞赛到实用,这是人们此刻真正感受到 AI 进步的原因。

03发 GPT-5.5 像坐过山车

每个看起来不错的模型,在 OpenAI 内部都会经历一轮情绪过山车:一开始所有人都很兴奋,然后逐渐有人开始质疑,说它在这个任务上不行、那个方面有问题,于是进入一段「唱衰期」。

“ 这种波动在每个模型身上都会发生。GPT-5.5 也不例外,但它的波动幅度可能是最大的。大家先是非常兴奋,然后又变得不那么兴奋了,最终我们发布了,外界反馈很好。

发布 GPT-5.5 的情绪过山车

聊到最自豪的部分,他提了两点。

一是 效率,GPT-5.5 在大多数任务上的速度提升了大约 2 倍。

二是 整个公司的对齐,这个模型的成功,需要从预训练到推理优化到后训练的每个团队都朝着同一个方向发力。

04纵向加横向

这其实牵出了一个问题:OpenAI 内部到底是怎么组织团队的?

Yann 解释说,他们有两类团队。

纵向团队专注于特定的应用场景,比如有人专门做 Agent 编程,有人专门做计算机操控,有人做知识工作。每个团队在自己的垂直领域上推动改进。

横向团队,就是 Yann 自己的团队,做三件事:

决定最终训练中放什么进去、不放什么;把所有纵向改进整合到一起,跑大的训练任务;以及做那些横跨所有场景的通用改进,比如指令遵循、函数调用、思考时间分配。

纵向团队与横向团队的协作

好处在于,纵向和横向的改进可以正交地进行。可能这个版本只有一半的纵向团队做出了改进,下个版本就轮到另一半。

05思考效率

GPT-5.5 Thinking 和 GPT-5.5 Pro 到底有什么区别呢?

Yann 的回答是:本质上只是测试时计算量的不同。模型想得越久,回答正确的概率就越高。但这条曲线是对数形式的,投入 2 倍的计算,可能只换来一点点提升。

他自己其实不怎么用 Pro。

“ 我个人不太用 Pro,因为我很没耐心,不喜欢等那么久。正确率确实会提高,但提升的幅度对我来说还不够值得。

但有一群人特别喜欢 Pro: 数学家

他们可以把问题丢给 Pro,让它在后台跑一两个小时,不需要快速迭代。

那效率提升是怎么回事呢?

Yann 用了一个比喻:专家和实习生做同一个任务。实习生可能要花一两天,还要尝试十个方向,因为他不知道哪条路是对的。而专家凭经验就知道该走哪个方向,不会浪费时间在错误的路径上。

专家 vs 实习生的思考效率

模型的效率提升,本质上就是让它变成「专家」,知道哪条推理路径更可能正确。

而更大的模型天然更高效,因为它已经通过权重「思考」了一部分问题,不需要在推理时用额外的 token 来想。虽然模型更大意味着单个 token 的成本更高,但大模型在 GPU 上更容易做并行优化,总体效率反而更好。

06预训练没撞墙

去年 AI 圈的一个大叙事是「预训练撞墙了」。

Yann 说他两年前也这么想过,但现在看来,这堵墙并没有出现。

“ 你看 Anthropic 的 Mythos,从模型成本就能看出来它显然是个大得多的模型。它们仅靠增大模型规模就获得了很好的性能。我觉得业界至少有一部分人对此感到意外。

那数据墙呢?数据不够用了怎么办?

他说各家公司似乎找到了各自的方法来绕过互联网数据不够这个问题。至于是不是靠多模态数据或合成数据……他不能说太多,但他给了一个挺坦诚的观察:

“ 你看 Anthropic 的模型,它们在多模态上并不是特别强,但它们依然非常聪明。所以多模态数据,至少没有我以前想的那么必要。

预训练没撞墙

他认为,多模态数据真正发挥作用的时刻,可能要等到具身智能(embodied AI)成熟的时候。机器人在物理世界中的交互,能帮模型获得目前纯文本很难学到的常识,比如……重力是什么感觉。

07图书馆到专家

Yann 用了一个比喻来解释「预训练 → 中训练 → 后训练」这条流水线,倒是一下子就讲清楚了。

预训练,就像走进一座图书馆。理论上所有信息都在那里,但你得自己翻。而且图书馆里什么都有,广告、论坛灌水帖、维基百科,一视同仁地全学了。

中训练(Mid-training),是从图书馆里挑出高质量的书,多读几遍。比如 Wikipedia、GitHub 代码这些信息密度更高的内容,会被加权训练。

后训练,则是把一个读过所有书的「学霸」变成一个你可以直接提问的「专家」。你不需要自己去翻书了,直接问他就行,他能理解你的问题,并给出有用的回答。

从图书馆到专家的流水线

后训练的两个核心阶段是:

SFT(监督微调):让人类标注员提供标准答案,模型来模仿。问题是,模型的能力被标注员的水平给锁死了,永远不会超过「老师」。

强化学习(RL):不再给标准答案,而是给一个评判规则。模型自己尝试各种回答,对的奖励,错的惩罚。这样它可以超越人类标注员的水平。

开源社区的通常做法是:先做 SFT 让模型到达一个不错的基线,再用 RL 来突破上限。因为如果直接上 RL,模型需要「碰巧」找到正确答案才能被奖励,这个过程太低效了。

08RL 为什么管用了

强化学习以前不是出了名的「不好使」吗?

Yann 承认,两年前大多数研究者(包括他自己)都觉得 RL 太不稳定了,不值得折腾。他看到 ChatGPT 用了 RLHF 的时候,第一反应是:我不用 RL 也能做到一样好。Stanford Alpaca 就是这个思路的产物,只用 SFT 来复现 ChatGPT 的效果。

Yann LeCun 也说过一句著名的话:强化学习只是蛋糕上的那颗樱桃。

强化学习的逆袭

但现在情况变了。

“ 似乎在模型跨过了一定的规模之后,也就是模型已经对世界有了足够好的先验知识之后,强化学习就开始管用了。这不仅仅是 LLM 的现象。机器人领域似乎也在进入同样的阶段,他们也发现,用那些已经了解世界的模型来做 RL,效果好得多。

在开源社区里,方法也在收敛。以前有 PPO、DPO、各种 XPO,现在大家基本都用 GRPO。原因倒是很朴素:GRPO 是一个极简的方法,采样大量回答,判断哪个对,强化对的。

“ 在机器学习中,我们反复看到这样一个规律:最简单的、可以用计算来扩展的方法,最终总是赢的那个。

但 RL 也不是没有挑战。

基础设施层面,采样海量回答的计算开销相当大。

机器学习层面,Agent 任务中最头疼的问题是「归因」。一个 Agent 跑了很长一段推理流程,最终拿到了一个对或错的结果。但到底是哪一步导致了成功或失败呢?信息太稀疏了,很难精确归因。

09手艺还是科学

有人说 AI 系统并非被「构建」出来的,而更像是被「生长」出来的。Yann 怎么看呢?

“ 通常的规律是:一开始是手艺。人们尝试很多东西,逐渐建立起什么管用、什么不管用的直觉。然后随着时间推移,才慢慢过渡到科学。

科学方法很少是最先奏效的那个。很少有人拿出一个严格的理论推导说这就是最优方案,然后一做就成了。人们就是有某种炼金术的直觉,先把它搞定,然后再去理解为什么它管用。

先手艺后科学

先手艺,后科学。两者缺一不可,只是处于流水线的不同阶段。

10泛化的真相

GPT-5.5 在 Agent 编程、计算机操控、知识工作上都有不错的表现。这是因为在每个领域分别做了专门训练吗?

Yann 认为,泛化主要发生在 能力层面,而不是领域层面。

如果一个模型在数学竞赛上表现突出,它在编程竞赛上通常也不差。因为需要的底层能力是一样的。反过来说,如果一个模型在某个方面有缺陷(比如幻觉),那它在所有领域都会有这个缺陷。

但有一类泛化,到现在还是个难题: 从精确定义的问题到模糊的现实世界。

“ 数学竞赛和编程竞赛的题目定义非常精确,五行或十五行就包含了你解题需要的所有信息。但在真实世界里,如果我是一个咨询顾问或金融从业者,我首先得上网去搜索、提取各种信息,仅仅是为了理解问题本身,然后才能开始推理。

从精确到模糊的泛化

这也是为什么幻觉在每个领域都存在:不知道就胡说的毛病,是一个横向能力缺陷,而不是某个领域的特定问题。

11RL 如何治幻觉

说到幻觉,Yann 引用了 John Schulman 的一个经典分析。

SFT 其实可能会 制造幻觉。为什么呢?

假设模型并不知道某篇论文的存在,但在 SFT 的标注数据里,标注员引用了那篇论文作为答案的出处。模型被训练去模仿这个回答,结果它学到的是:引用一个自己根本不知道存在的东西。

强化学习则天然避开了这个坑。

因为 RL 是从模型自身的采样开始的。模型不太可能自己生成一个它不知道的东西,然后恰好还是对的。所以它几乎不会被奖励「编造」的行为。相反,它生成了不知道的东西并且错了,就会被惩罚,这个行为就被抑制了。

SFT vs RL 对幻觉的不同效果

SFT 在教模型「自信地引用不存在的东西」,RL 则在教模型「别说你不知道的事」。

12显式与隐式

不过 RL 也会带来一些「负面泛化」。

Yann 举了一个具体的例子:显式指令遵循 vs 隐式指令遵循。

如果你让模型修改一个文件,但文件名打了个错字,一个在显式指令遵循上训练得特别到位的模型,会老老实实地去修改那个打错名字的文件。但人类同事大概会发现你打错字了,自动改正。

“ 有时候我们会听到 OpenAI 的模型在你明确告诉它你想要什么时特别好用,但如果你说得不够明确,就没那么好了。

显式指令遵循 vs 隐式指令遵循

这就是横向能力之间可能存在的冲突:你在显式指令遵循上做得越好,可能在理解隐含意图方面反而有退化。

13RL 能覆盖全行业吗

那么,强化学习到底能不能推广到法律、医疗、金融等所有领域呢?

Yann 认为可以,但有两个现实瓶颈。

一是 人的瓶颈。做 AI 模型的人大多自己就是程序员,天然理解编程场景需要什么。但要让模型在法律领域做好,你需要真正懂法律的人来参与评估和数据收集,而这样的人不多。

二是 奖励设计的难度。有些领域天然容易做 RL,比如网络安全:你找到了一个漏洞,它要么是真的要么是假的,验证成本极低。但在法律或医疗领域,「正确」的标准本身就含糊得多。

哪些领域适合 RL

“ 模型在能力上并没有什么天然限制,不会让它在法律或医疗领域永远做不好。真正的限制是:我们对这些领域了解得还不够,而且有些领域做强化学习确实更容易一些。

14评估的困境

模型越强,评估就越难。

“ 现在我可能只需要说「帮我建一个做 X 的网站」。以前我会说「这段代码里有没有 bug」。后者很容易判断,因为可以让人列出所有 bug 然后自动对比。但前者有很多正确答案,很多种方式都可以把网站做好。

另一个棘手的问题是:模型在某些领域已经超过了大多数人类,能做评估的人越来越少。

还有一个文化层面的原因:

“ 大多数人都想做模型训练,他们觉得那才是有影响力的工作。但发现问题、量化改进,其实同样重要甚至更重要。不过文化上总是有这种差距。

他自己加入 OpenAI 时,第一个选择就是做数据和评估,因为他知道没人在做这个,所以影响力一定最大。

Model-as-Judge(模型当裁判)是他认为最重要的方向之一。更好的模型可以成为其他模型更好的老师和评判者,形成一个能力飞轮。

但这也带来了一个尴尬的副作用:每次你建了一个好的评估集,它其实同时也是一个优质的训练集。模型在类似的数据上训练后就能在这个评估上拿高分,然后评估就失效了。

评估的保质期越来越短

评估的保质期,正在变得越来越短。

15三年了还没解决

Yann 说他最兴奋的方向是 持续学习(Continual Learning),但同时他也承认:这个问题到现在还没被真正解决。

他的一个朋友提出过一个思维框架,听完之后挺受启发:

想象一个坐标轴,X 轴是时间,Y 轴是对用户的实用性。

AI 模型在 t=0 的时候,可能比大多数新员工都有用,起点相当高。但接下来,这条曲线基本是平的,因为模型不会真正学习公司内部的知识,也不会随着时间变得更高效。

人类新员工的起点低,但学习曲线陡得多。

AI 与人类的学习曲线对比

真正重要的是曲线下面的面积,也就是累积价值。按照这个指标,人类在很多场景下依然胜出。

“ 三年前 ChatGPT 刚出来的时候,我和朋友在想要不要做持续学习和个性化的创业。我们当时觉得,啊,OpenAI 六个月内肯定就会搞定这个。他们有所有数据,有所有用户,模型会从用户那里学得飞快。三年过去了,我觉得我们还没到那里。

他坦言自己其实也不完全理解为什么这么难。对于单个用户的持续学习,他认为如果真的投入足够的资源,应该是能解决的。

但到今天为止,它还是一个未解之谜。

16Harness 的有效期

关于最近 AI 圈热议的一个话题:模型会不会把 Agent 框架(harness)给「吃掉」?

Yann 对这个问题的态度算是比较务实:harness 短期内有用,但别指望它能长期不变。

“ 如果你是一家做特定垂直领域的公司,你想把可靠性从 80% 提到 85%,harness 可以帮你做到。但你要知道,未来你需要重新调整这个 harness。

如果你想做一个通用的、能长期稳定的 harness,我觉得那行不通。

然后他说了一句让我有点意外的话:

“ 如果我们把现在的模型冻结住,认真去做 harness,我觉得人们在几乎每个领域都能感受到 AGI 了。

Harness 的有效期

他的意思是:模型能力其实已经够了,差的是包装和最后一公里的工程。但因为模型在不断进步,最优的 harness 也在不断变化,所以没人知道最终形态会是什么样。

17最后一公里

对话的最后,Matt 问了一个创业者最关心的问题:模型越来越强,创业公司还有空间吗?

Yann 毫不犹豫地点了头。

“ 很多人觉得瓶颈是「智能」本身,也就是模型的原始能力。但我不这么认为。 大多数时候,真正的瓶颈是最后一公里。

确保模型有正确的权限、正确的数据连接器、正确的领域知识。我们会非常专注于通用能力的提升,而垂直领域的价值挖掘,应该由其他公司来做。

他鼓励创业者继续在垂直领域深耕。在他看来,在 OpenAI 停止做横向进步之前(他认为短期内不会发生),创业公司在垂直领域的空间会一直存在。

从通才到专家的最后一公里

模型是通才,但用户需要的是专家。从通才到专家之间的距离,就是创业公司的生存空间。

◇ ◆ ◇

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。