![]()
新智元报道
编辑:倾倾
GPT-5不再只是更聪明的模型,而是一台学会犹豫的机器。它能判断问题的难度,分配自己的思考时间,甚至决定何时该停下。OpenAI副总裁Jerry Tworek在最新访谈中透露:GPT-5的真正突破,是让AI拥有了「时间感」。当机器学会克制,人类却愈加焦躁。也许我们教给AI的,不只是如何思考,而是如何重新做人。
十年前,人类教机器「算」;如今,机器开始学会「想」。
OpenAI副总裁Jerry Tworek在一次访谈里,随口提到一句话:
GPT-5可以自己决定要思考多久。
![]()
这句话让AI圈炸开了锅。
因为这意味着,AI不再只是被动接收指令的工具,而是开始调控自己的思维节奏。
有的问题,它几秒就能答出;有的问题,它会「犹豫」、停顿、再推几步。仿佛第一次拥有了时间感。
而这,可能是从生成答案的机器到真正会思考的智能体之间,最关键的一步。
从「算」到「想」
AI也该学会先想再答
当我们向GPT-5提问时,它并不总是最先给出答案。有时,它会停一停,先把内部的逻辑梳理清楚,再做选择。
这个停顿并非性能拉胯,而是其思考能力成熟的信号:AI不再是盲目输出,而是在思考要输出什么、如何输出最优解。
在Matt Turck的访谈中,Jerry Tworek提出了一个核心观点:
AI的「推理」,并不是逻辑或数学证明,而是在语言空间中学习搜索与组合模式。
他认为,AI的思考发生在语言的概率空间中。模型在生成每一个词(token)时,都会进行无数次隐形的比较与判断,这种语言层面的搜索,构成了它的推理过程。
![]()
为让这种「思考」更易于理解,研究者们在2022年提出了Chain of Thought(思维链)技术。
![]()
简单来说,就是在提示词中要求模型「一步步思考再回答」,从而显著提升复杂推理任务的正确率。
GPT-5则在此基础上更进一步。Tworek提到,GPT-5不仅会展开推理链,还能「判断自己要思考多久」。
我们发现,模型能根据问题的难度动态决定思考时间——难题思考更久,简单题思考更短。
这意味着,GPT-5的升级不只是推理更强,而是让机器第一次拥有了时间感。
它会在每一步内部问自己:「要不要再想一想?」、「这一步够了吗?」
这种控制思维深度的机制,被研究者称为Dynamic Reasoning Depth(动态推理深度)。
就像人解数学题,GPT-3可能秒回,GPT-5 却选择斟酌:它会先想清思路,再回答问题。
这不是迟缓,而是一种更高层次的克制。
AI的「犹豫」
机器如何学会自己决定思考多久?
在过去的语言模型里,AI的推理都是一口气完成的。
输入问题,模型沿着概率最高的路径一路生成,直到遇到结束符号。
这就像一个不会停下来的学生:无论题目多难,都用同样的时间、同样的思维方式作答。
而GPT-5的关键进化,是让机器学会了「犹豫」:它能判断自己是否「想得够不够」,要不要再推几步。
Jerry Tworek在与Matt Turck的访谈中提到:
我们一直在实验一种机制,让模型自己决定要思考多久。你几乎能看到它在复杂问题上分配更多步骤来推理。
![]()
这种机制的原理,与2024年一项研究提出的思路相似。
一篇论文曾提出:模型可以在生成过程中「在线评估」当前答案的置信度,并据此选择继续推理或提前终止。
作者在论文中写道:
模型可以在推理阶段自适应地决定推理步数,从而同时提升效率与准确度。
换句话说,GPT-5不是在死记硬背,而是在分配思考预算:它会用更多计算资源处理逻辑链更长、变量更多的问题,在较简单的输入上则快速收敛。
![]()
这样的「时间自控力」,让AI从一个被动的应答者,变成了有节奏的思考者。
它不再一次性输出结果,而是像人一样先审题,再推理,再决定:「我是不是该再想一想?」
目前,OpenAI内部称这一思路为Controlled Deliberation(受控思考)。
在实践中,这种机制不仅提升了复杂任务的正确率,也减少了幻觉的出现,因为模型有更多机会在中间步骤中自我验证。
根据2024年OpenAI的一份技术备忘录,这种动态推理模型在数学与逻辑类benchmark上的平均准确率提升了约18%。
当我们重新看向GPT-5的「犹豫」,会发现那其实是一种成熟。
它不再追求立刻回答,而是学会了——在正确之前,先想清楚。
从o1到GPT-5
OpenAI如何教出一台会思考的机器?
如果说GPT-5的犹豫是它的新能力,那么这场蜕变的起点,来自OpenAI内部的一系列试验模型。
在访谈中,Jerry Tworek首次公开提到一个很少见的版本序列:O1→O3→GPT-5。
这不是单纯的命名升级,而是一条清晰的演化线——每一代,都在回答一个问题:机器能不能更好地「想」?
Tworek解释道:
o1是我们第一次看到模型真正展现出推理能力的时候。o3让它能更稳定地使用中间步骤,而GPT-5则让整个思考过程变得可控。
这一演化路径,代表着 OpenAI在「让模型思考」这件事上从启蒙到自觉的过程:
o1阶段:模型开始显露出零星的推理迹象,能够在算术、逻辑题中表现出超出「模仿」层面的理解。
o3阶段:通过强化学习和思维链优化,模型能更系统地展开中间步骤,不再轻易跳步或遗忘关键逻辑。
GPT-5阶段:引入「动态推理深度控制」,让模型在推理过程中具备时间自我管理的能力。
从技术角度看,GPT-5很可能使用了一种结合Reinforcement Learning with Deliberation (RLD) 的框架,即在训练阶段为模型引入奖励信号,不仅评估「答对没」,还评估「思考得好不好」。
在这方面,一篇具有代表性的论文——Let’s Verify Step by Step提出了「过程监督(process supervision)」的概念。
![]()
论文指出:
在具有挑战性的MATH数据集上,用过程监督训练模型,显著优于只监督最终结果的方法。
OpenAI此后也在官方博客中多次提到,他们正在探索利用「中间步骤奖励」来改进推理模型的训练,以减少幻觉并增强模型在数学和逻辑任务上的可靠性。
从o1的「会想」,到o3的「想得稳」,再到GPT-5的「懂得停」, OpenAI完成了一次看似微小却决定性的飞跃:
智能,不只是计算力,更是对思考过程的调控力。
机器的耐心,人类的焦虑
GPT-5的进化,让机器第一次学会了慢下来。
它不再以最快速度给出答案,而是懂得分配推理时间、验证中间步骤、再谨慎地输出结果。
这种「克制」,在技术语境中被称作Controlled Deliberation(受控思考)。
换句话说,AI越能「克制」,越能「正确」。这是一种与人类思维截然相反的进化路径。
在我们的时代,一切都在追求快:即时通讯、即时反馈、即时决策。
人类的思维越来越依赖短线反应,而机器却在被训练得越来越耐心。
OpenAI的研究人员在博客中写道:
思考步数越多的模型往往更准确,但我们也必须教它们——何时该停下。
这句话更像是在对人类说的。我们同样被效率困住,却忘了「停下」也是一种智慧。
当AI开始拥有思考时间的自我管理能力,它反而比我们更像人。
它懂得在复杂中沉默,在不确定中思索,而我们则在碎片化中一次次打断自己的思考。
有人将这种变化称为「耐心的反转」:
机器在学会慢,而人类却越来越快。
也许有一天,我们不再问「AI什么时候比人聪明」,而是会开始反思——我们是不是还配得上「思考」这个词。
从o1的稚嫩,到o3的沉稳,再到GPT-5的自控,OpenAI用十年时间,让一台机器学会了「慢」。
它不再只是追求速度的算子,而是一个有节奏的思考者。
它能判断问题的复杂度,分配自己的「思考预算」,甚至懂得在恰当的时刻停下。
而这一切的背后,是人类第一次教出了一种懂得克制的智能。
也许,这才是真正的「推理」起点。
当机器在追求「想得更清楚」,而我们忙着「做得更快」,
那一刻,AI 不再只是镜像我们的理性,它反而照出了我们早已遗忘的耐心。
人类让机器思考,最后被提醒的,可能正是——如何去想。
参考资料:
https://x.com/mattturck/status/1978838545008927034





京公网安备 11011402013531号