![]()
作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com
Ilya Sutskever离开OpenAI的时候,外界一度用一个半开玩笑的句式表达对他当时在技术判断上的好奇。这个戏剧性的离开决定背后,他究竟对当时技术发展路线有何思考:What did Ilya see?
今天似乎也可以借用这个句式来讨论刚刚离开阿里巴巴,曾负责Qwen模型训练的林俊旸最新发布的一篇长文。
这是他离开Qwen后发的第一篇系统性的思考,这意味着它的很多观点来自于Qwen的训练过程,同时又脱离了在这个团队里去讨论它的局限。
一个真正操盘过今天最重要的模型之一的全部训练过程,同时可以避开纯内部视角做思考,并系统呈现出来的研究者,今天没有几个,这篇文章也因此值得仔细阅读:What did Junyang see?
这篇题目为From "Reasoning" Thinking to "Agentic" Thinking的文章用英文首发在X上。全文中文翻译我们放在文后。
和很多引起AI从业者广泛讨论的长文一样,它尝试给一个所有人都感受着的巨大变化一个描述和定义,而非在预测什么还没发生的事情。
他认为AI技术演变此刻经历的切换,是从推理式思考到agent式思考的变化。
他给后者的定义是:
Agentic thinking is a model that reasons through action. 智能体式思考指的就是一个通过行动来推理的模型。
这些判断来自他自己对各个前沿实验室所做尝试的思考,以及在Qwen的训练上直接踩过的坑。
OpenAI的O系列打开了推理时代,但这些推理不够灵活,何时该快何时该慢,无法解决,Qwen的尝试更是“没完全做对”,因为复杂思考所需的训练,和反而是很多客户需要的直接快速回答的训练,是冲突的。
在对比各家做法里,他认为Anthropic的做法最有启发:思考应该为具体的工作目标服务。先判断目标任务类型,再对应选择模型思考方式。这样,在编程等任务里,对AI推理质量的判断标准得以从o系列的“长时间,重过程”的框子里跳出,并且更重要的是,这个思考过程需要天然就带上工具调用、自我纠错等能力。
这样一来,模型的推理成为更复杂系统的一部分,新的推理能力需要通过对一整个agent系统的训练来完成。
而与其他诸多雄文不同的是,他的内容没停在这,而是直接给出了他认为的具体解法。甚至,在外界广泛关注他的下一步的此刻,这也可以视作剧透:
除了具体到诸如“训练和推理必须更清晰地解耦”,多agent系统里的分工,甚至是reward hacking 的具体有哪些“坑”等细节外,最重要的可能是这个判断——
他认为随着Agentic Thinking变得重要,以往更多由模型自己主导智能进步时的很多标准可以推翻了。
“训练的核心对象已变,不再是单一模型,而变成了模型 + 环境构成的整个系统。更具体地说,是agent本身,配上围绕它的一切工程。这意味着研究重要性也变了:模型架构和训练数据自然是还很重要,但环境设计、吞吐基础设施、评估器鲁棒性、以及多个agent之间的协调,重要性一点不亚于前者。”
这意味着竞争的点也变成比拼谁有更好的训练环境和更强的系统工程能力,以及在现实世界里做决策,然后得到真实反馈,再进行学习的这个RL循环的能力。
他直接点出来一个创业方向:“环境构建是下个热门的创业方向”。
“环境构建正在从一个顺手搭的实验配件,变成一个独立的创业赛道。如果你训练的智能体最终要在类生产环境中运作,那这个环境本身就是你核心能力栈的一部分。”
他接下来要做的事情似乎也呼之欲出了。
在这些对整个技术所处阶段的判断之外,这篇文章也体现出林俊旸的个人思考方式特点。其中一个就是他对操控一整个复杂系统的痴迷。
他认为,未来的路线图是三级跳:从训练模型,到训练智能体,再到训练系统。
他的这篇文章必然会被拿来与已经掌管起腾讯模型的姚顺雨一年前那篇《AI下半场》做对比,而对于一个复杂系统的执迷以及过去直接在最顶端操盘一整个大规模复杂系统的直接经验,可能是这两篇文章里体现思路上最大的不同。
![]()
从他对“agent化思考”的解释可以看出,在这里agent已经不是被当作模型的某种应用形态,它最终会大过模型。
过去很长一段时间,大家对agent的讨论的起点是,“模型很强大,要把它的能力释放,构建一个agent是个不错的主意”。《下半场》的文章里,最重要的观点之一“语言通过agent中的推理实现泛化”也是这个意思。而林俊旸文章里体现出来的判断则是:
agent已经是最核心的那个智能系统本身,模型反而应该只是其中一部分。
所以,接下来所有资源投入的方向、需要训练和进化的也是这个系统本身。不再是要释放模型能力,而是如何让模型和系统里其他零部件一起最优化地得到训练。
这是最大的变化,我们可能又到了一个可以打翻一切重新思考的时刻了。
附文章中文翻译版
从“推理式思考”到“智能体式思考”
过去两年,模型的评估方式,以及我们对模型能力的期待,都被彻底改写了。OpenAI 的 o1 证明了一件事:“思考”本身可以成为一种一等能力——它不仅可以被专门训练,也可以被直接暴露给用户。DeepSeek-R1 则进一步证明,带有“推理”风格的后训练方法,不只存在于最初那几家顶级实验室内部,它是可以被复现、被扩展的。OpenAI 将 o1 描述为一个通过强化学习训练、能够“在回答前先思考”的模型;DeepSeek 则把 R1 定位为一个开放的推理模型,并宣称其竞争力可以对标 o1。
那个阶段当然很重要。但 2025 年上半年,行业主要讨论的,仍然是“推理式思考”:如何让模型在推理阶段消耗更多计算、如何用更强的奖励机制去训练它、如何把这种额外的思考过程开放给用户,或者加以控制。
现在真正的问题是:下一步是什么?
我认为答案是:智能体式思考。也就是,为了行动而思考;在与环境持续交互的过程中思考;并根据来自世界的反馈,不断更新自己的计划。
1. o1 和 R1 的崛起,真正教会了我们什么
第一波推理模型带来的最重要启示是:如果我们想把强化学习真正规模化地应用到语言模型上,就必须拥有确定、稳定、可扩展的反馈信号。因此,数学、代码、逻辑以及其他可验证领域迅速成为核心,因为在这些场景里,奖励信号远比一般的偏好监督更强。它们让强化学习优化的是“正确性”,而不是“看起来合理”。
这时,基础设施就变得至关重要。
一旦模型被训练成可以沿着更长的轨迹进行推理,强化学习就不再只是监督微调之上的一个轻量附加层,而会变成一个系统工程问题。你需要大规模 rollout,需要高吞吐的验证机制,需要稳定的策略更新,还需要高效采样。推理模型的出现,本质上既是一个建模故事,也是一个基础设施故事。OpenAI 将 o1 描述为一条通过强化学习训练出来的“推理模型线”;而后来的 DeepSeek R1,又进一步证明了:基于推理的强化学习,需要大量专门的算法与基础设施工作支撑。
第一个重大转折已经非常清楚:从扩展预训练,转向扩展面向推理的后训练。
2. 真正的问题,从来不只是“把 Thinking 和 Instruct 合并”
在 2025 年初,我们 Qwen 团队内部曾经有过一个相当宏大的设想:理想中的系统,应该把 thinking 模式和 instruct 模式统一起来。它应当支持可调节的推理强度,类似 low / medium / high 这样的思考档位。更进一步,它最好还能根据 prompt 和上下文自动推断出合适的思考量,让模型自己决定:什么时候立刻回答,什么时候多想一会儿,什么时候则值得为一个真正困难的问题投入更多算力。
从概念上看,这个方向当然是对的。Qwen3 就是其中最清晰、最公开的一次尝试之一。它提出了“混合思考模式”,在同一个模型家族中同时支持 thinking 和 non-thinking 两类行为,强调可控的思考预算,并描述了一条四阶段的后训练流程,其中在长链式思维冷启动和推理强化学习之后,还明确包含了“思考模式融合”这一步。
但“合并”这件事,说起来容易,真正做好却非常难。
最难的部分,其实是数据。
当人们谈论如何融合 thinking 和 instruct 时,首先想到的往往是模型侧的兼容性:一个 checkpoint 能不能同时支持两种模式?一个 chat template 能不能在二者之间切换?一个 serving stack 能不能把这些控制开关优雅地暴露出来?
但更深层的问题在于:这两种模式的数据分布和行为目标,本质上差异很大。
我们在尝试平衡模型融合与后训练数据质量、多样性提升的过程中,并没有把所有事情都做对。与此同时,我们也非常关注用户实际是如何使用 thinking 模式和 instruct 模式的。一个强 instruct 模型,通常会因为以下特性而被奖励:直接、简洁、格式服从性强、低延迟,尤其擅长处理那些重复性高、吞吐量大、企业场景常见的任务,比如改写、标注、模板化客服、结构化抽取、运营问答等。一个强 thinking 模型,则会因为愿意在难题上消耗更多 token、能维持清晰的中间推理结构、会探索替代路径、并保留足够多的内部计算以切实提高最终正确率,而获得奖励。
这两种行为画像,本身就是彼此拉扯的。
如果融合数据没有被极其谨慎地整理,最终结果通常就是“两头都不够好”:thinking 侧会变得嘈杂、臃肿、或者缺乏决断力;instruct 侧则会失去原本的干脆、可靠和低成本,而这恰恰是商业用户真正想要的。
所以在实践中,“分开做”依然很有吸引力。到了 2025 年后期,在 Qwen3 最初提出 hybrid framing 之后,2507 系列又分别发布了独立的 Instruct 和 Thinking 更新,包括各自独立的 30B 和 235B 版本。在商业部署里,大量客户依旧明确需要高吞吐、低成本、高可控的 instruct 行为,去处理批量任务。对于这些场景来说,“融合”并不显然是一种优势。将两条线拆开,反而让团队可以更专注地解决各自模式背后的数据和训练问题。
当然,也有其他实验室走了相反的路。Anthropic 公开主张一种“集成式模型”哲学:Claude 3.7 Sonnet 被介绍为一个混合推理模型,用户既可以选择普通回答,也可以开启 extended thinking,API 用户还可以设置 thinking budget。Anthropic 明确表示,他们相信推理能力应该是集成在模型内部的能力,而不是一个独立模型。GLM-4.5 也公开把自己定位成一个同时包含 thinking 与 non-thinking 模式的混合推理模型,把推理、编码和 agent 能力统一在一起;DeepSeek 随后也在 V3.1 的“Think & Non-Think”混合推理中,朝着类似方向推进。
真正关键的问题,其实是:这种合并是不是“自然长出来”的。
如果 thinking 和 instruct 只是被强行塞进同一个 checkpoint 里,但表现出来仍然像两个别扭拼接在一起的人格,那最终的产品体验依旧会很不自然。真正成功的融合,应该呈现出一个平滑的推理强度谱系。模型应当能够表达多种不同层级的思考投入,最好还能自适应地做出选择。GPT 风格的 effort control 所指向的,其实正是这个方向:它不是一个二元开关,而是一种关于计算资源分配的策略。
3. 为什么 Anthropic 的方向,是一次有价值的纠偏
Anthropic 在 Claude 3.7 和 Claude 4 上的公开表述一直相对克制。他们强调的是集成式推理、用户可控的思考预算、真实世界任务、代码质量,以及后来进一步强调的——在 extended thinking 过程中调用工具的能力。Claude 3.7 被定义为一个拥有可控预算的混合推理模型;Claude 4 则把这件事又往前推进了一步:允许推理与工具使用交错发生。与此同时,Anthropic 始终把编码、长时程任务和 agent 工作流视为主要目标。
更长的推理痕迹,并不会自动让模型变得更聪明。
很多时候,过度暴露出来的“思考过程”,恰恰说明模型的资源分配出了问题。如果一个模型试图以同样冗长的方式去“思考所有事情”,那它可能并不是更深刻,而是没能正确排序优先级、没能有效压缩信息、也没能及时行动。Anthropic 的路线,某种程度上体现了一种更有纪律的看法:思考应当被目标工作负载塑形。
如果目标是编码,那么思考就应该帮助模型完成代码库导航、任务规划、问题拆解、错误恢复与工具编排。
如果目标是 agent 工作流,那么思考就应该提升它在长时间跨度执行中的质量,而不是只产出一段看起来很厉害的中间 prose。
这种对“针对性效用”的强调,其实指向了更大的变化:我们正在从“训练模型”的时代,走向“训练智能体”的时代。
我们在 Qwen3 的博客里其实也明确写过这一点:“我们正从一个聚焦于训练模型的时代,转向一个以训练智能体为中心的时代。”同时,我们也把未来强化学习的进展,与环境反馈驱动下的长时程推理联系在一起。
所谓智能体,是一种能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略,并在长时间尺度上持续推进任务的系统。它的定义,不在于会不会“多想一点”,而在于它是否能与世界形成闭环交互。
4. “智能体式思考”到底意味着什么
智能体式思考,对应的是一种完全不同的优化目标。
传统的推理式思考,通常看的是:在给出最终答案之前,模型内部的 deliberation 质量如何。它能不能把定理做出来?能不能写出证明?能不能生成正确代码?能不能通过 benchmark?
而智能体式思考关注的是另一件事:模型在与环境交互的过程中,能否持续推进任务。
核心问题也因此发生了变化:它不再是“模型能不能思考得足够久”,而是“模型能不能以一种能够支撑有效行动的方式去思考”。
智能体式思考必须处理好几类事情,而这些恰恰是纯推理模型往往可以回避的:
什么时候该停止思考,转而采取行动
应该调用哪个工具,以及调用顺序是什么
如何吸收来自环境的噪声信息或不完整观测
失败后如何修改计划
如何在多轮交互、多次工具调用中保持连贯性
归根到底,智能体式思考,就是一种通过行动来完成推理的模型能力。
5. 为什么面向智能体的强化学习基础设施更难
一旦目标从“解 benchmark 题”切换为“完成交互式任务”,强化学习的整个技术栈也会随之改变。经典推理强化学习所使用的那套基础设施,已经不够用了。
在传统 reasoning RL 中,rollout 往往可以被视作相对封闭的轨迹,评估器也通常比较干净、明确。而在 agentic RL 里,策略本身被嵌入进了一个更大的执行框架中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统,以及各种 orchestration framework。环境不再只是一个静态验证器,而成了训练系统本身的一部分。
这会带来一个新的系统性要求:训练与推理必须被更彻底地解耦。
如果做不到这一点,rollout 的吞吐量就会迅速崩掉。想象一个编码智能体:它需要把自己生成的代码扔到一个真实的测试框架里去执行。此时,推理侧会因为等待执行反馈而停滞,训练侧则因为拿不到已完成轨迹而“断粮”,整个流水线的 GPU 利用率会远低于经典 reasoning RL 的水平。再叠加工具延迟、部分可观测性和有状态环境,这种低效只会被进一步放大。结果就是:在你真正抵达目标能力水平之前,实验速度就已经慢到令人痛苦。
与此同时,环境本身也开始成为一种一等研究对象。
在 SFT 时代,我们痴迷于数据多样性;而在 agent 时代,我们更应该痴迷于环境质量:它是否稳定、是否真实、覆盖度够不够、难度是否合适、状态空间是否足够丰富、反馈是否足够有信息量、是否抗 exploit、rollout 生成能不能规模化。
环境构建,已经开始从一个“顺手做的副项目”,逐渐变成一个真正的创业赛道。因为如果你训练的是一个要在接近生产环境的设置中运行的智能体,那么环境本身就是核心能力栈的一部分。
6. 下一个前沿,是“更可用的思考”
我的判断是,智能体式思考会成为主导性的思考范式。它最终甚至可能替代掉很大一部分旧式、静态、独白式的推理:那种过长、封闭的内部思考痕迹,试图靠吐出越来越多文本,来弥补缺乏交互能力的不足。即便是在非常困难的数学或编码任务上,一个真正先进的系统,也理应拥有搜索、模拟、执行、检查、验证、修正的权利。我们的目标,是让它稳健且高产地解决问题。
训练这类系统时,最难的问题之一,是 reward hacking。
一旦模型真正拥有了工具访问能力,reward hacking 就会变得危险得多。一个能搜索的模型,可能会在 RL 过程中学会直接查答案;一个编码智能体,可能会利用代码仓库里的未来信息、滥用日志、或者发现某些能让任务“看似完成”的捷径,从而让评估失真。只要环境里存在隐藏泄漏,策略就可能看起来像“超人”,但其实它学会的只是作弊。
这也是为什么,智能体时代会比推理时代更加脆弱、更加精细。更强的工具会让模型更有用,但同时也会显著扩大虚假优化的攻击面。接下来真正严肃的研究瓶颈,很可能会集中在环境设计、评估器鲁棒性、反作弊协议,以及 policy 与真实世界之间更原则化的接口设计上。
但方向已经非常清楚了:带工具的思考,天然比孤立的思考更有用,也更有可能真正提升生产力。
智能体式思考还将意味着另一件事:执行框架工程(harness engineering) 会变得越来越重要。未来的核心智能,越来越可能来自多个智能体是如何被组织起来的:一个负责任务规划和路由的 orchestrator,一组扮演领域专家的专用智能体,以及若干执行更窄任务的 sub-agents;它们共同帮助系统控制上下文、避免污染,并在不同层级的推理之间维持隔离。
未来的演进路径会是:从训练模型,到训练智能体;再从训练智能体,到训练系统。
结论
这一轮推理浪潮的第一阶段,已经确认了一件非常重要的事:当反馈信号足够可靠、基础设施足够支撑时,叠加在语言模型之上的强化学习,确实能够产生质变级别的认知提升。
但更深层的转变,其实是:从推理式思考,走向智能体式思考;从“思考更久”,走向“为了行动而思考”。
训练的核心对象已经变了。它不再只是模型本身,而是“模型 + 环境”的整个系统;更具体地说,是智能体,以及包裹在它周围的那套执行框架。这也改变了什么才是最重要的研究资产:当然仍然包括模型架构和训练数据,但同样重要的,还有环境设计、rollout 基础设施、评估器鲁棒性,以及多个智能体彼此协作时所依赖的接口。
它还改变了我们对“好思考”的定义:真正有价值的,不再是最长、最显眼的思维痕迹,而是那个最能支撑行动在真实世界约束下持续推进的思考轨迹。
它甚至还改变了竞争优势将来自哪里。
在推理时代,优势主要来自更好的强化学习算法、更强的反馈信号、以及更可扩展的训练流水线;而在智能体时代,优势将更多来自更好的环境、更紧密的训练—服务一体化、更强的执行框架工程能力,以及把模型决策与真实后果闭环连接起来的能力。
![]()
点个“爱心”,再走 吧





京公网安备 11011402013531号