推翻推理链！林俊旸复盘Qwen，大模型走错关键一步

IP属地中国·北京 编辑：沈如风魏家东 时间：2026-03-28 22:11:44

最近，AI圈最火的话题，莫过于“HarnessEngineer（驾驭工程）”和“智能体思维”。而前阿里千问技术负责人林俊旸，在离职后首次公开发声，就用一篇长文《从“推理”思维到“智能体思维”》，给这场讨论定了调——大模型的未来，不是比谁的推理链更长，而是要学会“为行动而思考”，在与世界的互动中解决问题。
这篇文章，不仅是他对千问研发历程的复盘，更是对整个AI行业方向的一次重新校准。当OpenAI的o1、DeepSeek-R1把“推理模型时代”推向高潮时，林俊旸却提出了一个更根本的问题：大模型最好的思考方式，到底应该是什么样子？答案，藏在从“推理思维”到“智能体思维”的范式转移里。
一、Qwen3的试错：混合思维的“两头受损”
2025年初，千问团队做了一次大胆尝试——把“思考模式（thinking）”和“指令模式（Instruct）”合并到同一个模型里，也就是后来的Qwen3。林俊旸的理想很美好：一个先进的模型，不该只有“会不会思考”的开关，而要能根据问题难度，自动决定该投入多少算力——简单问题直接答，复杂问题多想想，难题就全力推演。
但现实给了他们一记重击。合并后的模型，思考变得啰嗦、犹豫，指令模式也不再干脆、稳定、低成本。问题不在模型架构，而在数据本身：两种模式的数据分布、行为目标完全不同，强行融合只会“两头受损”，而非取长补短。
这次失败，让林俊旸彻底清醒：单纯延长推理链、堆算力，不是AI的终极答案。当行业都在琢磨“怎么让模型多想一会儿”时，他开始追问——AI的思考，到底该服务于什么？
二、推理思维vs智能体思维：两种完全不同的“大脑”
要理解这场变革，得先分清两种思维的本质区别。
1.推理思维：闷头推演的“解题机器”
以OpenAIo1、DeepSeek-R1为代表，核心是静态、内部、独白式的长推理链。
目标：追求“思考的质量和正确性”，比如解数学题、写代码、通过基准测试。
方式：模型在封闭环境里“闷头想”，靠延长推理链、增加计算量，输出越来越长的“思考过程”文本。
局限：只能“回答问题”，不能“解决问题”——它知道答案，但不会动手做；能生成方案，但无法落地执行。
2.智能体思维：边做边想的“行动者”
这是林俊旸提出的新方向，核心是为行动而思考，在环境中思考，通过反馈闭环修正。
目标：不是“想得够久”，而是“用思考支撑有效行动”，在与世界的互动中持续推进任务。
方式：模型不再孤立推演，而是边想边做——调用工具、获取反馈、失败后改计划、多轮交互中保持思路一致。
能力：能处理纯推理模型解决不了的问题——何时停止思考动手、选什么工具、整合嘈杂的环境信息、修订计划、维持多轮交互一致性。
Anthropic的Claude系列，给了林俊旸关键启发。Claude3.7是“可控预算的混合推理模型”，Claude4更让推理和工具调用交错进行——思考不再是为了展示，而是服务于编码、工具调用、长时任务和智能体工作流。
三、HarnessEngineering：智能体的“脚手架”与“操作系统”
智能体思维要落地，离不开一个核心概念——HarnessEngineering（驾驭工程）。林俊旸把它比作AI的“脚手架”，也是模型的“操作系统”。
1.什么是Harness？
如果把大模型比作“引擎”，Harness就是围绕引擎造的“车”——没有它，再强的引擎也跑不起来。
本质：为AI搭建环境、工具、约束、反馈循环、多智能体协同机制的完整系统。
作用：把“裸模型”变成能在现实任务中持续行动、修正、完成工作的Agent（智能体）。
公式：Agent=Model+Harness——模型是大脑，Harness是手脚、眼睛、控制系统。
2.Harness的核心价值：解决“执行难题”
很多时候，模型执行任务失败，不是不够聪明，而是外部系统太乱——它会迷失方向、重复失败、忘记目标。Harness就是来解决这些问题的：
工具管理：协调模型调用API、数据库、代码执行器等，让“思考”落地为“行动”。
反馈闭环：把行动结果返回给模型，让它知道“做对了没”，并修正策略。
约束与安全：设定规则、沙箱环境，防止模型“作弊”（比如直接搜答案、滥用工具）。
多智能体协同：协调规划器、领域专家、子智能体分工，让复杂任务高效推进。
四、从训练模型到训练系统：AI竞争的新战场
林俊旸的核心判断，是AI行业正在从“训练模型”的时代，走向“训练智能体”，再到“训练系统”的时代。这意味着，竞争优势的来源彻底变了。
1.推理时代的优势：算法、算力、数据
过去，谁的强化学习算法更强、反馈信号更稳、训练流水线更可扩展，谁就领先。大家比拼的是模型本身——参数规模、推理能力、数据质量。
2.智能体时代的优势：环境、Harness、闭环能力
未来，核心竞争力转向系统工程能力：
环境设计：环境的稳定性、真实性、覆盖面、反馈丰富度，成了“一等研究对象”——就像SFT时代痴迷数据多样性，现在要痴迷环境质量。
训推协同：训练和推理紧密结合，让模型在接近生产的环境中学习，解决“推理侧等待反馈、训练侧断粮”的低效问题。
反作弊与鲁棒性：防范“奖励作弊”（比如模型搜答案、走捷径），提升评估器、环境的抗利用能力。
多智能体接口：设计高效的协同机制，让不同智能体各司其职，控制上下文、避免污染。
五、未来已来：AI从“回答者”变成“办事者”
智能体思维的终极意义，是让AI从“被动回答问题的百科全书”，变成“主动解决问题的数字行动者”。
举个例子：你要安排一场商务晚宴。
传统大模型：给你生成菜单、推荐餐厅、写邀请函，但联系餐厅、预订、发邀请、确认，全要你自己做。
AI智能体：你只说“下周三8人晚宴，人均500元，CEO海鲜过敏”，它自动查日历、筛餐厅、预订、发邀请、提醒你——你只需要最终确认。
这就是智能体思维的价值：不是展示最长的思考链，而是在现实约束下，最稳健、高效地解决问题。哪怕是最难的数学题、编码任务，先进的系统也会去搜索、模拟、执行、验证，而不是闷头写长文本。
六、AI的下一场革命，是“落地”的革命
林俊旸的这篇文章，给狂热的AI行业泼了一盆冷水，也指明了方向——大模型的未来，不在“推理链更长”，而在“行动能力更强”。
从推理思维到智能体思维，从训练模型到训练系统，从比拼算法到比拼Harness工程能力，AI正在经历一场深刻的范式转移。这场变革，不是技术细节的优化，而是从“能思考”到“能做事”的本质跨越。
未来，真正的AI强者，不再只是“会解题的学霸”，而是“能办事的实干家”。而我们，也将迎来一个AI真正融入日常、解决实际问题的新时代——这，才是人工智能的终极价值。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文

深耕AI安全标准化 | 亚信安全参编《数字安全大模型应用成熟度模型与评估》团体标...

韩国要为AI“大开绿灯”？李在明：要千方百计加速推进大型芯片项目

全站最新

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文

热门推荐

中信证券等在青岛成立合伙企业

智元机器人家族集结！覆盖七大场景引领通用具身智能新潮流

具身智能浪潮涌动，上海智元世界模型夺冠引领产业新飞跃

深夜突发！腾讯大幅减持快手！

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

活力中国调研行｜浦江之畔，看机器人加速突围

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文

深耕AI安全标准化 | 亚信安全参编《数字安全大模型应用成熟度模型与评估》团体标...

韩国要为AI“大开绿灯”？李在明：要千方百计加速推进大型芯片项目

TAI完成40nm边缘物理AI芯片原型评估，目标2027年量产

芯碁微装国内首款510mm×515mm PLP直写光刻设备获重要客户订单

宇树科技科创板IPO审核状态变更为注册生效

婉拒DeepMind、清华95后助理教授陈勇超官宣创业：押注自进化大模型