当前位置: 首页 » 资讯 » 科技头条 » 正文

推翻推理链!林俊旸复盘Qwen,大模型走错关键一步

IP属地 中国·北京 编辑:沈如风 魏家东 时间:2026-03-28 22:11:44

最近,AI圈最火的话题,莫过于“HarnessEngineer(驾驭工程)”和“智能体思维”。而前阿里千问技术负责人林俊旸,在离职后首次公开发声,就用一篇长文《从“推理”思维到“智能体思维”》,给这场讨论定了调——大模型的未来,不是比谁的推理链更长,而是要学会“为行动而思考”,在与世界的互动中解决问题。

这篇文章,不仅是他对千问研发历程的复盘,更是对整个AI行业方向的一次重新校准。当OpenAI的o1、DeepSeek-R1把“推理模型时代”推向高潮时,林俊旸却提出了一个更根本的问题:大模型最好的思考方式,到底应该是什么样子?答案,藏在从“推理思维”到“智能体思维”的范式转移里。

一、Qwen3的试错:混合思维的“两头受损”

2025年初,千问团队做了一次大胆尝试——把“思考模式(thinking)”和“指令模式(Instruct)”合并到同一个模型里,也就是后来的Qwen3。林俊旸的理想很美好:一个先进的模型,不该只有“会不会思考”的开关,而要能根据问题难度,自动决定该投入多少算力——简单问题直接答,复杂问题多想想,难题就全力推演。

但现实给了他们一记重击。合并后的模型,思考变得啰嗦、犹豫,指令模式也不再干脆、稳定、低成本。问题不在模型架构,而在数据本身:两种模式的数据分布、行为目标完全不同,强行融合只会“两头受损”,而非取长补短。

这次失败,让林俊旸彻底清醒:单纯延长推理链、堆算力,不是AI的终极答案。当行业都在琢磨“怎么让模型多想一会儿”时,他开始追问——AI的思考,到底该服务于什么?

二、推理思维vs智能体思维:两种完全不同的“大脑”

要理解这场变革,得先分清两种思维的本质区别。

1.推理思维:闷头推演的“解题机器”

以OpenAIo1、DeepSeek-R1为代表,核心是静态、内部、独白式的长推理链。

目标:追求“思考的质量和正确性”,比如解数学题、写代码、通过基准测试。

方式:模型在封闭环境里“闷头想”,靠延长推理链、增加计算量,输出越来越长的“思考过程”文本。

局限:只能“回答问题”,不能“解决问题”——它知道答案,但不会动手做;能生成方案,但无法落地执行。

2.智能体思维:边做边想的“行动者”

这是林俊旸提出的新方向,核心是为行动而思考,在环境中思考,通过反馈闭环修正。

目标:不是“想得够久”,而是“用思考支撑有效行动”,在与世界的互动中持续推进任务。

方式:模型不再孤立推演,而是边想边做——调用工具、获取反馈、失败后改计划、多轮交互中保持思路一致。

能力:能处理纯推理模型解决不了的问题——何时停止思考动手、选什么工具、整合嘈杂的环境信息、修订计划、维持多轮交互一致性。

Anthropic的Claude系列,给了林俊旸关键启发。Claude3.7是“可控预算的混合推理模型”,Claude4更让推理和工具调用交错进行——思考不再是为了展示,而是服务于编码、工具调用、长时任务和智能体工作流。

三、HarnessEngineering:智能体的“脚手架”与“操作系统”

智能体思维要落地,离不开一个核心概念——HarnessEngineering(驾驭工程)。林俊旸把它比作AI的“脚手架”,也是模型的“操作系统”。

1.什么是Harness?

如果把大模型比作“引擎”,Harness就是围绕引擎造的“车”——没有它,再强的引擎也跑不起来。

本质:为AI搭建环境、工具、约束、反馈循环、多智能体协同机制的完整系统。

作用:把“裸模型”变成能在现实任务中持续行动、修正、完成工作的Agent(智能体)。

公式:Agent=Model+Harness——模型是大脑,Harness是手脚、眼睛、控制系统。

2.Harness的核心价值:解决“执行难题”

很多时候,模型执行任务失败,不是不够聪明,而是外部系统太乱——它会迷失方向、重复失败、忘记目标。Harness就是来解决这些问题的:

工具管理:协调模型调用API、数据库、代码执行器等,让“思考”落地为“行动”。

反馈闭环:把行动结果返回给模型,让它知道“做对了没”,并修正策略。

约束与安全:设定规则、沙箱环境,防止模型“作弊”(比如直接搜答案、滥用工具)。

多智能体协同:协调规划器、领域专家、子智能体分工,让复杂任务高效推进。

四、从训练模型到训练系统:AI竞争的新战场

林俊旸的核心判断,是AI行业正在从“训练模型”的时代,走向“训练智能体”,再到“训练系统”的时代。这意味着,竞争优势的来源彻底变了。

1.推理时代的优势:算法、算力、数据

过去,谁的强化学习算法更强、反馈信号更稳、训练流水线更可扩展,谁就领先。大家比拼的是模型本身——参数规模、推理能力、数据质量。

2.智能体时代的优势:环境、Harness、闭环能力

未来,核心竞争力转向系统工程能力:

环境设计:环境的稳定性、真实性、覆盖面、反馈丰富度,成了“一等研究对象”——就像SFT时代痴迷数据多样性,现在要痴迷环境质量。

训推协同:训练和推理紧密结合,让模型在接近生产的环境中学习,解决“推理侧等待反馈、训练侧断粮”的低效问题。

反作弊与鲁棒性:防范“奖励作弊”(比如模型搜答案、走捷径),提升评估器、环境的抗利用能力。

多智能体接口:设计高效的协同机制,让不同智能体各司其职,控制上下文、避免污染。

五、未来已来:AI从“回答者”变成“办事者”

智能体思维的终极意义,是让AI从“被动回答问题的百科全书”,变成“主动解决问题的数字行动者”。

举个例子:你要安排一场商务晚宴。

传统大模型:给你生成菜单、推荐餐厅、写邀请函,但联系餐厅、预订、发邀请、确认,全要你自己做。

AI智能体:你只说“下周三8人晚宴,人均500元,CEO海鲜过敏”,它自动查日历、筛餐厅、预订、发邀请、提醒你——你只需要最终确认。

这就是智能体思维的价值:不是展示最长的思考链,而是在现实约束下,最稳健、高效地解决问题。哪怕是最难的数学题、编码任务,先进的系统也会去搜索、模拟、执行、验证,而不是闷头写长文本。

六、AI的下一场革命,是“落地”的革命

林俊旸的这篇文章,给狂热的AI行业泼了一盆冷水,也指明了方向——大模型的未来,不在“推理链更长”,而在“行动能力更强”。

从推理思维到智能体思维,从训练模型到训练系统,从比拼算法到比拼Harness工程能力,AI正在经历一场深刻的范式转移。这场变革,不是技术细节的优化,而是从“能思考”到“能做事”的本质跨越。

未来,真正的AI强者,不再只是“会解题的学霸”,而是“能办事的实干家”。而我们,也将迎来一个AI真正融入日常、解决实际问题的新时代——这,才是人工智能的终极价值。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。