上海交大揭秘：为什么AI智能体越来越像"外包给工具的大脑"？

IP属地中国·北京 科技行者 时间：2026-04-18 04:30:16

这项由上海交通大学、中山大学、上海创新研究院、卡内基梅隆大学及OPPO联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.08224，有兴趣深入了解的读者可以通过该编号查询完整论文。
你有没有注意到，当你使用一个AI助手处理复杂任务时，它的表现往往取决于周围给它配备了什么工具，而不仅仅是它本身有多聪明？这篇研究正是要解释这背后的深层逻辑——为什么越来越多的AI进步，不是来自把模型做得更大，而是来自把模型"身边的基础设施"做得更好。
研究团队用了一个非常迷人的比喻框架来贯穿整篇论文：人类文明史，本质上是一部"认知外包史"。人类从用语言把思想转化成可传播的符号，到用文字把记忆存储在纸张上，再到印刷术让知识大规模复制，最后到计算机把数学运算从人脑转移到芯片——每一次进步，都不是因为人类大脑变聪明了，而是因为我们把"认知负担"转移到了外部工具上。研究团队认为，大型语言模型（LLM）智能体正在经历完全相同的转变。
这个核心洞察来自认知科学家唐纳德·诺曼（Donald A. Norman）的"认知人工制品"理论。诺曼指出，外部工具不是单纯放大了人的能力，而是改变了任务本身的形式。一张购物清单并不扩大你的记忆容量，它把"回忆要买什么"这个难题，变成了"看清单上写了什么"这个简单任务。地图不是让你变成更强的导航员，它把隐藏的空间关系变成了肉眼可见的结构。这篇论文的核心主张就是：AI智能体的基础设施，正在对AI完成的任务做完全相同的事情。
一、从"模型有多强"到"环境有多好"：AI能力的三次外迁
要理解这篇研究，最好先跟着它讲述的历史故事走一遍。
故事的第一章，发生在大约2022年前后。那时候，AI领域的主流思维是"能力存在于参数里"。GPT-4、Gemini、DeepSeek、Qwen这些大模型，靠着在海量数据上训练，把广博的世界知识、推理习惯全都压缩进几百亿甚至上千亿个参数里。那时候大家都相信：模型越大，AI越厉害。想让AI更好用？那就训练更大的模型，或者做更精细的微调（比如RLHF人类反馈强化学习，让AI学会更礼貌、更有用的回答方式）。
这条路确实走出了很大的成绩，但很快遇到了墙。想更新模型知识里一个过时的事实，比如换了谁当国家领导人，你得重新训练整个模型，成本极高，还可能意外破坏其他能力。想弄清楚AI为什么说了某句话，几乎不可能，因为原因散落在几百亿个参数里，没有人能翻出来看。更麻烦的是，同一套参数要服务几百万个有不同历史、不同偏好的用户，但参数根本无法区分张三和李四。
故事的第二章，大约从2022年到2024年，重心转移到了"能力存在于上下文里"。开发者们发现，不改动模型参数，仅仅通过精心设计输入给模型的提示词，就能大幅改变模型的表现。思维链（Chain-of-Thought）提示让模型一步步展开推理；ReAct框架让模型把推理和调用工具交织在一起；检索增强生成（RAG）则把外部文档在需要时塞进提示词里。这就像给演员换了一份更详细的剧本——演员没变，但表演质量大幅提升。
然而这条路也遇到了天花板。上下文窗口是有限的，放太多东西进去，模型反而表现变差——研究者们把这叫做"迷失在中间"现象：当相关信息被放在长文本的中间位置时，模型的提取准确率会急剧下降。更根本的问题是，提示词是一次性的，每次对话开始都是"失忆"的新起点，没有任何跨会话的记忆积累。
故事的第三章，也就是大约2024年至今，能力的重心继续向外迁移，进入了"能力存在于基础设施里"的阶段。Auto-GPT、BabyAGI等早期探索者已经发现，哪怕只是给模型套上一个循环执行框架加上一个任务队列和外部记忆，就能实现任何单次提示都无法实现的持续行为。随后AutoGen、MetaGPT、LangGraph、CrewAI等更成熟的框架出现，开始系统性地在模型外部构建"认知基础设施"。
这篇论文把这个基础设施层称为"harness"（这里我们就叫它"执行框架"），并论证它由三个核心外部化维度组成：记忆、技能、协议。理解这三个维度，是理解整篇研究的关键。
二、记忆：把"想起来"变成"找出来"
一个未配备外部记忆的语言模型，处境相当尴尬。它每次被调用时都从空白开始，过去发生的一切，必须靠当前上下文窗口里的内容重新建立。这就好比一个医生，每次接诊同一位患者，都必须把病人整个病历当场背诵一遍，才能开始诊断——不仅效率极低，还随时面临"背到一半忘了"的危险。
记忆外部化，就是把这个重建负担转移到外部存储系统里。论文把外部化的记忆内容分为四种类型，每种类型对应一个不同的时间维度上的问题。
第一种是工作上下文，也就是当前任务的活跃状态：打开了哪些文件、运行了哪些命令、当前进行到了哪一步。没有外部化，这些东西随着上下文窗口重置就消失了，任务中断就意味着从头来过。OpenHands、SWE-agent这类编程智能体的做法，是把草稿、终端状态、工作区文件全部物化到提示词之外，这样任务被打断后可以从当前状态直接续上，而不是重新推演。
第二种是情节经历，记录的是过去执行过程中发生了什么：在哪个决策点选了哪条路、调用了什么工具、遇到了什么失败、最终结果如何。Reflexion框架的核心思路，就是把失败后的反思总结存下来，下次遇到类似情况可以直接参考，而不是重复踩同一个坑。AriGraph则进一步，把在陌生环境中积累的局部交互轨迹，当作情节记忆来构建更完整的世界模型。
第三种是语义知识，存储的是跨越任何单次任务都有效的一般性知识：领域事实、通用规律、项目约定、稳定的世界知识。这类记忆不依赖于"那次具体发生了什么"，它描述的是"事物一般是怎样的"。RAG（检索增强生成）系统所维护的知识库，就是这类语义记忆的典型形式。
第四种是个性化记忆，记录的是特定用户、特定团队或特定环境的稳定特征：偏好、习惯、反复出现的约束、历史互动模式。这类记忆与前三种有本质区别，因为它必须遵守不同的保留规则和隐私规则。IFRAgent从用户演示中构建用户习惯库；VARS系统为不同用户维护独立的偏好卡片存储空间，而不是让所有用户的行为轨迹混在一起。
这四类记忆是怎么在技术上实现的？论文梳理了一个从简单到复杂的演进路径。最早的系统用的是"整体上下文"方式：把所有历史或历史摘要直接塞在提示词里。这简单，但容量有限，一旦任务结束，状态就消失了。之后发展出"上下文加检索存储"模式：近期的工作状态留在上下文里，更长远的历史存在外部数据库，需要时再检索出来。这解决了容量问题，但把问题转化成了另一个问题：检索质量的好坏。GraphRAG通过引入图结构和社区级检索来改进相关性；SYNAPSE通过在情节-语义混合图上做扩散激活来找到不那么显而易见的关联。
更进一步是"分层记忆与编排"系统，核心思想是不同类型的记忆应该有不同的保留策略和检索路径。MemGPT和MemoryOS借鉴操作系统的思路，把热数据（当前工作状态）和冷数据（长尾历史）分层存储，像内存与硬盘之间的换页一样在需要时动态交换。MemoryBank、MIRIX则按认知功能维度区分，把事件、用户档案、世界知识存储在不同的通道里，避免检索时的干扰。
最前沿的是"自适应记忆系统"，开始让记忆系统本身能够学习和进化。MemEvolve把记忆的编码、存储、检索、管理分解成可以独立进化的模块；MemRL用非参数强化学习来优化检索策略；带混合专家路由的自适应框架可以根据不同查询动态选择最合适的检索方式。
从认知科学的角度看，记忆外部化的本质，正是诺曼所说的"回忆变认知"转变：模型不再需要从参数里挖掘出历史，而是需要识别和使用一段已经整理好、呈现在面前的历史片段。就像你拿着写有购物清单的纸走进超市，和凭记忆购物，难度完全不在一个量级。
三、技能：把"每次即兴创作"变成"加载现成剧本"
如果说记忆解决的是"我曾经经历过什么"的问题，那技能解决的是"我应该怎么做这类任务"的问题。一个没有外部化技能的模型，面对每一个复杂任务，都需要从头推演一遍：这个任务大概分几步？每步顺序是什么？遇到分支该选哪条路？哪些操作是禁止的？这个推演过程本身就不稳定，不同的运行、不同的随机种子，可能给出截然不同的流程，导致跳步、乱序、过早收工等种种问题。
技能外部化，就是把这种"每次即兴创作"变成"加载现成剧本"。论文把技能定义为一个可复用的知识单元，它编码了三类信息：操作程序（任务怎么一步步做）、决策启发（碰到岔路口选哪边）、规范约束（什么是允许的、什么是禁止的）。这三类信息合在一起，定义了"怎么可靠地完成这类任务"，而不仅仅是"可以调用什么操作"。
论文梳理了技能系统发展的三个阶段，很像软件工程里从命令行到函数库到框架的演进。
第一阶段是"原子执行基元"。Toolformer的工作代表了这一阶段：让模型学会什么时候调用工具、怎么构造参数、怎么把结果用起来。这解决了"怎么触碰工具"的问题，但每次调用还是孤立的动作，没有可复用的流程。
第二阶段是"大规模工具选择"。随着可调用工具的数量爆炸性增长，问题从"怎么调用"变成了"该调用哪个"。Gorilla、ToolLLM、ToolNet、ToolScope、AutoTool等工作，训练模型在上千种API里检索、排名、动态选择最合适的工具。这是能力上的重大跨越，但完成任务的诀窍仍然隐藏在模型参数或即时提示里，没有被明确包装成可复用的程序单元。
第三阶段是"技能即打包的专业知识"。这一阶段的核心转变是：能力不再仅仅意味着"可以调用什么"，而意味着"怎么可靠地完成一类任务"被打包成了可复用的制品。Voyager在Minecraft里通过探索、执行反馈和课程驱动，持续生成并扩充可复用的代码级技能库；SOP引导的智能体把领域专业知识外化为明确的流程结构；计算机操作场景中的技能，被组织为参数化的执行图，包含检索、参数实例化和失败恢复逻辑。
技能是怎么工作的？论文详细描述了一个技能从存在到发挥作用所经历的完整链路。第一步是规范化：技能被写成SKILL.md这样的声明性文件，描述它能做什么、适用于什么场景、假设了什么前提、满足什么约束。这就像一份API文档，它的价值在于把原本不透明的程序性知识，变成可检查、可讨论、可修改、可治理的外部对象。
第二步是发现：智能体不能把所有技能都加载进上下文，它需要根据当前任务目标、上下文状态、环境条件，从技能库里找出合适的候选。这是一个比工具检索更高阶的匹配问题，不只是关键词重叠，还要考虑任务复杂度、环境假设、操作风险。
第三步是渐进式披露：找到技能并不意味着立刻把整份详细指南塞进上下文——那可能制造噪声而不是帮助。Claude Code的技能系统采用了分层加载的做法：最开始只告诉模型"有这个技能存在"，需要时才暴露适用条件和主要约束，只有在真正要执行时才加载完整流程、异常处理和示例。这把"需要多少细节"本身变成了一个运行时决策。
第四步是执行绑定：技能本身不是执行者，它需要被绑定到具体的工具、文件操作、API调用、子智能体上才能发挥作用。MCP这样的协议接口为这种绑定提供了标准化通道，使技能能够在不同环境里复用，而不必为每种工具重写一遍绑定逻辑。
第五步是组合：技能可以被组合成更高层的技能。生成数据分析报告这件事，不用写成一个单一的端到端流程，可以组织为数据清洗技能、统计分析技能、可视化技能、叙述合成技能的协调编排。这种组合性，使技能系统从孤立的食谱集合，变成真正的能力层。
技能系统还有几个边界条件值得关注，因为它们代表了实际部署中最常见的失败模式。语义不对齐问题是指，模型可能严格按照技能文件的字面表述操作，但完全偏离了任务的真实目标。可移植性和过时问题是指，网站、API、工作流程、运行时约定的变化，都可能让一个曾经有效的技能变成误导性的过时指南。不安全的组合问题是指，分别看起来无害的技能组合在一起可能产生危险：大规模安全审计发现，技能生态系统里存在相当比例的提示注入、数据外泄、权限提升和供应链风险漏洞。上下文依赖退化问题是指，随着会话延伸，模型可能继续遵循过时的操作逻辑，或者被过于详细的局部技能指南分散注意力，遗忘了全局任务目标。
四、协议：把"猜测怎么交流"变成"遵守交流合同"
记忆解决了"我记住了什么"，技能解决了"我怎么做事"，但智能体还有第三个负担：当它需要和外部工具、其他智能体、人类用户打交道时，怎么让沟通不出错？一个没有协议的模型，必须在每次交互时即兴推断：这个工具的调用格式是什么？我的请求需要包含哪些参数？当任务进行到一半时，应该以什么方式向用户汇报状态？当权限被拒绝时，应该如何响应？这些不断重复的推断，每一次都可能因为微小的格式偏差而导致错误。
协议外部化，就是把这些"交流规则"从临时推断，变成明确的机器可读契约。论文把协议所外部化的内容分为四个维度：调用语法（工具调用的格式、参数类型、返回结构）、生命周期语义（谁下一步行动、允许哪些状态转换、任务何时结束或失败）、权限与信任边界（谁有权执行什么、数据能流向哪里、需要提供什么凭据）、发现元数据（智能体在开始交互之前怎么知道对方能做什么）。
当前的协议生态系统大致可以按交互对象分为几个家族。智能体与工具之间的协议里，最有代表性的是MCP（模型上下文协议）。MCP的核心价值在于，服务器通过一个统一的结构（通常基于JSON-RPC 2.0）来暴露工具和上下文资源，客户端通过统一的方式发现和调用。这意味着新工具的接入不再需要为每个AI平台写一套专属的适配代码，工具生态系统与模型提供商的私有函数调用格式解耦。更重要的是，由于调用是通过协议层而不是模型直接生成的非结构化文本来路由的，敏感数据处理、权限检查和审计边界可以在这个层面显式管理。
智能体与智能体之间的协议里，Google的A2A（智能体到智能体协议）是目前最引人注目的。它通过"智能体名片"这样的机制来标准化能力发现，支持任务导向的通信、状态更新、协商和进度流式传输。它的重要性不仅在于让智能体可以互发消息，而在于让委托变得结构化：调用方可以发现另一个智能体提供什么服务，在已知契约下交付工作，并追踪执行进度，而不依赖于硬编码假设。ACP（智能体通信协议）侧重轻量化采用，通过REST/HTTP这类开发者熟悉的模式降低接入门槛。ANP（智能体网络协议）则往另一个方向走，追求开放互联网规模的互操作性，引入去中心化身份、跨域发现和端到端安全通信。
智能体与用户之间的协议，解决的是另一类问题：如何让用户界面可以安全地呈现智能体的执行状态和输出。A2UI让智能体用声明性格式描述界面结构，前端应用可以跨平台安全渲染，而不用担心任意HTML代码被执行。AG-UI则标准化了执行事件流——运行开始、文本输出、工具调用参数、工具调用结果、完成、错误——让前端应用可以订阅这个事件流，实时呈现运行状态，而不用学习每个框架私有的事件格式。
还有一类针对特定高风险垂直工作流的领域协议。Google的UCP（通用商务协议）让智能体、商户和支付服务商可以在无需为每家商店写专属集成的情况下互相操作购物和结账流程。AP2（智能体支付协议）为支付场景设计，强调授权、签名、可审计性，并引入了IntentMandate（意图授权）、PaymentMandate（支付授权）、PaymentReceipt（支付收据）等具有可验证证明的事务对象。这类领域协议的意义在于，它们外部化的不只是通用通信规则，而是特定业务场景里的治理逻辑：谁被授权了什么、需要提供什么证据、责任如何在流程中传递。
从认知科学的角度看，协议的作用是诺曼式转变中最彻底的一种：它把一个开放式的自然语言推断问题（"我猜这个工具大概是这样调用的"），变成了一个有边界的结构化填空问题（"把这些字段填进这个格式里"）。模型仍然需要判断是否要行动、该做什么，但不再需要在每一步重新发明交流的语法和语义。
五、执行框架：让三种外部化模块协同工作的"指挥中心"
有了记忆、技能、协议三种外部化维度，智能体的能力显然大幅增强了。但这三者本身不会自动协同。记忆积累了经验，但不知道哪段经验与当前任务有关。技能封装了流程，但不知道要结合什么历史上下文才能参数化运行。协议规范了调用格式，但不知道在什么时机、以什么策略调用哪个工具。
执行框架（harness）就是那个让这三者协同运作的统一层。论文把执行框架定位为：不是三种外部化之外的"第四种外部化"，而是这三种模块运行和交互的运行时环境。OpenAI在讨论Codex时明确使用了"harness"这个词，用来指代智能体循环、执行逻辑、反馈路径和周边运维机制。
执行框架在设计层面可以沿六个维度分析。第一个维度是智能体循环与控制流。最简单的循环是：感知当前状态 → 检索相关信息 → 规划动作 → 执行 → 观察结果 → 更新计划。但实际系统变体很多：单循环设计在一次生成里交替推理和行动；层级设计让一个规划智能体负责分解目标，执行智能体负责具体步骤；多智能体设计把子任务路由给具有不同工具和权限范围的专属智能体。执行框架在裸循环之上增加的是治理层：没有明确控制，循环可能无限运行、工具调用成本失控或子智能体递归繁殖耗尽资源。成熟的执行框架会强制执行最大步数、递归深度上限、单步成本上限和超时约束。
第二个维度是沙箱化与执行隔离。每当智能体写文件、执行命令、调用外部API时，执行框架必须决定暴露多少环境、如何限制副作用。Codex风格的智能体为每个任务分配独立的云沙箱，有自己的文件系统快照、网络限制和资源配额，一次执行不会污染另一次。Claude Code采用了渐进式权限模式，从完全自主执行到每次工具调用都需要用户确认，让同一个智能体在不同信任级别下工作。沙箱不仅是安全围栏，它也是认知边界：通过移除无关状态、限制危险操作、让工作空间可检查，它简化了智能体的操作环境，改变了模型需要推理的范围。
第三个维度是人类监督与审批节点。完全自主的智能体在大多数部署场景下并不合适。成熟的执行框架在智能体循环里插入干预点：执行前审批在每个潜在高影响操作前暂停并等待确认；执行后审查让智能体先行动，但在提交或继续之前将结果呈现给人类检查；升级触发器允许在正常条件下自主运行，但当检测到特定风险信号时请求人类介入。Hook系统把这种模式泛化为：允许运营商把任意逻辑——脚本、验证检查、通知调度——挂载到智能体循环的特定生命周期事件上，如工具调用、文件写入、子智能体启动。自主度因此不是智能体的固有属性，而是执行框架的可配置参数。
第四个维度是可观察性与结构化反馈。一个行动后不留可检查轨迹的智能体，是无法调试、无法审计、无法改进的。可观察性通常包括：每次模型调用、工具调用、记忆读写、决策分支的结构化日志；把每个动作与其因果前驱联系起来的执行轨迹；步数、Token消耗、错误率、延迟分布等聚合指标。这些记录服务两类目的：对外，支持调试、合规审计和事后分析；对内，关闭连接执行结果与生成模块的反馈循环——失败的工具调用可以触发把失败上下文写入记忆；反复失败的模式可以标记技能待修订。没有结构化可观察性，这些反馈循环根本无法运作，执行框架只能是一个静态脚手架，而不是自我优化的系统。
第五个维度是配置、权限与策略编码。执行框架不仅要知道智能体能做什么，还要知道在什么条件下允许做什么。这需要一个把策略与执行逻辑分开的配置层，让治理规则变成显式的、可版本控制的、可审计的。实践中配置通常分层：用户级设置编码个人偏好和信任边界；项目级设置指定哪些工具可用、哪些文件路径可访问、哪些命令需要审批；组织级设置施加合规约束、成本上限、数据处理规则，不可被单个项目覆盖。这种分层意味着，同一个基础智能体可以在不同部署环境下按不同政策运作，而不需要改动模型或加载的技能文件。
第六个维度是上下文预算管理。在任何智能体系统里，上下文窗口是最稀缺的共享资源。记忆检索、技能加载、协议模式、工具描述、模型自身的推理轨迹，全都竞争同一个有限的Token预算。如何分配这个预算，是执行框架层面的协调问题，没有任何单一模块能独立解决。有效的上下文管理通常结合多种策略：摘要化把较早的对话轮次和执行历史压缩成更短的表达，保留决策相关信息同时释放Token；基于优先级的驱逐移除或降级与当前子任务相关性已衰减的上下文条目；渐进式加载确保详细的程序性指南只在检测到匹配的任务模式时才进入上下文，而不是从会话开始就占据空间。执行框架联合编排这些策略，因为最优分配取决于当前执行阶段：早期规划阶段可能需要更多记忆、更少技能细节，而后期执行阶段可能相反。
六、三者如何互动：一个自我强化的认知生态
当记忆、技能、协议被放在同一个执行框架里运行，它们之间会产生六种相互依存的数据流动，共同构成一个自我强化的系统。
记忆流向技能：这是积累的经验如何变成可编码的专业知识的路径。当某些成功行为模式在多次任务中反复出现时，执行框架可以把这些轨迹聚类、抽象，推广成新的技能制品，而不需要改动基础模型权重。TED和UMEM系统展示了如何从情节轨迹里聚类并提炼出技能制品；Voyager的终身学习逻辑则把成功行为沉淀为可复用的代码级技能。这条数据流的质量——系统如何判断哪些轨迹值得泛化、哪些只是情境特异的——决定了下游技能层的可靠性。提炼过度，则噪声或情境依赖的行为固化为技能；提炼不足，则辛苦积累的经验无法变成可复用的结构。
技能流向记忆：每次技能执行都产生轨迹：中间失败、运行时调整、输出结果。可观察性基础设施把这些轨迹作为持久证据捕获，让执行框架持续验证哪些技能依然可靠、哪些需要修订、分拆或增加约束。这条反向流动是技能层保持自我纠错能力的基础——没有它，技能库只会扩张，不会收敛，而提炼技能的那条正向流动就会运行在越来越陈旧的证据上。
技能流向协议：技能从抽象程序变成实际动作，必须经由协议接口。执行框架解析哪些协议端点当前可用，检查权限，将技能步骤路由到相应的执行基底——搜索工具、shell命令、测试运行器。技能说"该做什么"，协议说"如何以治理方式做到"。MCP分析中提到的"致命三元组"安全案例——敏感数据访问、不受限的外部通信、未经验证的执行——清楚说明：即便技能写得无懈可击，协议层的验证仍是独立的安全关口。
协议流向技能：反过来，一个接口一旦被标准化，就更容易在此基础上编码最佳实践。OpenAPI和MCP不仅让工具可调用，还提供足够的结构规律性，使系统可以把接口特定的专业知识打包成可复用的技能制品，而不是每次运行时重新推演。HashiCorp智能体技能生态系统就是一个具体例证：底层基础设施管理接口通过协议契约变得清晰稳定后，领域流程就可以被外化为可移植的技能文件。
记忆流向协议：存储的上下文可以影响执行框架下一步选择哪条协议路径。历史成功率、用户偏好、先前失败，可以决定一个请求是本地处理、通过MCP调用外部工具，还是通过A2A委托给另一个智能体。记忆把协议选择从静态配置，变成基于经验的路由决策——尤其在多智能体场景里，这种动态路由能力至关重要。
协议流向记忆：最后，每次协议交互都产生必须被保留的状态：工具输出、审批事件、错误载荷、委托结果。执行框架必须把这些结果规范化并写入记忆，让后续推理可以依赖可验证的外部事实，而不是重建或幻觉出来的假设。这条流动关闭了整个循环：协议层产生记忆存储的证据，进而影响新的技能选择和新的协议路由。
这六条流动放在一起，产生了几个系统层面的动态特性。系统是自我强化的：更好的记忆产生更好的技能提炼，更好的技能产生更丰富的执行轨迹，更丰富的轨迹改善记忆。但这也意味着错误可以被放大：一条被污染的记忆条目可以导致有缺陷的技能，而有缺陷技能的执行轨迹会进一步污染记忆——这是任何单一模块的质量控制都无法阻断的级联，必须由执行框架层面的干预来打断。
三个模块还争夺同一个稀缺资源：模型的上下文窗口。扩展任何一个模块的上下文占用，必然压缩其他模块。执行框架必须不仅管理每个模块的内容，还要管理它们在每个执行步骤里的相对预算分配。
三条流动还在不同时间尺度上运作：协议交互通常是同步且快速的；技能加载发生在任务或子任务边界；记忆提炼和技能进化跨越会话乃至更长时间。一个只优化快速工具执行的执行框架，可能忽视决定长期能力增长的慢循环。
七、内部参数能力还是外部化能力：这不是非此即彼的问题
论文专门用一节讨论了一个容易被误解的问题：把能力放在模型参数里，还是放在外部基础设施里，哪个更好？
答案是：这不是一个应该被问成"哪个更好"的问题。它是一个系统分区问题：哪类负担在哪里处理效果最好？
更新频率和时间衰减是第一个分区维度。快速变化的知识和程序是外部化的强候选：API规范、组织结构、实时环境状态，衰减得太快，无法可靠地维持在模型权重里。通过持续微调来保持模型与时俱进，不仅成本高昂，还面临"灾难性遗忘"风险——更新一类知识可能意外损坏其他能力。外部存储可以立即更新、保留明确的版本和来源。相比之下，语言理解、宽泛推理、常识推断这类稳定的背景能力，衰减极慢，仍然更自然地存在于参数里，受益于快速推理和深度表示整合。
可复用性和多智能体可移植性是第二个维度。如果一项能力在多个任务、用户、智能体间反复需要，外部化可以大幅提升可移植性和组合性。明确的技能、脚本和接口制品可以跨异构运行时共享、版本控制和复用，而不需要每个智能体重新发现或重新训练相同的程序。在多智能体场景里，一个为某个智能体编写的技能可以广播给整个集群，前提是该技能对工具和协议的假设得到满足。
可审计性、治理和对齐是第三个维度。凡是检查、审批、回滚或策略执行很重要的场合，外部化制品相比不透明的参数行为有明显优势。符号接口支持电路断路器、模式验证和可追溯执行记录，这些都是权重本身无法提供的。对齐微调（如RLHF）提供概率性的行为塑造，而外部化约束提供在接口层面的确定性执行。高风险部署因此推动架构边界向外：智能体行动越有影响，把治理逻辑做成显式可检查形式的理由越充分。
延迟、简洁性和上下文负担是第四个维度，代表外部化的成本侧。外部化把计算和组织成本从模型的前向传播转移到周边系统：检索、路由、解析、工具调用都引入延迟。每件检索到的制品都占上下文预算，过度加载上下文既有信息过载的性能损失，也有"迷失在中间"的注意力退化。对于超快速、低方差、纯语义的任务，让模型依赖其内部参数知识仍然更简单，通常也更可靠。
这个分区不是静态的。随着模型能力增长，某些曾经需要外部验证的负担可以被内化回模型——一个能可靠生成结构化输出的模型，执行框架里的格式验证需求就减少了。而更丰富的执行框架为模型创造了新的运行要求：在结构化运行时里操作，需要模型尊重模式、配合权限检查、协调渐进式上下文注入。边界在两个方向上同时移动，而核心工程挑战是知道何时向外扩展、何时向内收缩。
八、这一切向何处演进：六个开放前沿
论文的最后一部分描绘了外部化逻辑在未来的六条延伸方向，每一条都代表一个尚待解决的重要问题。
第一个前沿是边界的扩展。目前已经外部化的是记忆、技能和协议。但还有其他类型的认知负担尚未被系统外部化。规划与目标管理：当前的智能体通常通过上下文推理即时生成计划，这些计划在上下文重置时就消失了。方向是让计划成为执行框架里的一等对象：持久化、可检查、可修订、可跨智能体共享。评估与验证：目前大多数评估逻辑要么在模型的思维链里，要么在运行后的基准测试框架里。把评估标准、评分规则、验证程序外部化为运行时执行框架组件，会让智能体在执行期间就能对照显式标准检查自身输出。编排逻辑本身：最递归的外部化形式是让执行框架自己的配置、策略和执行逻辑变成智能体可以检查、批评和修订的对象——这直接连接到下一个前沿。
多模态外部化是另一个重要扩展。目前的框架主要假设文本是核心表示媒介：记忆存储文本轨迹，技能编码自然语言程序，协议交换结构化文本消息。随着基础模型原生支持图像、视频、音频、屏幕内容，每个外部化维度都面临新的设计需求。多模态技能必须不仅编码文字程序，还要编码视觉感知工作流和跨模态决策逻辑；多模态记忆必须能索引和检索视觉与听觉经验；MemVerse维护多模态知识图，周期性地将碎片化感官经验提炼为更抽象的表达；MuSEAgent积累有状态的多模态经验来支撑未来推理；TED展示了如何在不额外训练的情况下，把成功的多模态推理轨迹提炼为可复用经验。
第二个前沿是从数字智能体延伸到具身外部化。外部化逻辑不仅适用于读写文件和调用API的数字智能体，也适用于必须感知、移动、物理操作世界的机器人。早期视觉-语言-行动（VLA）模型采用了单体端到端策略，类似于外部化之前的早期LLM智能体：给定自然语言指令和视觉观察，模型直接输出连续动作序列，在单次前向传播里包揽感知、推理、规划和运动控制。这遭遇了完全相同类型的限制：复杂多步任务超出了规划视野；中间步骤失败无法诊断或恢复；高级认知与低延迟运动控制的紧密耦合制造了不可调和的推理速度和模型容量矛盾。正在兴起的架构回应正是外部化逻辑在整个身体层面的复现：高层机器人智能体（通常是LLM或多模态模型）承担"大脑皮层"职责：解读目标、分解任务序列、维护跨步骤状态、处理异常、在执行反馈表明失败时修订计划。VLA模型则被重新定位为"小脑"：每个VLA负责一个原子操控基元（抓取、放置、倒液、插入），以实时感知运动反馈和低延迟控制执行。VLA不再决定做什么，而是确保怎么做的过程精确、稳定、对局部物理扰动自适应。这种分解直接映射到本文的外部化维度：任务规划和目标管理从VLA的隐式参数推理迁移到显式可检查的智能体循环；每个VLA技能模块作为外部化的技能制品运作，有明确接口；智能体与技能之间的通信（结构化的动作请求、执行状态报告、错误码）构成协议层。数字智能体和具身智能体面临的根本张力是相同的：单一模型无法同时优化慢速、深思熟虑的认知和快速、反应性的执行。外部化通过把每类认知工作路由到最合适的基底来解决这个张力。
第三个前沿是走向自我进化的执行框架。目前大多数智能体系统依然需要人来修订记忆策略、重写技能制品、收紧执行逻辑。如果编排逻辑本身被外部化——它就变成了一个可以被程序性调适而非只能手动调整的对象。自我进化可以在三个层次发生：模块层次，架构不变但内部策略（检索粒度、技能排名启发、协议路由规则）根据观察到的失败动态调整；系统层次，执行流水线本身被重构，调度策略、执行顺序或资源分配在日志揭示反复出现的瓶颈时改变；边界层次，执行框架的范围根据模型和任务的变化而扩展或收缩。强化学习可以优化离散的运行时策略；程序合成把框架适应当成代码修复来处理；进化方法在框架拓扑上搜索；模仿学习在探索成本太高时，从专家执行日志中提炼更好的编排模式。自我进化很诱人，但它也放大了下一条讨论的成本和风险——一个漂移而缺乏足够治理的自适应执行框架，引入新失败模式的速度可能快于它解决旧问题的速度。
第四个前沿是成本、风险与治理。外部化不是免费的。认知开销方面，每一层额外的记忆层、API模式或安全规则都引入延迟和推理开销，超过某个点，模型花在发现、解析、协调模块上的精力多于解决实际任务。记忆过检索用边缘相关的轨迹淹没上下文；冗长或重叠的技能文件占用上下文预算；工具蔓延把动作选择变成不必要的消歧问题。这些失败模式表明，设计目标应该是高效的、实用正向的外部化，而不是最大化外部化。安全与完整性风险方面，一旦认知和程序性负担被重定位到外部制品，这些制品就成了攻击目标。记忆污染可以通过被篡改的情节轨迹或事实存储悄悄扭曲未来推理。恶意技能注入可以将对抗性程序植入智能体的可复用库。协议欺骗——伪造工具清单或被操纵的端点——可能在合法交互的外表下导致未授权的动作。这些风险在自我进化的执行框架里被放大：适应新任务可能降级旧能力，累积的补丁可能模糊系统行为，当人类监督减弱时，优化目标可能被扭曲。治理作为基础设施：含义是，外部化必须与治理协同设计，而不是事后补救。关键更新的强制审查节点、记忆和技能变化的来源追踪、确定性回滚机制、回归测试，都成了基础设施的一部分。一个外部化系统的质量不仅由它实现了什么来衡量，还由它以多透明和多可逆的方式实现来衡量。
第五个前沿是从私有脚手架走向共享基础设施。目前描述的外部化大多是以智能体为中心的：记忆服务于一个智能体的连续性，技能作为本地包加载，协议往往依赖框架。随着协作链条延伸，外部化开始从私有脚手架向共享基础设施转移。共享记忆把问题从"我记住了什么"变成"我们知道什么"，把记忆变成跨智能体的共享状态、索引和公共基础的事务性系统。共享技能把程序性专业知识变成公共能力单元，可以跨智能体复用、分叉和维护。共享协议提供了通用语法，使这种协作在平台和组织间可互操作。一旦这些结构共享，智能体系统可以分化角色而不是到处复制同一个完整堆栈。失败轨迹可以在共享记忆中积累，而成功路径结晶成共享技能。学习通过外部结构扩散，而不仅仅通过联合参数训练。然而，共享基础设施也放大了治理挑战：基础设施漂移、恶意或低质量制品、过早或延迟的标准化，都可能破坏生态系统稳定。
第六个前沿是测量外部化。目前大多数基准测试主要通过固定提示和固定模型设置下的任务完成度来评估智能体。这对比较基础模型能力很有用，但系统性地低估了外部化基础设施的贡献。一个通过更好记忆检索、更精确技能加载或更严格执行治理来提升可靠性的执行框架，只会表现为更高的通过率，而没有办法把这个改进归因到其真正来源。一个更丰富的评估议程应该沿着目前基本被忽视的维度评估外部化质量：可迁移性，测试同样的执行框架配置在底层模型被换掉时是否保持效果，直接检验多少能力在外部基础设施而非权重里；可维护性，测量当技能、记忆策略或协议模式更新时系统优雅降级的程度；恢复鲁棒性，测试智能体能否检测失败、回滚部分动作、从检查点恢复；上下文效率，量化执行框架开销消耗了多少上下文预算，用于任务相关推理的比例是多少；治理质量，评估外部化系统是否满足透明度和可逆性要求。
归根结底，这篇研究告诉我们一个关于AI进步的非直觉性真相：让一个AI智能体更可靠、更强大，往往不是靠把模型本身做得更聪明，而是靠把模型周围的"认知环境"设计得更好。记忆把"回忆"变成"检索"，技能把"即兴创作"变成"加载剧本"，协议把"猜测交流规则"变成"遵守交流合同"，而执行框架把这三者编织成一个可以协同运作的整体。
这个视角有一个深远的含义：评价一个AI系统，不能只问"这个模型有多强"，还必须问"这个模型周围的认知基础设施设计得有多好"。就像评价一个外科医生的能力，不只要看他的个人技术，还要看他身边的手术室设备、护理团队、操作规范是否到位。更好的AI智能体，不只是更强的推理引擎，更是被更好组织起来的认知系统——而这篇研究，正是迄今为止对这个组织原理最系统的阐述之一。
Q&A
Q1：大型语言模型智能体的执行框架（harness）和普通的提示词工程有什么区别？
A：提示词工程是临时性地设计单次对话的输入内容，智能体执行框架（harness）则是持久运行的基础设施。执行框架管理跨会话的记忆持久化、可复用技能的加载、工具调用的协议规范、审批节点的控制逻辑和执行轨迹的观测记录。简单说，提示词工程改变的是"对话的内容"，执行框架改变的是"模型工作的整个运行环境"。
Q2：MCP协议和普通的API调用有什么不同？
A：普通API调用需要为每个工具写专属的集成代码，格式、认证和错误处理方式都可能不同。MCP（模型上下文协议）提供了一个统一标准：服务器用统一结构暴露工具，客户端用统一方式发现和调用，不依赖任何AI平台的私有函数调用格式。这意味着新工具只需实现一次MCP接口，就能被任何支持MCP的AI智能体直接使用，权限检查和审计也可以在这个统一层面集中管理。
Q3：大型语言模型智能体的技能（skill）和普通的工具调用是同一回事吗？
A：不是同一回事，两者在抽象层级上有本质差异。工具调用是原子操作：搜索、写文件、发API请求，每次调用是孤立的动作。技能编码的是完成一类任务的完整程序性专业知识，包括操作步骤的顺序、遇到分支时的决策规则、哪些操作是被允许的约束条件。可以这样理解：工具是锤子和螺丝刀，技能是"如何按规范组装一件家具"的完整说明书，包含用哪些工具、什么顺序用、出了问题怎么办。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

黄仁勋首谈喝豆汁体验：你们不知道我多享受

财闻早知道| 美三大股指续创收盘新高黄仁勋称Vera CPU将成为公司主要增长动力

MiniMax M3终于来了，指标很强，但社区炒翻了

安谋CEO：禁止人工智能CPU出口中国？不可能

连续三年！松江保隆科技再获理想汽车最高层级供应链认可

早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购

全站最新

黄仁勋首谈喝豆汁体验：你们不知道我多享受

财闻早知道| 美三大股指续创收盘新高黄仁勋称Vera CPU将成为公司主要增长动力

MiniMax M3终于来了，指标很强，但社区炒翻了

安谋CEO：禁止人工智能CPU出口中国？不可能

热门推荐

天涯重启，一场情怀与商业的双向奔赴

平台抢余华，是为了证明自己不傻

先上市者为王？一文读懂：Anthropic与OpenAI缘何上演“抢滩登陆战”！

大模型如何真正告别幻觉？元认知或是破局的关键

谷歌推出Android虚假来电检测功能，基于RCS技术防范AI深度伪造诈骗

指标惊艳却遭社区声讨？MiniMax新旗舰模型M3 引发两极分化争议

宇树科技回应联合英伟达开发“H2+”人形机器人，预计今年下半年正式亮相

防黑客还是养虎为患？Anthropic 放开顶级网络安全模型 Mythos 权限，增设 150 家合作机构

颠覆传统操作系统！微软联合高通发布Solara项目，开启AI智能体新时代

创意一键成真！OpenAI 推出 Sites 功能，用 AI 将想法直接转化为互动网站

小米17T系列宣布将首发徕卡live动态照片

隐私效率兼顾！Perplexity Computer 推出混合推理功能，本地与云端模型自动分配任务

马斯克因 Grok 排名起诉苹果，却被法官强令上交特斯拉与 SpaceX 邮件

黄仁勋首谈喝豆汁体验：你们不知道我多享受

施一公人民日报撰文：AI时代，教育要在这三方面发力