谷歌DeepMind让AI学会"主动查资料"

IP属地中国·北京 科技行者 时间：2026-05-19 22:20:26

这项由爱丁堡大学与谷歌DeepMind联合开展的研究，以预印本形式发布于2026年5月13日，论文编号为arXiv:2605.13050v1，有兴趣深入了解的读者可以通过该编号查询完整论文。
**研究概要**
假设你有一位助理，学识渊博，但所有知识都来自几年前读过的书。如今你让他帮你查一份最新的医疗指南，或者翻译一段非常小众语言的文字，他却只能凭着模糊的印象胡乱猜测——因为那些知识根本不在他的记忆里。这就是当今绝大多数大型语言模型（也就是人们常说的"大模型"或"AI助手"）所面临的核心困境。
今天要介绍的这项研究，尝试从一个颇具新意的角度破解这个困境。研究团队的思路不是"让AI学更多知识"，而是"让AI学会自己去查资料"。更关键的是，他们发现单纯给AI开通"上网权限"非但不够，甚至可能帮倒忙——除非同时配套一套经过精心设计的训练机制。
整篇研究围绕一个核心问题展开：在不修改AI模型本身参数（可以理解为不"改造"AI的大脑结构）的前提下，如何让AI在面对全新任务时，通过主动搜索外部信息来持续提升自身表现？研究结果表明，当主动信息搜索能力与一种类似"择优录取"的训练程序结合使用时，AI在低资源语言翻译、医疗健康问答、代码竞赛以及顶级学术考试等截然不同的任务上，都能获得实质性的进步。
一、AI的"闭卷考试"困境
每一位参加过期末闭卷考试的人都明白那种无力感——当脑中某个知识点恰好是空白时，无论多么努力地思考，也无法凭空生出答案。当今的大型语言模型面临着同样的处境，而且情况更加棘手。
这些模型在出厂之前经历了海量的训练，学习了互联网上数以亿计的文本内容。然而，一旦训练结束、模型部署上线，它的"知识库"就被冻结在了那个时间点。此后发生的任何新事件、新研究、新规范，都不会自动进入模型的记忆。更麻烦的是，对于那些本身就不常出现在主流互联网上的知识——比如西非某个小语种的语法规则，或是某个冷门医学领域的最新指南——模型从一开始就几乎一无所知。
重新训练一个大模型来补充这些知识，代价极其高昂，就像要求一个成年人为了学一个新单词回去重读小学一样不现实。更麻烦的是，重新训练往往会让模型"忘记"之前掌握的其他知识，这被研究者称为"灾难性遗忘"。
正因如此，近年来兴起了一种替代思路：与其改变模型的大脑，不如改变模型收到的"任务说明书"。这种思路叫做"语境优化"或"上下文训练"，原理类似于给一个聪明的厨师更好的食谱，而不是给他换一副新的味觉器官。通过精心构建和不断调整放在模型面前的文字说明（也就是"上下文"或"语境"），可以在不改动模型本身的情况下让它表现得更好。
这套方法已经有了一批先行者，包括ProTeGi、TextGrad和DSPy等框架。它们的基本逻辑是：让一个AI"优化器"不断观察另一个AI"执行器"的表现，然后修改任务说明，帮助执行器在下一轮做得更好。然而，这些方法全都存在一个共同的根本性缺陷——它们是封闭的系统。优化器只能在自己已有的知识范围内打转，遇到真正的知识盲区时，只能用看似合理却实为杜撰的内容来填充上下文，非但帮不上忙，还可能把执行器带入歧途。麻省理工学院等机构的研究者已经指出，这种"自我消化"的循环可能导致"语境崩溃"——AI的输出质量随着训练循环的推进反而越来越差，就像反复复印一张纸，每一代都比上一代更模糊。
研究团队从这个痛点出发，提出了一个朴素却有效的问题：如果在优化器想不出好答案的时候，允许它去维基百科或网页上查一查，会怎样？
二、"查资料"这件事，没想象中那么简单
给AI开通上网权限听起来像是一个显而易见的解决方案，但研究团队在实验初期迅速发现，现实远比预想复杂。他们把这一阶段的发现称为"顺序训练管道的陷阱"，用更直白的话说，就是：直接给AI加装搜索工具，往往会让事情变得更糟。
研究团队以"英语翻译成乔克维语"（Chokwe，一种主要在安哥拉和赞比亚使用的班图语族语言）为例，展示了第一个陷阱的全貌。这个陷阱被他们命名为"语境污染"。
在标准的顺序训练流程中，AI优化器在每一步都会修改任务说明，然后直接把修改结果传递给下一轮。实验数据显示，在训练进行到第4步时，优化器从网络上获取并写入上下文的一小段内容（大约200个字符的新增信息），竟然导致翻译得分从合理区间骤降至接近谷底。更令人沮丧的是，此后整整经历了从第16步到第128步的漫长过程，优化器都在反复添加和删除各种信息，却始终无法恢复到污染之前的性能水平。就好比一锅美味的炖菜里误加了一勺醋，不管后来怎么放盐、放糖、放酱油，那股酸味就是挥之不去。
第二个陷阱叫做"局部最优"，用比赛来理解就更直观——选手一旦找到一个还算稳定的策略，就会停留在那里，不敢冒险尝试可能更好但短期风险更高的新策略。研究团队以"英语翻译成布吉斯语"（Buginese，主要分布于印度尼西亚苏拉威西岛）为例，用图表清晰展示了这种困境的样貌。
他们对优化过程中上下文内容的构成进行了追踪分类，发现了一个有趣但令人挫败的规律：整个训练过程中，"词汇表支持"类资源始终占据上下文的主导地位，而"平行例句"和"语言规则"这两类潜力更大的资源则始终处于边缘地位。更奇特的是，优化器会周期性地尝试删除词汇表内容，但在随后的几步里又会重新添加回来。这是一种典型的"原地打转"——系统知道现有策略并不完美，但无法找到更好的出路，只能在同一个坑里反复挣扎。上下文长度的曲线因此呈现出一种规律性的锯齿形状，增长、崩塌、增长、再崩塌，周而复始，性能始终在低位徘徊。
这两个陷阱共同揭示了一个重要事实：搜索工具本身不是答案，关键在于如何管理搜索工具产生的结果，以及如何在探索新策略和稳固已有成果之间保持平衡。
三、解决方案：像高考志愿一样"择优录取"
针对上述两个核心问题，研究团队设计了一套全新的训练机制，其核心思想借鉴自计算机科学中一种经典的搜索算法——束搜索（Beam Search）。
用招收大学新生来类比，传统的顺序训练就像一所只招一个人的学校，每次考试后立刻录取成绩最好的那位，然后让这位学生继续参加下一轮考试，过程中没有任何回头的机会。而束搜索风格的训练则像一所同时保留着多个名额的学校，每一轮都会培养多位候选人，最终择优录取一批，落选的方案则被淘汰，不会影响后续的优胜者。
具体来说，这套机制的运作方式如下。
在每一个训练周期的开始，系统同时维护着若干个"候选上下文"（也就是若干版本的任务说明书），而不是只维持一个。这些候选方案就像同时在培训中的多个厨师学徒，每人手上拿着一份略有不同的食谱。
接下来进入"探索阶段"。对于每一个候选方案，优化器都会在一小批训练数据上尝试生成多个衍生方案。在这个过程中，优化器可以调用维基百科搜索工具和网页浏览工具，主动查阅它认为可能有用的外部信息。为了防止所有衍生方案千篇一律，系统在生成每一个新方案时，都会把之前已经探索过的路径简要告知优化器，明确要求它尝试不同的方向。在机器翻译的例子里，不同的分支方案可能分别侧重于"建立词汇表"、"寻找目标语言的参考文章"、"收集平行例句"等完全不同的策略。
探索结束后，进入"评选阶段"。所有的衍生方案，连同本轮探索之前成绩最好的那个"老方案"（研究团队称之为"什么都不做"选项），一起在一个独立的验证数据集上接受评分。验证数据集与训练数据完全分离，这确保了评分的公正性，不会让善于"走后门"（即记住训练题目本身）的方案蒙混过关。最终，得分最高的若干方案入选下一轮，其余的被淘汰。
"什么都不做"选项的存在尤其关键。它相当于给整个系统安装了一道安全阀：如果这一轮所有的探索尝试都引入了噪音或错误信息，系统可以干净利落地回到上一轮的最优状态，而不是被迫接受一个"比差更差"的结果。这直接解决了"语境污染"的问题——污染过的方案会在评选阶段被高分的干净方案淘汰，污染效果在传播到下一轮之前就被截断了。
同时，通过维护多个并行候选方案和主动鼓励探索不同策略，系统也获得了摆脱局部最优的能力。就算当前最优方案已经在某个策略上陷入停滞，其他候选方案仍在探索完全不同的路径，一旦其中某条路径被验证更有效，它就会在评选阶段胜出，把整个系统带向新的方向。
为了让这套"保留多个版本、随时回溯"的机制在实际代码中可操作，研究团队将上下文数据库实现为一个带有版本控制功能的代码仓库，类似于程序员常用的Git工具。优化器可以"新建分支"来为一个候选方案创建独立的探索空间，"提交"当前状态以保存进度，或者"切换到"某个历史节点来回溯之前的状态。这些操作细节在实际使用中是自动执行的，并不需要使用者手动管理。
四、上下文本身：从一段文字变成一个"资料库"
除了训练机制的创新，研究团队还对"上下文"的形态本身进行了重新设计。
在大多数现有的语境优化系统中，上下文就是一段文字——一段对执行器的说明或提示词。这种形式简单直接，但有一个明显的局限：如果需要修改其中的一部分内容，往往不得不重写整段文字，牵一发而动全身，既低效又容易引入新的错误。
研究团队的做法是把上下文实例化为一个结构化数据库，其中存放着若干独立的"资源条目"。每个条目都有自己的唯一编号、摘要、正文内容，以及包含来源、长度、关键词、语义向量在内的元数据。
这种设计的好处是多方面的。优化器可以精准地修改或删除某一个特定条目，而不影响其他条目，就像在一个整理得井井有条的文件柜里精准找到并更换某一份文件，而不必翻动其他所有文件夹。执行器在处理任务时，也可以只调取与当前任务最相关的那几条资源，而不是把整个上下文一股脑读进来，减少了无关信息的干扰。
配合这个资料库，研究团队实现了一套交互接口，让优化器可以通过工具调用的方式完成"写操作"（初始化、新增、删除、更新、合并条目等）和"读操作"（按关键词搜索、按语义相似度搜索、调用专门的检索子代理进行复杂查询等）。
外部信息获取工具方面，系统配备了两类工具：一是基于Python维基百科库实现的维基百科搜索工具，适合快速查询明确的概念定义；二是基于browser-use库实现的网页浏览工具，允许优化器访问任意网页，提取代码片段、最新报告或尚未被维基百科收录的文档内容。后者更适合处理复杂或模糊的信息需求，因为有时候优化器自己也不能确切知道需要什么，只有通过浏览才能逐渐聚焦。
五、实验验证：四块不同形状的拼图
研究团队在四类截然不同的任务上检验了这套方法，覆盖范围之广，本身就是一种信心的表达。
第一类任务是"低资源语言翻译"，使用的是FLORES+基准数据集，目标是把英语翻译成五种极小众的语言：布吉斯语、马加希语（Magahi，印度比哈尔邦的一种语言）、基库尤语（Kikuyu，肯尼亚的班图语言）、乔克维语和西南丁卡语（Southwestern Dinka，南苏丹的语言）。这五种语言的共同特点是：它们都不在谷歌翻译的直接支持范围内，而且模型在零样本条件下表现普遍较差，是名副其实的知识盲区。
第二类任务是"医疗健康问答"，使用HealthBench数据集。这个基准数据集模拟真实的医疗对话场景，每个问题都配有由执业医生撰写的评分标准，评估AI能否给出专业且安全的回答。挑战不只是知识本身，还包括语气、深度和实用性是否符合医学专业规范。
第三类任务是"代码竞赛"，使用LiveCodeBench数据集，其中包含从各类编程竞赛网站收集的真实竞赛题目。研究团队重点关注"中等难度"和"高难度"题目在pass@1（一次提交即通过）和pass@8（八次提交中至少一次通过）两项指标上的表现。
第四类任务是"跨学科推理"，使用Humanity's Last Exam（HLE，直译为"人类最后的考试"）数据集。这个数据集由来自生物/医学、计算机科学/人工智能、物理、数学、人文社科等多个领域的顶级难题组成，代表人类学术能力的顶端。
所有实验都在严格的"低数据"条件下进行——每项任务只使用128个训练样本和64个验证样本。这是对方法实际应用价值的重要考验，因为在现实场景中，标注数据往往极其稀缺。
六、数据说话：成绩单上写着什么
实验结果在各项任务上都呈现出一致的规律，这种一致性本身就是研究结论说服力的重要来源。
在低资源翻译任务上，衡量翻译质量的指标是ChrF++分数，该分数综合考量字符级别的精确度和召回率。基础版Gemini-2.5-Flash模型（研究中使用的主力AI）在五种语言上的平均得分为26.31分。添加了外部搜索工具但仍使用顺序训练的"Seq-IS"方案，平均得分反而下降到了29.68分，低于没有搜索工具的顺序训练方案（31.13分）。这印证了研究团队此前的理论分析：搜索工具与顺序训练结合会产生反效果。相比之下，束搜索加信息搜索的完整方案"BeamSearch-IS"将平均分提升到了34.51分，不仅大幅超越所有其他方案，甚至超过了规模大得多的Gemini-2.5-Pro模型（30.37分）。在五种语言中，马加希语的提升尤为亮眼，从44.86分跳升至50.52分。
在医疗健康问答任务上，最终得分采用官方评分标准。基础模型得分0.3793，而BeamSearch-IS方案达到0.5026，与体量更大的Gemini-2.5-Pro（0.5030）几乎持平。在细分主题分析中，BeamSearch-IS在"健康数据处理"和"紧急转诊识别"两个子类别上甚至超过了Pro版模型，但在"回应深度"这一子类别上仍逊于Pro版，研究团队认为这说明更大模型在生成流畅、有深度文本方面的固有优势仍然存在，语境优化尚无法完全弥补这一差距。
在代码竞赛任务上，单纯依赖模型内部知识的各种方案（不带搜索工具）在整体pass@1上都维持在约49%，与基础模型相差无几，说明在这类任务上仅凭优化任务说明书收益甚微。BeamSearch-IS将高难度题目的pass@1从基础模型的30.0%提升至33.9%，同时将pass@8提升至57.2%，在所有方案中最高。
在跨学科推理任务上，基础模型在各类别的平均准确率约为6.53%。BeamSearch-IS将这一数字提升至8.63%，在生物/医学（8.81%）、计算机科学（8.30%）、物理（7.67%）、数学（11.15%）和人文社科（7.23%）等多个方向均有提升，是所有方法中唯一在所有子类别上都取得正向改善的方案。
七、深挖数据：束搜索究竟做了什么
研究团队并不满足于展示最终成绩，他们进一步追踪了训练过程中上下文内容的构成变化，试图理解束搜索在背后发挥了怎样的作用。
在布吉斯语翻译任务的可视化图表中，研究团队追踪了几类资源（平行例句、词汇表、术语约束、语言规则等）在整个训练过程中所占比例的变化。与顺序训练时"词汇表一家独大、反复增删却无法突破"的局面截然不同，束搜索训练下的上下文逐渐演化出了一种由"语言规则"和"平行例句"共同主导的结构，翻译得分也随着这种结构的形成而稳步上升。
在训练初期的局部放大图中，可以看到一个颇具代表性的"自我纠错"片段：在第1步，优化器确实大量增加了词汇表内容（橙色区域的一个短暂尖峰）。但在第2步，束搜索机制对所有候选方案进行了评分对比，词汇表为主的方案得分不敌以语言规则为主的方案，因此被淘汰。系统由此转向了更有效的策略，而这个转向只用了两步便完成，在顺序训练中则可能需要数十步甚至永远无法实现。这个观察与近期语言学研究中的发现相呼应：研究者Aycock等人发现，在低资源翻译任务上，语言规则与平行例句的组合比单纯扩充词汇表更有效。束搜索机制让AI自己发现了这一点。
八、样本效率与超参数稳定性
研究团队还专门对两个实际部署时最关心的问题进行了分析。
第一个问题是"需要多少数据"。实验在西南丁卡语翻译任务上，把训练样本数量从4个一路扩大到256个，观察各方法的表现变化。结果发现，顺序训练方法即便拥有256个训练样本，也始终处于低性能区间（ChrF++得分在17-18分左右），说明数据量的增加对其帮助有限。BeamSearch-IS方法则表现出了惊人的数据效率：仅用32个训练样本，就能达到超过23分的性能，接近该方法在全量数据下的最优表现。研究团队将这种特性比作"信号放大器"——通过对每个训练样本进行多条路径的并行探索，束搜索机制从有限的数据中提取出了更多信号，远比传统方法高效。
第二个问题是"超参数怎么设置"。束搜索有三个主要参数：束宽（同时维护多少个候选方案）、每步假设数（每个候选方案生成多少个衍生方案）和训练轮次。研究团队测试了多种参数组合，用"宽度-假设数-轮次"的格式命名，如"2-3-1"表示束宽为2、每步假设数为3、训练1个轮次。结果显示，大多数"均衡型"配置（如2-1-3、3-2-1、1-2-3等）都能获得22.2到22.45分之间的相近成绩，形成了一个宽阔的"稳健区间"。只有极端不均衡的配置（如6-1-1，即极宽但几乎不做深度优化）才会显著拖累性能，跌至20.73分。这说明方法对超参数的容忍度相当高，使用者不需要费心调参就能获得稳定的结果。
九、跨模型迁移：好的知识不认门
一个真正有价值的问题是：上下文优化后所学到的东西，究竟是真正有用的外部知识，还是针对某个特定模型的"特殊暗语"？
为了回答这个问题，研究团队把用Gemini-2.5-Flash优化出来的上下文，原封不动地拿给更新、更强的Gemini-3-Flash模型使用，不做任何额外调整。
结果非常清晰。顺序训练（Seq）方法优化出的上下文，迁移效果不佳——例如在HealthBench上反而造成轻微下降（从0.6164降至0.6011），在数学和计算机科学等推理密集型子类别上同样表现欠佳。这印证了研究团队的判断：没有外部信息支撑的上下文优化，倾向于学到一些针对特定模型行为习惯的"执行器专属模式"，换了一个模型就失效了。
BeamSearch-IS方法的结果则截然相反。在马加希语翻译上，得分从原始的42.80分一举提升到52.12分，增幅接近10分。在HealthBench上，得分从0.6164升至0.6624。在HLE各子类别上，增幅甚至比在Gemini-2.5-Flash上还要大。这意味着，BeamSearch-IS通过主动搜索所构建的上下文，包含的是真正普遍适用的外部知识，而不是对某个特定模型的"投其所好"。搜索来的好知识，换一个更聪明的学生，反而能学以致用得更好。
十、资源到底有没有"漏题"
研究团队还做了一项在学术界颇具现实意义的检查：上下文资料库里存放的那些"主导资源"（少数几条对大量测试样本都有正向贡献的资源），会不会其实只是"背了答案"，把训练集里的题目和答案藏进了上下文？
为了排除这种可能性，研究团队专门针对机器翻译任务和医疗健康任务，用另一个AI模型（Gemini-3-Flash）作为"数据污染检测员"，逐条检查上下文资源中是否存在测试集问题与参考答案的明显重合。检查结果是零污染——所有主导资源提供的都是通用语言规则、医学指南原则之类的普遍性知识，而非针对特定测试题目的专属答案。这说明方法取得的性能提升来自真实的知识迁移，而非数据泄露。
说到底，这项研究揭示的是一件听起来简单、做起来不简单的事情：让AI知道自己不知道什么，并且愿意、能够去查。
现有的大多数AI助手在面对知识盲区时，要么胡乱编一个听起来合理的答案，要么干脆承认不知道——但两种情况下，它都不会主动去翻翻资料。研究团队所做的工作，相当于给这种"死记硬背型助手"加装了一种反射弧：遇到问题，先查，再答。
不过，研究者自己也坦承，这套方法还有明显的局限。首先，它的效果部分依赖于基础模型的"读懂资料并加以运用"的能力——Gemini-3-Flash之所以比Gemini-2.5-Flash从同一份上下文中获益更多，正是因为更强的模型更擅长把外部资料转化为正确答案。其次，从数据分布图可以看出，绝大多数被收集进来的资源都是高度实例特定的，只对一小部分测试样本有帮助。如果任务的知识需求极为分散（比如HLE这类顶级难题），有限的训练样本很可能无法覆盖测试集所需的全部知识领域，优化出的上下文自然难以大范围泛化。
这些局限为未来的研究指出了明确方向：如何让模型更有效地把查到的资料用起来，以及如何设计更宽泛、更多元的搜索策略，在有限的训练资源下覆盖更广的知识空间。另一个值得探索的方向是离线和在线知识准备的结合——用离线阶段建立通用背景知识库，再用在线阶段针对具体问题即时补充。
归根结底，这项研究提醒了我们：一个好用的AI助手，不只需要一个聪明的大脑，还需要一双愿意去翻书的手。有兴趣深入了解这项研究全部细节的读者，可以通过arXiv编号2605.13050查阅完整论文。
**Q&A**
Q1：语境优化（上下文训练）和普通的AI对话有什么区别？
A：普通对话是你给AI一个问题，AI直接回答。语境优化是一种"训练AI的过程"，专门设计一套持续改进的"任务说明书"，让AI在不改变自身结构的情况下，在特定类型任务上越做越好。这份说明书里可以包含例子、规则、参考资料等，相当于给AI配备了一本专门针对这项任务的"参考手册"。
Q2：BeamSearch-IS方法搜索来的资料会不会把答案直接"塞"进去，造成作弊？
A：研究团队专门对此进行了检验。他们用另一个AI模型逐条审查上下文资源库里的每一条资料，确认是否存在测试题目和对应答案的直接重合。结果显示零污染，所有主导资源都是通用知识（如语法规则、医学指南原则），而非特定题目的答案，因此性能提升来自真实的知识迁移，不是作弊。
Q3：这套方法能用在普通人日常使用的AI产品上吗？
A：目前这套方法属于研究层面的框架，需要技术团队集成到产品中，不是普通用户自己能直接操作的工具。但其核心思路——让AI在优化任务策略时主动搜索外部信息，而不只靠内置知识——已经展示了明确的可行性，未来有可能以某种形式出现在各类AI助手的后端，帮助它们在特定专业领域（医疗、法律、小语种翻译等）提供更准确的服务。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

紧急调度！陆地观测在轨卫星助力广西南宁洪涝应急救援『航天视窗』（1645）

张一鸣的ToB棋局，藏着字节AI真正的底牌

马斯克用了中国机器人！海外跑出一家国产“隐形冠军”

2026工业互联网大会召开　中国电信硬核AI夯实工业底座

SK海力士募资280亿美元冲刺全球前三IPO

实探深圳AI硬件企业：从百元玩具到数十万元人形机器人，大模型涌入物理世界背后的“生死竞速”

全站最新

紧急调度！陆地观测在轨卫星助力广西南宁洪涝应急救援『航天视窗』（1645）

张一鸣的ToB棋局，藏着字节AI真正的底牌

马斯克用了中国机器人！海外跑出一家国产“隐形冠军”

续航表现：影响日常便利、旅行安全、成本与保值率的购车关键因素

热门推荐

小米增程车上市时间敲定，万台现车已备妥上市即开启交付模式

全球顶级富豪齐聚太阳谷闭门峰会，私人飞机挤满小镇机场

紧急调度！陆地观测在轨卫星助力广西南宁洪涝应急救援『航天视窗』（1645）

张一鸣的ToB棋局，藏着字节AI真正的底牌

马斯克用了中国机器人！海外跑出一家国产“隐形冠军”

小米小爱同学架构重组：技术模块细化，原负责人转战机器人业务

马斯克xAI更名SpaceXAI，AI业务成SpaceX核心赛道，2028年将部署太空数据中心

2026工业互联网大会召开　中国电信硬核AI夯实工业底座

活力中国调研行｜在上海，探索“从0到1”的前沿创新

极飞发布农业机器人新系统：从单点作业到全流程自主，农业自动化再进一步

2026年游戏多任务手机怎么选？Find X9s Pro领衔，多款旗舰满足极致需求

SK海力士募资280亿美元冲刺全球前三IPO

实探深圳AI硬件企业：从百元玩具到数十万元人形机器人，大模型涌入物理世界背后的“生死竞速”

人工智能大模型辅助决策，大有可为

Claude Code用不了？DeepSeek上新：Deep Code来了