当前位置: 首页 » 资讯 » 科技头条 » 正文

谷歌DeepMind让AI学会"主动查资料"

IP属地 中国·北京 科技行者 时间:2026-05-19 22:20:26


这项由爱丁堡大学与谷歌DeepMind联合开展的研究,以预印本形式发布于2026年5月13日,论文编号为arXiv:2605.13050v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

**研究概要**

假设你有一位助理,学识渊博,但所有知识都来自几年前读过的书。如今你让他帮你查一份最新的医疗指南,或者翻译一段非常小众语言的文字,他却只能凭着模糊的印象胡乱猜测——因为那些知识根本不在他的记忆里。这就是当今绝大多数大型语言模型(也就是人们常说的"大模型"或"AI助手")所面临的核心困境。

今天要介绍的这项研究,尝试从一个颇具新意的角度破解这个困境。研究团队的思路不是"让AI学更多知识",而是"让AI学会自己去查资料"。更关键的是,他们发现单纯给AI开通"上网权限"非但不够,甚至可能帮倒忙——除非同时配套一套经过精心设计的训练机制。

整篇研究围绕一个核心问题展开:在不修改AI模型本身参数(可以理解为不"改造"AI的大脑结构)的前提下,如何让AI在面对全新任务时,通过主动搜索外部信息来持续提升自身表现?研究结果表明,当主动信息搜索能力与一种类似"择优录取"的训练程序结合使用时,AI在低资源语言翻译、医疗健康问答、代码竞赛以及顶级学术考试等截然不同的任务上,都能获得实质性的进步。

一、AI的"闭卷考试"困境

每一位参加过期末闭卷考试的人都明白那种无力感——当脑中某个知识点恰好是空白时,无论多么努力地思考,也无法凭空生出答案。当今的大型语言模型面临着同样的处境,而且情况更加棘手。

这些模型在出厂之前经历了海量的训练,学习了互联网上数以亿计的文本内容。然而,一旦训练结束、模型部署上线,它的"知识库"就被冻结在了那个时间点。此后发生的任何新事件、新研究、新规范,都不会自动进入模型的记忆。更麻烦的是,对于那些本身就不常出现在主流互联网上的知识——比如西非某个小语种的语法规则,或是某个冷门医学领域的最新指南——模型从一开始就几乎一无所知。

重新训练一个大模型来补充这些知识,代价极其高昂,就像要求一个成年人为了学一个新单词回去重读小学一样不现实。更麻烦的是,重新训练往往会让模型"忘记"之前掌握的其他知识,这被研究者称为"灾难性遗忘"。

正因如此,近年来兴起了一种替代思路:与其改变模型的大脑,不如改变模型收到的"任务说明书"。这种思路叫做"语境优化"或"上下文训练",原理类似于给一个聪明的厨师更好的食谱,而不是给他换一副新的味觉器官。通过精心构建和不断调整放在模型面前的文字说明(也就是"上下文"或"语境"),可以在不改动模型本身的情况下让它表现得更好。

这套方法已经有了一批先行者,包括ProTeGi、TextGrad和DSPy等框架。它们的基本逻辑是:让一个AI"优化器"不断观察另一个AI"执行器"的表现,然后修改任务说明,帮助执行器在下一轮做得更好。然而,这些方法全都存在一个共同的根本性缺陷——它们是封闭的系统。优化器只能在自己已有的知识范围内打转,遇到真正的知识盲区时,只能用看似合理却实为杜撰的内容来填充上下文,非但帮不上忙,还可能把执行器带入歧途。麻省理工学院等机构的研究者已经指出,这种"自我消化"的循环可能导致"语境崩溃"——AI的输出质量随着训练循环的推进反而越来越差,就像反复复印一张纸,每一代都比上一代更模糊。

研究团队从这个痛点出发,提出了一个朴素却有效的问题:如果在优化器想不出好答案的时候,允许它去维基百科或网页上查一查,会怎样?

二、"查资料"这件事,没想象中那么简单

给AI开通上网权限听起来像是一个显而易见的解决方案,但研究团队在实验初期迅速发现,现实远比预想复杂。他们把这一阶段的发现称为"顺序训练管道的陷阱",用更直白的话说,就是:直接给AI加装搜索工具,往往会让事情变得更糟。

研究团队以"英语翻译成乔克维语"(Chokwe,一种主要在安哥拉和赞比亚使用的班图语族语言)为例,展示了第一个陷阱的全貌。这个陷阱被他们命名为"语境污染"。

在标准的顺序训练流程中,AI优化器在每一步都会修改任务说明,然后直接把修改结果传递给下一轮。实验数据显示,在训练进行到第4步时,优化器从网络上获取并写入上下文的一小段内容(大约200个字符的新增信息),竟然导致翻译得分从合理区间骤降至接近谷底。更令人沮丧的是,此后整整经历了从第16步到第128步的漫长过程,优化器都在反复添加和删除各种信息,却始终无法恢复到污染之前的性能水平。就好比一锅美味的炖菜里误加了一勺醋,不管后来怎么放盐、放糖、放酱油,那股酸味就是挥之不去。

第二个陷阱叫做"局部最优",用比赛来理解就更直观——选手一旦找到一个还算稳定的策略,就会停留在那里,不敢冒险尝试可能更好但短期风险更高的新策略。研究团队以"英语翻译成布吉斯语"(Buginese,主要分布于印度尼西亚苏拉威西岛)为例,用图表清晰展示了这种困境的样貌。

他们对优化过程中上下文内容的构成进行了追踪分类,发现了一个有趣但令人挫败的规律:整个训练过程中,"词汇表支持"类资源始终占据上下文的主导地位,而"平行例句"和"语言规则"这两类潜力更大的资源则始终处于边缘地位。更奇特的是,优化器会周期性地尝试删除词汇表内容,但在随后的几步里又会重新添加回来。这是一种典型的"原地打转"——系统知道现有策略并不完美,但无法找到更好的出路,只能在同一个坑里反复挣扎。上下文长度的曲线因此呈现出一种规律性的锯齿形状,增长、崩塌、增长、再崩塌,周而复始,性能始终在低位徘徊。

这两个陷阱共同揭示了一个重要事实:搜索工具本身不是答案,关键在于如何管理搜索工具产生的结果,以及如何在探索新策略和稳固已有成果之间保持平衡。

三、解决方案:像高考志愿一样"择优录取"

针对上述两个核心问题,研究团队设计了一套全新的训练机制,其核心思想借鉴自计算机科学中一种经典的搜索算法——束搜索(Beam Search)。

用招收大学新生来类比,传统的顺序训练就像一所只招一个人的学校,每次考试后立刻录取成绩最好的那位,然后让这位学生继续参加下一轮考试,过程中没有任何回头的机会。而束搜索风格的训练则像一所同时保留着多个名额的学校,每一轮都会培养多位候选人,最终择优录取一批,落选的方案则被淘汰,不会影响后续的优胜者。

具体来说,这套机制的运作方式如下。

在每一个训练周期的开始,系统同时维护着若干个"候选上下文"(也就是若干版本的任务说明书),而不是只维持一个。这些候选方案就像同时在培训中的多个厨师学徒,每人手上拿着一份略有不同的食谱。

接下来进入"探索阶段"。对于每一个候选方案,优化器都会在一小批训练数据上尝试生成多个衍生方案。在这个过程中,优化器可以调用维基百科搜索工具和网页浏览工具,主动查阅它认为可能有用的外部信息。为了防止所有衍生方案千篇一律,系统在生成每一个新方案时,都会把之前已经探索过的路径简要告知优化器,明确要求它尝试不同的方向。在机器翻译的例子里,不同的分支方案可能分别侧重于"建立词汇表"、"寻找目标语言的参考文章"、"收集平行例句"等完全不同的策略。

探索结束后,进入"评选阶段"。所有的衍生方案,连同本轮探索之前成绩最好的那个"老方案"(研究团队称之为"什么都不做"选项),一起在一个独立的验证数据集上接受评分。验证数据集与训练数据完全分离,这确保了评分的公正性,不会让善于"走后门"(即记住训练题目本身)的方案蒙混过关。最终,得分最高的若干方案入选下一轮,其余的被淘汰。

"什么都不做"选项的存在尤其关键。它相当于给整个系统安装了一道安全阀:如果这一轮所有的探索尝试都引入了噪音或错误信息,系统可以干净利落地回到上一轮的最优状态,而不是被迫接受一个"比差更差"的结果。这直接解决了"语境污染"的问题——污染过的方案会在评选阶段被高分的干净方案淘汰,污染效果在传播到下一轮之前就被截断了。

同时,通过维护多个并行候选方案和主动鼓励探索不同策略,系统也获得了摆脱局部最优的能力。就算当前最优方案已经在某个策略上陷入停滞,其他候选方案仍在探索完全不同的路径,一旦其中某条路径被验证更有效,它就会在评选阶段胜出,把整个系统带向新的方向。

为了让这套"保留多个版本、随时回溯"的机制在实际代码中可操作,研究团队将上下文数据库实现为一个带有版本控制功能的代码仓库,类似于程序员常用的Git工具。优化器可以"新建分支"来为一个候选方案创建独立的探索空间,"提交"当前状态以保存进度,或者"切换到"某个历史节点来回溯之前的状态。这些操作细节在实际使用中是自动执行的,并不需要使用者手动管理。

四、上下文本身:从一段文字变成一个"资料库"

除了训练机制的创新,研究团队还对"上下文"的形态本身进行了重新设计。

在大多数现有的语境优化系统中,上下文就是一段文字——一段对执行器的说明或提示词。这种形式简单直接,但有一个明显的局限:如果需要修改其中的一部分内容,往往不得不重写整段文字,牵一发而动全身,既低效又容易引入新的错误。

研究团队的做法是把上下文实例化为一个结构化数据库,其中存放着若干独立的"资源条目"。每个条目都有自己的唯一编号、摘要、正文内容,以及包含来源、长度、关键词、语义向量在内的元数据。

这种设计的好处是多方面的。优化器可以精准地修改或删除某一个特定条目,而不影响其他条目,就像在一个整理得井井有条的文件柜里精准找到并更换某一份文件,而不必翻动其他所有文件夹。执行器在处理任务时,也可以只调取与当前任务最相关的那几条资源,而不是把整个上下文一股脑读进来,减少了无关信息的干扰。

配合这个资料库,研究团队实现了一套交互接口,让优化器可以通过工具调用的方式完成"写操作"(初始化、新增、删除、更新、合并条目等)和"读操作"(按关键词搜索、按语义相似度搜索、调用专门的检索子代理进行复杂查询等)。

外部信息获取工具方面,系统配备了两类工具:一是基于Python维基百科库实现的维基百科搜索工具,适合快速查询明确的概念定义;二是基于browser-use库实现的网页浏览工具,允许优化器访问任意网页,提取代码片段、最新报告或尚未被维基百科收录的文档内容。后者更适合处理复杂或模糊的信息需求,因为有时候优化器自己也不能确切知道需要什么,只有通过浏览才能逐渐聚焦。

五、实验验证:四块不同形状的拼图

研究团队在四类截然不同的任务上检验了这套方法,覆盖范围之广,本身就是一种信心的表达。

第一类任务是"低资源语言翻译",使用的是FLORES+基准数据集,目标是把英语翻译成五种极小众的语言:布吉斯语、马加希语(Magahi,印度比哈尔邦的一种语言)、基库尤语(Kikuyu,肯尼亚的班图语言)、乔克维语和西南丁卡语(Southwestern Dinka,南苏丹的语言)。这五种语言的共同特点是:它们都不在谷歌翻译的直接支持范围内,而且模型在零样本条件下表现普遍较差,是名副其实的知识盲区。

第二类任务是"医疗健康问答",使用HealthBench数据集。这个基准数据集模拟真实的医疗对话场景,每个问题都配有由执业医生撰写的评分标准,评估AI能否给出专业且安全的回答。挑战不只是知识本身,还包括语气、深度和实用性是否符合医学专业规范。

第三类任务是"代码竞赛",使用LiveCodeBench数据集,其中包含从各类编程竞赛网站收集的真实竞赛题目。研究团队重点关注"中等难度"和"高难度"题目在pass@1(一次提交即通过)和pass@8(八次提交中至少一次通过)两项指标上的表现。

第四类任务是"跨学科推理",使用Humanity's Last Exam(HLE,直译为"人类最后的考试")数据集。这个数据集由来自生物/医学、计算机科学/人工智能、物理、数学、人文社科等多个领域的顶级难题组成,代表人类学术能力的顶端。

所有实验都在严格的"低数据"条件下进行——每项任务只使用128个训练样本和64个验证样本。这是对方法实际应用价值的重要考验,因为在现实场景中,标注数据往往极其稀缺。

六、数据说话:成绩单上写着什么

实验结果在各项任务上都呈现出一致的规律,这种一致性本身就是研究结论说服力的重要来源。

在低资源翻译任务上,衡量翻译质量的指标是ChrF++分数,该分数综合考量字符级别的精确度和召回率。基础版Gemini-2.5-Flash模型(研究中使用的主力AI)在五种语言上的平均得分为26.31分。添加了外部搜索工具但仍使用顺序训练的"Seq-IS"方案,平均得分反而下降到了29.68分,低于没有搜索工具的顺序训练方案(31.13分)。这印证了研究团队此前的理论分析:搜索工具与顺序训练结合会产生反效果。相比之下,束搜索加信息搜索的完整方案"BeamSearch-IS"将平均分提升到了34.51分,不仅大幅超越所有其他方案,甚至超过了规模大得多的Gemini-2.5-Pro模型(30.37分)。在五种语言中,马加希语的提升尤为亮眼,从44.86分跳升至50.52分。

在医疗健康问答任务上,最终得分采用官方评分标准。基础模型得分0.3793,而BeamSearch-IS方案达到0.5026,与体量更大的Gemini-2.5-Pro(0.5030)几乎持平。在细分主题分析中,BeamSearch-IS在"健康数据处理"和"紧急转诊识别"两个子类别上甚至超过了Pro版模型,但在"回应深度"这一子类别上仍逊于Pro版,研究团队认为这说明更大模型在生成流畅、有深度文本方面的固有优势仍然存在,语境优化尚无法完全弥补这一差距。

在代码竞赛任务上,单纯依赖模型内部知识的各种方案(不带搜索工具)在整体pass@1上都维持在约49%,与基础模型相差无几,说明在这类任务上仅凭优化任务说明书收益甚微。BeamSearch-IS将高难度题目的pass@1从基础模型的30.0%提升至33.9%,同时将pass@8提升至57.2%,在所有方案中最高。

在跨学科推理任务上,基础模型在各类别的平均准确率约为6.53%。BeamSearch-IS将这一数字提升至8.63%,在生物/医学(8.81%)、计算机科学(8.30%)、物理(7.67%)、数学(11.15%)和人文社科(7.23%)等多个方向均有提升,是所有方法中唯一在所有子类别上都取得正向改善的方案。

七、深挖数据:束搜索究竟做了什么

研究团队并不满足于展示最终成绩,他们进一步追踪了训练过程中上下文内容的构成变化,试图理解束搜索在背后发挥了怎样的作用。

在布吉斯语翻译任务的可视化图表中,研究团队追踪了几类资源(平行例句、词汇表、术语约束、语言规则等)在整个训练过程中所占比例的变化。与顺序训练时"词汇表一家独大、反复增删却无法突破"的局面截然不同,束搜索训练下的上下文逐渐演化出了一种由"语言规则"和"平行例句"共同主导的结构,翻译得分也随着这种结构的形成而稳步上升。

在训练初期的局部放大图中,可以看到一个颇具代表性的"自我纠错"片段:在第1步,优化器确实大量增加了词汇表内容(橙色区域的一个短暂尖峰)。但在第2步,束搜索机制对所有候选方案进行了评分对比,词汇表为主的方案得分不敌以语言规则为主的方案,因此被淘汰。系统由此转向了更有效的策略,而这个转向只用了两步便完成,在顺序训练中则可能需要数十步甚至永远无法实现。这个观察与近期语言学研究中的发现相呼应:研究者Aycock等人发现,在低资源翻译任务上,语言规则与平行例句的组合比单纯扩充词汇表更有效。束搜索机制让AI自己发现了这一点。

八、样本效率与超参数稳定性

研究团队还专门对两个实际部署时最关心的问题进行了分析。

第一个问题是"需要多少数据"。实验在西南丁卡语翻译任务上,把训练样本数量从4个一路扩大到256个,观察各方法的表现变化。结果发现,顺序训练方法即便拥有256个训练样本,也始终处于低性能区间(ChrF++得分在17-18分左右),说明数据量的增加对其帮助有限。BeamSearch-IS方法则表现出了惊人的数据效率:仅用32个训练样本,就能达到超过23分的性能,接近该方法在全量数据下的最优表现。研究团队将这种特性比作"信号放大器"——通过对每个训练样本进行多条路径的并行探索,束搜索机制从有限的数据中提取出了更多信号,远比传统方法高效。

第二个问题是"超参数怎么设置"。束搜索有三个主要参数:束宽(同时维护多少个候选方案)、每步假设数(每个候选方案生成多少个衍生方案)和训练轮次。研究团队测试了多种参数组合,用"宽度-假设数-轮次"的格式命名,如"2-3-1"表示束宽为2、每步假设数为3、训练1个轮次。结果显示,大多数"均衡型"配置(如2-1-3、3-2-1、1-2-3等)都能获得22.2到22.45分之间的相近成绩,形成了一个宽阔的"稳健区间"。只有极端不均衡的配置(如6-1-1,即极宽但几乎不做深度优化)才会显著拖累性能,跌至20.73分。这说明方法对超参数的容忍度相当高,使用者不需要费心调参就能获得稳定的结果。

九、跨模型迁移:好的知识不认门

一个真正有价值的问题是:上下文优化后所学到的东西,究竟是真正有用的外部知识,还是针对某个特定模型的"特殊暗语"?

为了回答这个问题,研究团队把用Gemini-2.5-Flash优化出来的上下文,原封不动地拿给更新、更强的Gemini-3-Flash模型使用,不做任何额外调整。

结果非常清晰。顺序训练(Seq)方法优化出的上下文,迁移效果不佳——例如在HealthBench上反而造成轻微下降(从0.6164降至0.6011),在数学和计算机科学等推理密集型子类别上同样表现欠佳。这印证了研究团队的判断:没有外部信息支撑的上下文优化,倾向于学到一些针对特定模型行为习惯的"执行器专属模式",换了一个模型就失效了。

BeamSearch-IS方法的结果则截然相反。在马加希语翻译上,得分从原始的42.80分一举提升到52.12分,增幅接近10分。在HealthBench上,得分从0.6164升至0.6624。在HLE各子类别上,增幅甚至比在Gemini-2.5-Flash上还要大。这意味着,BeamSearch-IS通过主动搜索所构建的上下文,包含的是真正普遍适用的外部知识,而不是对某个特定模型的"投其所好"。搜索来的好知识,换一个更聪明的学生,反而能学以致用得更好。

十、资源到底有没有"漏题"

研究团队还做了一项在学术界颇具现实意义的检查:上下文资料库里存放的那些"主导资源"(少数几条对大量测试样本都有正向贡献的资源),会不会其实只是"背了答案",把训练集里的题目和答案藏进了上下文?

为了排除这种可能性,研究团队专门针对机器翻译任务和医疗健康任务,用另一个AI模型(Gemini-3-Flash)作为"数据污染检测员",逐条检查上下文资源中是否存在测试集问题与参考答案的明显重合。检查结果是零污染——所有主导资源提供的都是通用语言规则、医学指南原则之类的普遍性知识,而非针对特定测试题目的专属答案。这说明方法取得的性能提升来自真实的知识迁移,而非数据泄露。

说到底,这项研究揭示的是一件听起来简单、做起来不简单的事情:让AI知道自己不知道什么,并且愿意、能够去查。

现有的大多数AI助手在面对知识盲区时,要么胡乱编一个听起来合理的答案,要么干脆承认不知道——但两种情况下,它都不会主动去翻翻资料。研究团队所做的工作,相当于给这种"死记硬背型助手"加装了一种反射弧:遇到问题,先查,再答。

不过,研究者自己也坦承,这套方法还有明显的局限。首先,它的效果部分依赖于基础模型的"读懂资料并加以运用"的能力——Gemini-3-Flash之所以比Gemini-2.5-Flash从同一份上下文中获益更多,正是因为更强的模型更擅长把外部资料转化为正确答案。其次,从数据分布图可以看出,绝大多数被收集进来的资源都是高度实例特定的,只对一小部分测试样本有帮助。如果任务的知识需求极为分散(比如HLE这类顶级难题),有限的训练样本很可能无法覆盖测试集所需的全部知识领域,优化出的上下文自然难以大范围泛化。

这些局限为未来的研究指出了明确方向:如何让模型更有效地把查到的资料用起来,以及如何设计更宽泛、更多元的搜索策略,在有限的训练资源下覆盖更广的知识空间。另一个值得探索的方向是离线和在线知识准备的结合——用离线阶段建立通用背景知识库,再用在线阶段针对具体问题即时补充。

归根结底,这项研究提醒了我们:一个好用的AI助手,不只需要一个聪明的大脑,还需要一双愿意去翻书的手。有兴趣深入了解这项研究全部细节的读者,可以通过arXiv编号2605.13050查阅完整论文。

**Q&A**

Q1:语境优化(上下文训练)和普通的AI对话有什么区别?

A:普通对话是你给AI一个问题,AI直接回答。语境优化是一种"训练AI的过程",专门设计一套持续改进的"任务说明书",让AI在不改变自身结构的情况下,在特定类型任务上越做越好。这份说明书里可以包含例子、规则、参考资料等,相当于给AI配备了一本专门针对这项任务的"参考手册"。

Q2:BeamSearch-IS方法搜索来的资料会不会把答案直接"塞"进去,造成作弊?

A:研究团队专门对此进行了检验。他们用另一个AI模型逐条审查上下文资源库里的每一条资料,确认是否存在测试题目和对应答案的直接重合。结果显示零污染,所有主导资源都是通用知识(如语法规则、医学指南原则),而非特定题目的答案,因此性能提升来自真实的知识迁移,不是作弊。

Q3:这套方法能用在普通人日常使用的AI产品上吗?

A:目前这套方法属于研究层面的框架,需要技术团队集成到产品中,不是普通用户自己能直接操作的工具。但其核心思路——让AI在优化任务策略时主动搜索外部信息,而不只靠内置知识——已经展示了明确的可行性,未来有可能以某种形式出现在各类AI助手的后端,帮助它们在特定专业领域(医疗、法律、小语种翻译等)提供更准确的服务。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。