当前位置: 首页 » 资讯 » 科技头条 » 正文

马里兰大学揭示:AI大脑里藏着"知道但不做"的秘密

IP属地 中国·北京 科技行者 时间:2026-05-25 22:20:57


这项由马里兰大学帕克分校(University of Maryland, College Park)的研究团队完成的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.14038v2,有兴趣深入了解的读者可通过该编号查询完整论文。

当你和AI助手聊天,请它帮你查今天的天气或计算一道复杂的数学题时,你可能从未想过一个问题:AI是怎么决定"这件事我自己能搞定"还是"我需要借助外部工具"的?这个看似简单的判断,实际上隐藏着一个相当耐人寻味的问题。马里兰大学的研究团队发现,AI在这件事上存在一种非常人性化的毛病——"知道该怎么做,但实际行动时偏偏走岔了"。

用一个生活场景来铺垫这个研究会更清晰。假设你请了两位厨师来做菜,一位是米其林三星大厨,一位是刚入行的学徒。对于一道需要精确计时的舒芙蕾,大厨凭经验就能拿捏火候,但学徒可能就需要用定时器辅助。如果你给他们同一道菜、打了同一个标签说"这道菜不需要工具",那对学徒来说就是一个错误的指示。这正是现有AI工具使用研究的一个核心漏洞——它们对所有AI都用同一套标准来判断"什么时候该用工具",完全忽视了不同AI的能力差距。

马里兰大学的研究团队正是从这个漏洞入手,提出了一套全新的、针对每个AI量身定制的工具必要性判断框架,并在此基础上发现了一个更深层的现象:即便AI内心深处"知道"自己需要借助外部工具,它在实际操作时却常常"拒绝行动"——这就是研究者所称的"知与行的鸿沟"。

一、为什么现有的工具使用研究方向走偏了

在AI领域,"工具调用"是指AI在回答问题时,借助外部资源完成任务,比如调用计算器做数学运算、调用搜索引擎查找实时信息、或者通过API与外部系统交互。随着AI越来越多地被部署为自主工作的智能代理,如何判断"什么时候用工具、什么时候自己答"变成了一个关键挑战。

此前的研究大多把这个判断当成一个固定的、与AI能力无关的标准来处理。研究者们通常找来人类标注者,或者让某个强大的AI来充当裁判,判断某类问题是否"需要工具"。这就好像让同一个教练给所有运动员制定同一套训练计划,完全不管他们各自的体能水平和专项技能。这样的标准更多反映的是裁判自身的能力边界,而非被测试选手的真实情况。

这套做法还有另一个问题:它往往只在"答案显而易见"的极端情况下才有效,比如"查询今天股市行情"明显需要搜索工具,"把一句话换个说法"明显不需要。但现实中大量问题处于灰色地带——对强模型来说举手之劳、对弱模型来说却难如登天。

马里兰大学的研究团队为此提出了一个核心主张:工具是否必要,必须与被测试的那个AI的实际能力挂钩。

二、量身定制的能力边界测试:给每个AI画一张专属地图

研究团队引入了一个优雅的操作方法来解决这个问题。对于任何一道题和任何一个AI模型,他们让这个AI在没有任何外部工具帮助的情况下独立回答同一道题,重复十次,每次回答都带有一定的随机性(就像人在反复思考同一个问题时,有时清醒有时模糊)。如果这个AI十次都能答对,说明这道题在它的能力范围之内,工具就是多余的。如果哪怕有一次答错,说明这道题对它来说存在不确定性,外部工具就有必要。

这套判断标准有一个直觉上很合理的逻辑支撑:在真实部署场景中,一个偶尔才能答对的AI其实并不可靠。如果你每五次请它算一道乘法题,它有一次会算错,那给它配备一个计算器就很有必要,哪怕它大多数时候"看起来"会算。

按照这套标准,研究团队对四个真实存在的AI模型进行了系统测试,分别是阿里巴巴开发的Qwen3-8B和Qwen3-4B,以及Meta开发的Llama-3.1-8B-Instruct和Llama-3.2-3B-Instruct。测试的任务包含两大类:数学四则运算(共4000道题,难度从简单的一步加减法到复杂的多步混合运算不等)以及事实性问答(采用TruthfulQA数据集,共817道题,专门考察AI的知识准确性)。

测试结果令人印象深刻。研究团队将同一批题目在四个AI面前展开,就像一幅颜色分布图,绿色代表某个AI能稳定答对的题,红色代表至少有一次答错的题。四个AI的绿红分布大相径庭——很多题目对某个AI是绿色,对另一个AI却变成了红色。换句话说,同一道题,对不同AI的"工具必要性"标签竟然完全不同。这正说明用统一标准来衡量所有AI是多么不合适。

三、实际表现有多糟糕:将近一半的决策是错的

有了每个AI专属的"工具必要性地图"后,研究团队又让这四个AI在拥有工具访问权限的条件下去回答同样这批题,观察它们实际上是否调用了工具。将"应该用工具"的判断与"实际是否调用工具"的行为对比之后,研究团队得出了一个让人吃惊的数据。

在数学运算任务上,四个AI的"判断失误率"从26.5%到54%不等——也就是说,最差的那个AI有超过一半的问题出现了决策失误,要么在自己能搞定的题目上多此一举地调用了工具,要么在自己根本搞不定的题目上硬撑着不用工具。在事实性问答任务上,失误率在30.8%到41.8%之间。

更有意思的是,失误的具体类型因模型和任务而截然不同,根本找不到一个统一的规律。Qwen3-8B在数学运算上最爱"多此一举"——38.2%的题目本来自己能搞定,它却偏偏去调用计算器;相比之下,它在工具明明必要时不调用的比例只有3.5%。然而,到了事实性问答任务,同一个Qwen3-8B却反过来了,变成了"该用不用"的典型:17.9%的题目本需要搜索工具,它却自作主张地直接回答。两个Llama模型在数学任务上则是另一个极端,大量应该用工具的题目它们都选择了硬撑直接作答,Llama-3.2-3B-Instruct的"该用不用"比例高达39%。

这种模型与任务之间的复杂交叉现象说明,问题根源不是简单地偏向某一边,而是更深层的机制出了问题。研究团队决定深入到AI的"大脑内部"去寻找答案。

四、打开AI的大脑:认知与执行是两套截然不同的系统

研究团队采用了一种叫做"线性探针"的技术来窥探AI内部发生了什么。这个方法的原理并不复杂:AI在处理一道题时,其内部每一层神经网络都会产生一系列数字向量,就像人脑在思考时每个神经元的激活状态。研究者训练了一个非常简单的小分类器,专门去读取这些内部状态,判断这道题是否属于"工具必要"类别。

如果这个小分类器能以较高准确率正确区分"工具必要"和"工具不必要"两类题目,就说明AI的内部状态确实编码了相关信息——AI在内心深处其实"知道"这道题是否超出了它的能力范围。

研究结果表明,在数学运算任务中,大多数AI模型的内部状态确实存在这种可以被识别的信号,尤其在网络中间到靠后的层级,这个信号相当清晰。这与此前一些研究的发现一致:AI的隐藏状态里藏着很多它"知道但没说出来"的信息。

然而,在事实性问答任务上,这个信号就弱得多了,只有Llama家族的两个模型在少数特定位置才显示出还算不错的识别效果。这个对比揭示了一个重要的结构性差异:数学题的难度往往在题目本身的表面结构上就有所体现——越长越复杂的表达式越难——AI内部对"这道题难不难"的感知也因此更容易形成和读取。但事实性问题就不同了,"中国首都是哪里"和"量子纠缠的数学描述是什么"在题目表面看起来长度差不多,难度却天差地别,AI内部对这类"我到底知不知道这个答案"的感知更难被线性地分离出来。

与此同时,研究团队用完全相同的方法训练了另一个小分类器,这次的目标换成预测AI实际上会不会调用工具。这个关于"行动意图"的信号更加清晰——在几乎所有模型和所有任务上,分类效果都相当好,在网络的很多层和很多位置都能以高准确率预测AI接下来是否会去调用工具。

两套信号都存在且都可以读取,但它们是否指向同一个方向?

五、认知与行动的方向竟然互相垂直:这是真正的问题所在

当研究团队把"认知方向"(即内部状态中区分工具必要与不必要的那个维度)和"行动方向"(即内部状态中区分是否调用工具的那个维度)放在一起比较时,他们用了一个数学工具:余弦相似度。这个指标衡量的是两个方向的对齐程度,值接近1说明两个方向几乎相同,值接近0说明两个方向互相垂直、毫无关联,值接近-1说明两个方向完全相反。

在网络的中间层和中间位置,两个方向确实存在一定程度的相关性,尤其在Qwen系列的两个模型上表现较为明显。这说明AI在信息处理的过程中,认知判断和行动意图并非完全无关的两套独立系统。

然而,当研究团队聚焦到真正"决定下一个词是什么"的关键位置——也就是网络最后几层、处理最后一个查询词的时候——两个方向的余弦相似度迅速跌落到接近零。这意味着在最终决定"要不要调用工具"的那个关键时刻,AI内部的"我知道这道题超出了我的能力"这个认知信号,和"我要不要实际去按工具调用按钮"这个行动信号,在空间上是互相垂直的——它们各走各的路,几乎没有交流。

这就好像一个厨师在备菜的过程中,大脑的某个区域已经悄悄判断"这道菜我一个人做不来,需要帮手",但当他最终走到炉灶前拿起锅铲的那一刻,这个认知完全没有被传递到他的手部动作上,他还是一个人硬上了。

六、大多数错误发生在"从知道到做到"的那一步

为了进一步确认到底哪个环节贡献了更多错误,研究团队追踪了每一道题在整个决策链条上的旅程:从"这道题实际上是否需要工具"这个客观事实出发,经过"AI内部是否形成了正确的认知判断"这个中间站,最终到达"AI实际上是否调用了工具"这个终点。

每道题最终落入四种可能的结果:一是全程正确,认知正确且行动也与认知一致;二是仅第一阶段出错,认知本身就判断错了;三是仅第二阶段出错,认知是对的但行动与认知背道而驰;四是两个阶段都出错,认知本身错了,而行动碰巧与客观事实一致(这是一种"撞对了"的错误补偿)。

研究团队在论文中用一种桑基流图(Sankey diagram)展示了这四类样本的比例流动,结果非常直观地揭示了主要问题所在。在几乎所有模型和任务的组合上,"认知正确但行动出错"这一类错误(研究团队用橙色标注)都是最大的错误来源,远远超过"认知本身就错了"的那部分错误(红色)。

换句话说,大多数决策失误并非因为AI在内心深处判断出了问题,而是因为AI明明形成了正确的内心判断,却在最终行动时出现了偏差。这就是研究者所说的"知与行的鸿沟"——知道,但就是没做到。

更令人费解的是,这种知行脱节并不是因为AI内心"不确定"造成的。研究团队进一步测试了认知信号的强度与行动是否一致之间的关系,结果发现:即便AI内部的认知信号非常强烈——无论是强烈地认为"这道题我需要工具"还是强烈地认为"这道题我不需要工具"——行动与认知不符的情况依然大量存在。这排除了"因为不确定所以行动游移不定"这种最直觉的解释,知行脱节似乎是一种更深层、更系统性的结构问题。

七、额外验证:让AI直接开口说"我需不需要工具"效果反而更差

研究团队还做了一个对照实验,探索另一种思路:既然问题出在AI"知道但不说",那直接让AI开口回答"你觉得这道题需要工具吗",效果会更好吗?

研究团队设计了一个两阶段的提问流程:先专门问AI"完成这道题需不需要调用外部工具,请回答是或否",然后再让它正常解答题目。测试结果出乎意料地糟糕。AI通过语言表达出来的"是否需要工具"判断,与实际能力边界的吻合度远低于通过隐藏状态探针读出来的判断。Llama-3.1-8B-Instruct在事实性问答任务上对所有题目都回答了"不需要工具",导致准确率指标无法计算;Llama-3.2-3B-Instruct甚至出现了负相关——它说需要工具的题目,往往恰恰是它实际上不需要工具的题目。

更重要的是,与直接让AI解答题目相比,这种先问判断再解答的流程让高达接近50%的题目的工具调用行为发生了改变。这意味着,先让AI做出一个明确的语言承诺,会显著影响它之后的行动——这种影响有时有利,有时有害,总体上让行为更加偏离真实的能力边界。这个发现对那些依赖"显式自我评估提示"来研究AI工具使用的方法提出了质疑:在实际部署场景中,提示词通常是任务导向的,AI并不会被专门要求先判断自己的能力边界,因此这类实验结果可能与真实场景相去甚远。

归根结底,马里兰大学这项研究告诉我们一件很有趣的事:AI并不像人们通常认为的那样,要么聪明得知道自己什么时候该求助,要么傻得完全不自知。真实情况远比这复杂——AI在某种程度上是"知道的",它的内部信号往往编码了相当准确的自我能力评估,但这份内在的知晓并没有可靠地转化为正确的外在行动。

这对AI开发者来说是一个颇具指导意义的方向转移。过去很多努力集中在"让AI更准确地识别自己什么时候需要帮助",但这项研究表明,更大的瓶颈在于"让AI把这种识别可靠地转化为正确的行为"。就像教学中的一个老难题:理解了知识并不等于会用知识,两者之间需要一座桥梁。对AI来说,这座桥梁目前还没有被很好地搭建起来。

当然,这项研究也有一些局限性值得关注。实验中"需要工具"的判断基于固定的重复次数(十次)和固定的随机性参数(0.7),不同的参数设置可能会导致略有不同的结论。此外,由于整个分析框架依赖于读取AI内部的隐藏状态,这套方法对于ChatGPT、Gemini这类不对外开放内部结构的AI并不适用。未来的研究如何在不依赖内部状态访问权限的情况下研究这一问题,仍是一个开放的挑战。

对于我们普通用户来说,这项研究提供了一个有趣的视角来重新审视AI助手的行为。下次当你的AI助手在一道简单题上多此一举地调用了搜索引擎,或者在一道明显超出它能力的问题上硬撑着给出了一个不靠谱的答案,你大概可以理解:这不是它"不知道",很可能是它"知道但没做到"。有兴趣深入了解这项研究的读者,可以通过arXiv编号2605.14038查阅完整论文。

Q&A

Q1:什么是模型自适应工具必要性,和传统方法有什么区别?

A:模型自适应工具必要性是指,判断一道题是否需要工具时,要以被测试的那个AI自身的实际能力为标准,而非用统一的固定标准。传统方法用人类标注者或某个强大AI来统一打标签,忽略了不同AI能力差异,同一道题对强模型可能不需要工具,对弱模型却必须借助工具。

Q2:LLM工具调用中的知与行鸿沟是什么意思?

A:知与行鸿沟是指AI的内部状态已经形成了正确的认知判断(比如内心"知道"这道题超出了自己的能力,需要工具),但在实际生成回答时,这个认知并没有被转化为对应的工具调用行为。研究发现,大多数工具调用错误恰恰发生在这个认知到行动的转化阶段,而非认知本身出错。

Q3:为什么不能直接问AI它自己需不需要工具来解决这个问题?

A:实验表明,直接让AI回答是否需要工具的效果反而更差。AI通过语言表达的自我评估与其实际能力边界的吻合度,远低于通过读取内部隐藏状态得到的信号。而且,先让AI做出明确的语言判断会显著改变它后续的行为,与真实部署场景中任务导向的提示方式相差甚远,导致评估结果失真。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。