当前位置: 首页 » 资讯 » 科技头条 » 正文

德克萨斯大学奥斯汀分校让问答机器人知道自己"几斤几两"

IP属地 中国·北京 科技行者 时间:2026-06-25 00:11:37


这项由德克萨斯大学奥斯汀分校研究团队完成的研究,以预印本形式于2026年6月19日发布在arXiv平台,编号为arXiv:2606.21777,有兴趣深入了解的读者可通过该编号查阅完整论文。

**一个让AI"自知之明"的故事**

假设你雇了一个助手帮你查资料。这个助手有两种令人头疼的毛病:第一种是太自信,脑子里冒出什么就说什么,哪怕压根没查过资料,也一口咬定答案正确;第二种则相反,哪怕手头的资料已经把答案写得清清楚楚,他还是不停地到处翻找,浪费时间和精力。

现实中的人工智能问答系统,正饱受这两种毛病的折磨。德克萨斯大学奥斯汀分校的研究团队,把这两个问题分别称为"参数过度信任"(明明可能记错却不去查证)和"过度检索"(明明够用的证据却还在不停搜索)。为了解决这个困境,他们开发了一套名叫CALVERT的方案,用中文说就是"校准验证器遥测",这个名字听起来有点拗口,但核心思路其实很朴素:给AI助手装上一块实时"体检仪",让它在每次做决定之前,都能看到自己当前状态的客观数字读数。

**一、AI问答机器人的两大顽疾**

要理解这套方案的价值,先得搞清楚现有AI问答系统是怎么工作的,以及它们为什么会出问题。

当一个智能问答系统接到问题时,它通常不会直接给出答案,而是像一名勤奋的研究员一样,反复执行"检索资料、思考推理、修正答案"这三个步骤。这种循环往复的工作模式被研究界称为"智能体循环",可以把它想象成一个不断翻阅图书馆资料的学生。

问题在于,这个学生有时候太相信自己的记忆。某些AI系统在被问到"某个城市位于哪个地区"时,会直接凭借训练时学到的知识给出答案,即便那个知识可能是错的或者过时的,它也不会主动去查证。这就是"参数过度信任"——"参数"是AI记忆知识的方式,好比大脑神经元之间的连接权重,而"过度信任"就是对这些连接权重里存储的知识太过盲目相信。

另一种毛病是相反的。有些AI即便手头的资料已经足够回答问题,它还是会再去搜索更多段落。这不只是浪费时间和计算资源,有时候额外检索到的信息反而会干扰已有的正确判断,导致答案变差。

两种毛病背后有一个共同的根源:AI缺乏准确的自我认知工具。它既不清楚自己对当前答案有多大把握,也不知道手头的证据是否真的支撑了这个答案。研究团队用一个形象的比喻来描述这种状态:这些AI系统在"盲目地爬山",既不知道自己在山的哪个位置,也不知道离山顶还有多远。

**二、体检仪的两根"温度计"**

CALVERT的核心设计思路,是给AI助手配备两块相互独立的仪表盘。可以把它理解为一块同时显示"体温"和"血压"的电子体检仪:两个指标各自衡量不同维度的健康状况,单看一个会有盲点,合在一起才能给出全面诊断。

第一块仪表叫做"自信心分数"。这个分数由一个名叫DINCO的系统计算,它实际上包含两个子读数。第一个子读数是"言语置信度"——研究人员会用一种特殊的提问方式追问AI:"你刚才的答案正确吗?是还是否?"然后把AI回答"是"的概率正规化,得出一个0到1之间的数字,数字越高表示AI对自己的答案越有信心。第二个子读数是"自洽率"——让AI对同一个问题独立回答多次,看看不同次数的回答是否一致,如果每次都给出相同答案,说明这个AI内部判断比较稳定。把这两个子读数平均合并,就得到了最终的自信心分数。

第二块仪表叫做"证据接地分数"。这个分数由另一个名叫BespokeMiniCheck-7B的专门验证模型计算。它的工作原理是把AI当前答案拆分成若干具体"声明",然后逐条检查:手头检索到的证据,真的支持每一条声明吗?计算结果会产生两个数字:一个是所有声明接地程度的平均值,另一个是最差那条声明的接地分数。后者尤为关键,它像链条中最薄弱的一环,只要有一条声明得不到证据支撑,整个答案就存在风险。

把这四个数字同时呈现给AI,它就能在每次决策之前,获得一份关于"我有多确定"和"我的答案有多少根据"的实时报告。

**三、读懂仪表盘之后,AI该怎么行动**

知道自己的"体检数字"之后,AI需要根据这些数字选择下一步行动。研究团队为AI设计了四种可选动作,可以用一个学生做论文的比喻来理解:

第一种叫"提交"——就像学生确认自己的答案足够完善后,把论文递交给老师。AI选择这个动作,意味着它认为当前答案已经足够可靠,停止继续搜索和思考。第二种叫"检索"——学生意识到手头资料不够,跑去图书馆找更多文献。AI选择这个动作时,会向检索系统发起搜索请求,获取更多证据段落。第三种叫"精炼"——学生手头资料已经够了,但论文写得不够清晰,需要重新整理和表达。AI选择这个动作时,会利用现有证据重新生成一遍答案,而不是去搜索新资料。第四种叫"分解"——问题实在太难,学生决定把大问题拆成几个小问题分头突破。AI选择这个动作时,会放弃当前子问题,把它拆解成更小的子任务。

关键在于,研究团队并没有硬性规定"自信心分数低于0.5就必须检索"之类的死板规则。他们直接把四个数字以自然语言的形式写进AI的提示信息里,让AI像一个有经验的决策者一样,自己判断这些数字意味着什么、该采取什么行动。这个设计选择非常重要:它让AI保持了灵活性,能够根据不同情境做出不同判断,而不是被固定阈值僵硬绑死。

在整个工作流程中,自信心分数只在AI第一次面对某个子问题时计算一次,之后缓存复用。而证据接地分数则在每次行动之后都重新计算,因为每次检索到新证据后,接地情况都可能发生变化。这种设计兼顾了计算效率和信息时效性。

**四、用一个真实案例感受差异**

论文中展示了一个具体案例,非常直观地说明了有没有"体检仪"的区别。问题是:"WMBH广播电台位于密苏里州的哪个角落?"

没有体检仪的AI是这样工作的:它先凭记忆猜测答案是"东南角",觉得不太确定,于是去检索资料。检索到的一条信息说WMBH在乔普林市,另一条说乔普林位于密苏里州东南部。AI似乎有了证据,但它没有注意到这条信息其实是错的——乔普林实际上在密苏里州西南角,不是东南角。结果AI还是提交了"东南角"这个错误答案。整个过程中,它无法分辨自己是真的有根据,还是只是找到了一条恰好符合自己错误猜测的误导信息。

有体检仪的AI则走了完全不同的路径:首先,自信心分数只有0.32,这个偏低的数字立刻提示它不能仅凭记忆下结论,应该去检索。检索到信息后,接地分数显示某条声明的分值只有0.042——几乎为零,说明这条声明得不到证据支持。于是AI没有急于提交,而是选择"精炼",把问题更精确地表述为"乔普林是否在密苏里州东南角",再次检索。这一次找到的证据明确说乔普林在密苏里州西南角,接地分数飙升至0.95。这时AI才选择提交,最终给出了正确答案"西南角"。

这个案例展示的不只是一次答题的成功,而是一种根本性的能力差异:有了体检仪的AI,能够区分"我觉得是这个答案"和"有证据支持这个答案",并根据这种区分做出不同决策。

**五、不改变原有系统,直接插入遥测信号**

CALVERT的一个重要优势,是它可以像给现有系统安装一块外接显示屏一样,不需要对原有AI框架动大手术。研究团队把这种能力称为"可移植性"。

为了验证这一点,他们选取了五个已经发表的知名自适应检索框架,分别是Self-Ask、TARG、SUGAR、Verify-and-Edit和SeaKR。每个框架都有自己独特的判断何时检索的机制,有的靠词元熵值(一种衡量模型不确定性的统计量),有的靠内部隐藏状态的离散程度,有的靠语义熵聚类。

研究团队的做法是:把每个框架原有的检索触发信号,替换为CALVERT的DINCO自信心分数,然后对比替换前后的表现。测试在HotpotQA数据集上进行,使用100个配对样本,底座模型是Qwen3-32B。

结果显示,五个框架中有四个在加入CALVERT信号后F1分数提升,其中TARG的提升幅度最为显著,F1分数从45.1跳升至60.5,足足提高了15.4个百分点。SeaKR也提升了7.8个百分点。Verify-and-Edit和Self-Ask也有不同程度的改善。只有SUGAR的F1分数略有下滑,但即便如此,SUGAR的检索次数减少了34次,说明它在效率上依然有所收益。

这组结果传达的信息很清晰:无论一个检索框架用什么样的内部机制来判断"该不该查资料",换上校准过的外部置信信号,往往都能做出更好的决策。

**六、四个数据集上的全面检验**

除了框架可移植性测试,研究团队还在四个不同的问答数据集上,系统比较了"有遥测信号"和"没有遥测信号"两种状态下AI的表现。这四个数据集分别是HotpotQA(需要跨多篇文章联合推理的多跳问题)、2WikiMultihopQA(同样是多跳问题,但来源于维基百科)、MuSiQue(通过拼接单跳问题构造的多跳问题集)和WiTQA(单跳事实性问题集)。测试时每个数据集抽取300道题,使用Mistral-24B和Qwen3-32B两个不同规模的AI模型。

在三个多跳问题数据集上,整体趋势是:加入遥测信号后,AI的动作次数普遍下降(减少了不必要的检索循环),而答案质量大多持平或有所提升。具体来说,2WikiMultihopQA数据集上,Qwen3-32B的F1分数从66.0升至69.7,同时每道题的平均动作次数减少了约1.87次。MuSiQue数据集上,Mistral-24B的F1分数提升了2.0个百分点。HotpotQA上,Qwen3-32B提升了1.4个百分点,而Mistral-24B则出现了小幅下滑(-2.7个百分点),这是整个实验中少数几个负向结果之一,但与此同时它的动作次数也减少了2.61次,意味着节省了大量计算资源。

WiTQA数据集上的情况则呈现出完全相反的方向,却同样印证了CALVERT的效果。这个数据集里有很多关于冷门实体的问题,AI靠自身记忆往往答不准。遥测信号在这里发挥的不是"刹车"而是"油门"——它让AI意识到自己对答案没把握,于是主动去检索,而不是凭记忆硬答。Qwen3-32B在WiTQA上的F1分数从82.2提升到86.9,提升了4.7个百分点,检索率也相应升高。

这两种数据集上截然不同的行为模式,恰好印证了CALVERT的设计初衷:它不是简单地"增加检索"或"减少检索",而是根据具体情况自适应地调整策略——该查的时候查,够了的时候停。

**七、通过强化学习让AI彻底学会"看仪表盘行事"**

把遥测信号直接塞进提示词里,属于"不改变模型权重"的训练无关方法,效果受限于AI自身理解和运用这些信号的能力。研究团队进一步探索了一个更深层的问题:如果让AI通过反复练习来学习如何根据遥测信号做决策,效果会不会更好?

他们采用了一种叫GRPO的强化学习方法(全称是组相对策略优化),搭配LoRA低秩适配技术(一种让大模型"微调"时只更新少量参数的高效方法,好比只更换发动机的某个零件而不是整台引擎)。训练数据来自HotpotQA的1600道题,评估则在另外200道题上进行。

奖励机制的设计非常有趣,可以用"计件工资加效率奖金"来理解:AI每道题的得分,等于最终答案的质量分(基于F1和精确匹配两个标准),减去行动成本惩罚。检索一次扣0.02分,精炼一次也扣0.02分,分解子问题扣0.04分,每多走一步额外再扣0.01分。如果AI给出格式错误的输出,直接扣0.2分。这种奖励机制同时激励AI答得准确和行动高效。

训练分为两个平行组:一组AI在训练时能看到遥测信号,另一组完全相同的训练设置但没有遥测信号。100步训练后,结果对比鲜明。对于Qwen3-8B这个较小的模型,有遥测信号的版本精确匹配率(EM)达到35.0%,F1分数达到45.6%,而没有遥测信号的版本分别只有28.0%和39.7%,差距分别是7个百分点的EM和5.9个百分点的F1。对于Qwen3-30B-A3B这个更大的混合专家架构模型,有遥测的版本达到35.0%的EM和44.1%的F1,无遥测版本则是31.0%和40.8%,同样有约4个百分点EM和3.3个百分点F1的差距。

更值得关注的是,没有遥测信号的强化学习版本,相比完全没训练的基线版本,进步极其有限。这说明强化学习本身并不神奇——如果AI在训练时就缺乏准确的状态感知工具,它学到的策略也只是在"摸黑做决策",难以真正优化。遥测信号,才是让强化学习真正发挥效用的关键要素。

**八、数字会说话:仪表盘读数与行为的真实关联**

研究团队还做了一项分析,直接检视AI在选择不同动作时,遥测信号读数的平均水平,以此验证AI是否真的在"看仪表盘行事"。

统计结果显示,在AI最终选择"提交"的577个决策中,平均DINCO自信心分数高达0.98,平均接地最低分是0.89——几乎接近满分,说明AI确实在有充分把握和充足证据支撑时才选择提交。而在AI选择"检索"的648个决策中,平均DINCO自信心分数只有0.59,平均接地最低分更是低至0.33——说明AI是在对自己的答案不自信、且答案与证据之间存在明显裂缝时,才选择去寻找更多资料。

这个统计结果揭示了一个清晰的分工:自信心分数主要影响AI"要不要继续行动"的倾向,接地分数则主要影响AI"能不能安心提交"的判断。两个信号共同作用,才形成了有效的决策机制。

还有一个细节值得关注:遥测信号的效果与问题难度高度相关。在HotpotQA数据集上,需要跨三篇文章推理的最难问题(三跳问题)从遥测信号中获得的F1提升,明显大于只需一跳推理的简单问题。在WiTQA数据集上,遥测信号带来的改善几乎全部集中在关于冷门实体的问题上,而关于热门实体的问题(AI本身记忆充足)几乎不受影响。这说明遥测信号真正发挥作用的地方,恰恰是AI最容易犯错的地方。

**九、信号可靠吗?校准指标的独立验证**

整套方案成立的前提,是这两个遥测信号本身必须是可靠的。研究团队专门对DINCO和MiniCheck进行了独立的校准评估。

对于DINCO,他们用Qwen3-32B在TriviaQA数据集的300道题上测试,这个数据集的特点与CALVERT使用场景(闭书知识提取)高度吻合。结果显示,期望校准误差(ECE-15)为0.094,低于业界普遍认可的0.10标准线,Brier分数为0.150,AUROC(区分正确和错误答案的能力)为0.844。简单来说,DINCO给出的置信分数与实际答对率之间有很好的对应关系——它说"我有八成把握",实际答对的概率也大约是八成,没有严重的高估或低估。

对于MiniCheck,他们从LLM-AggreFact数据集中抽取300个"文档-声明-标签"三元组进行测试。结果是ECE-15为0.139,Brier分数为0.098,AUROC高达0.948——接近完美的区分能力。具体来说,MiniCheck对于真正有证据支撑的声明,会给出接近1的高分;对于没有证据支撑的声明,会给出接近0的低分,而且这个判断很少出错。

研究团队还做了计算成本的分析,发现在多跳数据集上,加入CALVERT遥测计算的总算力开销大约增加160%到250%,这不是一个可以忽略的数字。不过研究团队指出,由于遥测信号减少了不必要的检索和精炼动作,部分额外算力被节省下来的行动成本所抵消。

**十、对更强大AI的测试:闭源模型同样受益**

为了确认CALVERT的效果不局限于特定规模或类型的AI,研究团队还在OpenAI的GPT-4o和GPT-4.1上进行了测试,使用100个样本(受限于使用费用)。

结果显示,两个模型在加入遥测信号后均有改善。GPT-4o在2WikiMultihopQA上的F1分数从36.2跳升至49.4,提升了13.2个百分点,HotpotQA上也提升了2.0个百分点。GPT-4.1在两个数据集上的F1分别提升了2.0和3.1个百分点,只有HotpotQA的精确匹配率出现了1个百分点的微弱下滑,但F1整体仍然改善。

不过这里有一个重要的技术限制:研究团队只能测试较早期的GPT版本,因为更新的闭源模型已经不再通过API暴露顶层词元的对数概率——而DINCO计算置信分数正是需要这个数据。这个局限性本身也反映了当前开放生态与封闭生态之间的一个实际鸿沟。

**十一、任何优点都有边界:系统的局限**

研究团队在论文末尾坦诚地指出了CALVERT的一个结构性局限。整个系统的动作词汇设计,是围绕"找到一个就提交"的逻辑构建的,适合那些每道题只有一个标准答案的问答场景。但现实中有一类问题需要"找全所有相关答案",比如"哪些国家参加了某次国际会议"或"某位作家写了哪些作品",这类问题的金标准答案是一个完整列表,漏掉任何一项都算不全对。CALVERT的"提交"动作,在找到第一个满足条件的答案时就会停下来,天然不适合这类场景。研究团队明确表示,这是一个有待未来工作扩展的方向,与遥测信号本身无关,而是动作设计的结构性问题。

此外,提示词层面的遥测效果对模型规模有依赖性。研究团队发现,同样的遥测信号,对Qwen3-8B这个较小模型在纯提示词模式下效果不佳——小模型似乎还不具备充分理解和运用这些额外数字读数的能力。然而,一旦通过强化学习训练,小模型也能有效利用遥测信号,这说明训练是弥补这一鸿沟的有效手段。

**归根结底,这项研究说了什么**

说到底,CALVERT做的事情,是给AI问答助手安装了一套让它"知道自己知道多少、知道自己的答案有多靠谱"的测量工具。两个读数——一个衡量内心的确定感,一个衡量外部证据的支撑程度——合在一起,填补了现有AI系统最明显的一个盲区。

这件事的意义,不只是某个基准测试数字的提升。它实际上指向一个更根本的问题:一个AI助手,如果连"我在这道题上能不能相信自己"都无法判断,那它就永远在两个极端之间摇摆——要么过度自信犯错,要么过度谨慎浪费资源。CALVERT提供了一种低成本、可移植的方案,让AI获得了一种初步的"元认知"能力——关于自己认知状态的认知。

对普通用户来说,这项研究的潜在意义在于:未来你使用的AI搜索助手、知识问答工具,可能会因为类似的技术而变得更加可靠——它不会信口开河,也不会没完没了地转圈。当然,从实验室到产品落地还有相当的距离,但方向是清晰的。

如果你想看这项研究的每一个细节,包括完整的提示词设计、GRPO奖励函数的精确数学表达,以及更多分数据集的对比表格,可以通过arXiv:2606.21777找到原论文,那里有研究团队保留的全部技术细节。

Q&A

Q1:CALVERT系统具体用了哪两个遥测信号,各自衡量什么?

A:CALVERT使用两类信号。第一类是DINCO自信心分数,由"言语置信度"和"自洽率"两个子分数平均而来,衡量AI对自己当前答案有多大内部把握。第二类是MiniCheck接地分数,把AI的答案拆分成若干声明,逐条检查这些声明有没有检索到的证据支撑,给出平均分和最低分,反映答案与外部证据之间的契合程度。两个信号分别回答"AI自己觉得对不对"和"证据说它对不对"这两个不同问题。

Q2:CALVERT在强化学习训练中为什么比没有遥测信号的训练效果好那么多?

A:强化学习的本质是让AI通过试错来学习更好的策略。没有遥测信号时,AI每次做决策都是在信息不完整的状态下摸黑判断,学到的策略自然有限。有了遥测信号后,AI每次决策时都能看到"我现在有多确定"和"我的答案有多少根据"这两个客观读数,策略的学习有了更丰富、更准确的状态信息作为依据,因此相同训练条件下能学到更有效的行动规律。Qwen3-8B的实验显示,有无遥测信号的训练版本之间差距达到7个百分点的精确匹配率。

Q3:CALVERT适合用于哪类问答场景,在哪类场景下效果有限?

A:CALVERT在需要多步检索和推理、且每道题只有一个标准答案的问答场景下效果最佳,比如需要跨多篇文章联合推理的多跳问答,以及关于冷门实体的单跳事实性问题。对于需要找出所有相关答案的"列举型"问题(比如"某位作家写过哪些作品"),CALVERT由于动作设计的原因,找到第一个满足条件的答案就会停下,不适合这类需要穷举的场景。此外,在纯提示词模式下,小规模模型(如Qwen3-8B)对遥测信号的利用能力有限,需要配合训练才能有效发挥。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。