这项由新加坡国立大学与北京工业大学联合开展的研究,以预印本形式于2026年6月3日发布,论文编号为arXiv:2606.05122。有兴趣深入阅读的读者可通过该编号查询完整论文。
![]()
你有没有遇到过这样的情况:交出一份作业之后,心里其实隐隐知道哪里没答好,但嘴上却跟老师说"我觉得自己写得还不错"?这种"明知故犯"的自我感知,人类有,AI也有。只不过AI的情况更复杂——研究者们一直好奇,AI语言模型到底能不能准确预测别人会怎么评价自己的回答?
这个问题听起来像是在讨论AI的"自知之明",但它背后藏着非常实际的价值。现如今,AI系统在被另一个AI系统打分已经成为标准做法——就像让一个考官给另一个学生批卷。如果被打分的AI能提前猜到考官会给几分,那它就可以在给出答案前,先在脑子里过滤一遍:这个答案考官会不会喜欢?要不要换一个说法?甚至,如果预感这道题自己回答得不好,可以主动说"这道题我不太确定,建议你问问更专业的人",而不用真的去麻烦那个考官。这种能力,既节省了资源,又提高了可靠性。
然而,以往研究者训练AI进行自我评估,大多只在有标准答案的题目上尝试过,比如数学题、编程题,对错一目了然。但现实世界里大量的问题根本没有标准答案——"请帮我写一封感谢信"、"解释一下气候变化的原因"——这类开放性问题怎么办?这正是这篇研究想要解决的空白地带。
研究团队的核心发现颠覆了此前的假设:AI模型在被专门训练之前,其实已经具备相当程度的自我评估能力,只是这种能力还沉睡在模型内部,等着被"唤醒"。基于这个发现,研究团队开发了一套名为SEE(Self-Evaluation Elicitation,自我评估唤醒)的方法,用极少量的数据和训练就能把这种沉睡的能力激活,效果还超过了需要大量数据的传统训练方式。
一、AI早就会给自己打分,只是没人问过它
要理解这篇研究的出发点,先得搞清楚"打分"是怎么一回事。研究团队用的是一套叫做HelpSteer2的评分体系,这套体系从五个维度来评价一段AI回答的质量:有多有帮助(helpfulness)、有多准确(correctness)、表达是否清晰连贯(coherence)、回答需要多深的知识(complexity)、以及回答的详略程度是否合适(verbosity)。每个维度打0到9分,这五个数字合在一起,就构成了对一段回答的全面画像。
研究团队拿来实验的基础模型叫做Qwen3-4B-Base,这是一个4亿参数的大型语言模型,平时的工作是回答各种问题。研究人员做了一个实验:在没有对模型进行任何针对性训练的前提下,只给它看几个示范例子(这种方法叫做"少样本提示"),然后让它在回答完问题之后,自己预测一下外部评判者会给出什么分数。
结果相当出人意料。这个从未被要求过"预测打分"的模型,在三个不同的评测数据集上,预测准确度的校准得分在0.50到0.70之间——远超随机猜测的水平。更直观的一个数字是:在HelpSteer2验证集上,外部评判者给出的分数,有77.07%的概率落在模型最可能预测的前五个分数选项之内。
用一个更生活化的比喻来说:一个从来没有参加过厨艺比赛的厨师,光凭自己多年的烹饪经验,就能在端出菜肴之前,大致猜到评委会给他打几分——而且猜的准确率相当高。这说明他心里早就有一套对"好菜"的感知标准,只是从来没有被正式测试过。AI模型的情况与此类似:经过海量文本预训练之后,模型内部已经形成了对"什么是好回答"的某种隐性认知,只是这种认知还没有被系统地激活和利用。
这个发现在学术上有一个更宏观的意义。它印证了近年来许多研究者的观察:对AI模型进行后期训练,往往不是在"安装新能力",而是在"唤醒已有能力"。就像一个睡眠中的人,你不需要给他移植新的大脑,只需要用对方式把他叫醒。
二、校准的烦恼:能猜但猜得不够准
虽然基础模型已经展现出令人鼓舞的自我评估潜力,但它的预测并不完美。研究团队发现,未经训练的模型有一个典型毛病:过度自信。它倾向于把所有回答都打成中等偏高的分数,对于真正很烂的回答,它不太会给出接近0的低分;对于真正出色的回答,它也不太会给出接近9的高分。这种现象在专业术语里叫做"校准偏差",通俗地说就是:你的打分系统没有充分利用整个分数范围,总是挤在中间地带。
这就像一个老好人老师,批改作业时不管写得多好多差,都给60到80分,从不给100也不给30。这样的打分虽然不算错,但信息量很少——你根本无法从成绩单上区分谁是真正的优等生,谁是真正需要补课的学生。
正因如此,研究团队需要设计一种方法,不仅仅是"唤醒"这种自我评估能力,还要让它变得更精准、更可靠。特别是在分数的两端——非常低的分数和非常高的分数——都要能准确预测,而不是一味地往中间靠拢。
三、SEE方法:用一个两步小循环解锁沉睡的能力
研究团队设计的SEE方法,可以用"反复练习加针对性纠错"这个框架来理解。整个过程像一个精心设计的学习循环,由两个交替进行的环节组成。
第一个环节叫做"校准耦合强化学习"。在这个环节里,模型接到一个问题,生成一段回答,然后在回答末尾附上自己预测的五个维度分数,格式非常规范,用一对特殊标签[SELF_EVAL]和[/SELF_EVAL]包裹起来。接着,外部评判者(本研究中使用的是GPT-5.4这个强大的语言模型)也对同一段回答打出五个维度的分数。系统随即计算一个综合奖励:一部分奖励来自回答本身的质量(看帮助性、准确性和清晰度这三个维度的得分),另一部分奖励来自模型预测的分数和评判者实际给出的分数有多接近。如果两组分数差距很小,奖励就高;差距大,奖励就低。
这里有一个关键的设计细节。研究团队专门让奖励函数对大误差惩罚得更厉害——用数学语言说,他们把误差项取了一个大于1的幂次。具体是用"(1 - 误差/9)?"这样的形式。这意味着,预测差了1分和差了4分,受到的惩罚不是简单的四倍,而是差距被放大了很多。这样设计的目的,是防止模型学到一个"取巧"的策略——只要总是预测中间分数,就能收获不错的奖励,但实际上什么都没学到。加上这个非线性惩罚,模型必须认真学习如何准确预测整个分数范围,包括极低分和极高分。
如果模型输出的自我评估格式不对,比如没有按规定写出五个整数分数,那就直接扣到最低分-1,不管回答本身写得多好。这个规则非常严格,但目的很明确:强制模型养成正确的格式习惯,因为只有格式正确的预测才有意义。
每完成一次符合格式要求的回答,这条记录就会被存入一个缓冲区,等待下一个环节使用。
第二个环节叫做"掩码评判蒸馏"。"蒸馏"这个词来自机器学习,大意是"把一个强大模型的知识提炼转移到另一个模型里"。在这里,研究团队从缓冲区里挑选出之前存下的那些回答记录,然后做一件精妙的事情:把模型自己预测的五个分数,替换成外部评判者实际给出的五个分数,然后让模型在这个"填入了正确答案"的样本上进行学习。但是,学习时只允许模型更新自我评估那几个分数词的参数——回答正文的参数完全锁住,不允许改动。
这就是"掩码"两个字的含义:用一张遮罩盖住回答正文,只让训练信号流向自我评估部分。这样一来,模型在这个环节学到的,完全是"怎么更准确地预测评判者的分数",不会影响到它生成回答的能力。
这两个环节交替进行,形成一个完整的循环。强化学习让模型的回答越来越好,同时粗略引导自我评估朝正确方向走;蒸馏环节则精细地校正自我评估,让预测更准确地对齐评判者。随着循环一轮一轮地推进,两种能力并行提升,互不干扰。
四、数据用量少得惊人,效果却出人意料地好
SEE方法最令人注目的地方,在于它需要的训练数据量极少。整个训练过程只用了160个独特的问题样本,经过15轮循环,总共产生了2400次样本通过次数。而对比基线方法——研究团队称之为"适配版RLCR"——则需要约5000个独特样本,共约10000次样本通过次数。
换算一下:SEE用的独特数据量,大约是基线方法的1/31。但在三个不同评测基准上,SEE的校准得分都超过了基线方法。
在HelpSteer2验证集上,基础模型的校准得分是0.632,基线方法提升到0.675,而SEE达到了0.731。在LC AlpacaEval 2.0上,校准得分从基础模型的0.702,经过基线方法的0.716,被SEE推高到了0.746。在Arena-Hard-Auto v2.0和WildBench v2这两个更有挑战性的开放性评测上,SEE的提升幅度更为显著,校准得分从基础模型的0.5出头,提升到了超过0.6。
还有一个更直观的数字:如果看"SEE需要多少训练量才能达到基线方法的最终水平",答案是大约800次样本通过,大约是基线方法达到同等水平所需样本量的1/12。
质量方面同样没有退步。在三个开放性评测基准上,SEE生成的回答与基础模型相比,在评判者的直接偏好对比中,SEE赢得的比例分别为59.2%、51.8%和58.1%,都高于基线方法。这证明了两步循环的设计是有效的:强化学习环节提升了回答质量,蒸馏环节精调了自我评估精度,两者并行推进,互不拖累。
五、把评判者学进去,还是把质量感知激活出来
这项研究里有一个容易被误解的地方:SEE学到的,真的是"如何预测评判者的偏好",还是"如何感知回答的真实质量"?这两件事听起来差不多,但有本质区别。如果只是死记硬背某个特定评判者的习惯,那换一个评判者,预测就会失灵。
研究团队专门设计了一个实验来检验这一点。他们用GPT-5.4训练了SEE模型,然后拿两个完全不同的评判者——Claude Sonnet 4.6和Gemini 3.1 Flash-Lite——来重新给SEE模型的回答打分,并计算校准得分。结果显示,排名完全保持:在所有四个评测基准、两个评判者上,SEE的表现都优于基线方法,基线方法又优于基础模型。
绝对分数随评判者不同而变化——Claude Sonnet 4.6给出的分数普遍偏低,Gemini 3.1 Flash-Lite给出的分数普遍偏高——但SEE相对于其他方法的优势,在两个评判者那里都保持住了。这说明SEE学到的不是"取悦某一个评判者的技巧",而是某种更普遍的、跨越不同评判标准依然有效的质量感知。
另一个支持这一解读的证据来自"前5名词元准确率"这个指标。研究团队把模型在每个分数位置上最可能预测的前5个数字记下来,看看评判者实际给出的分数是否落在这5个数字里。SEE在HelpSteer2验证集上的前5名准确率达到了87.8%,在LC AlpacaEval 2.0上更高达90.8%。换言之,评判者几乎每次给出的分数,都在模型"心里有数"的范围之内,而不是一个让模型完全意外的陌生答案。
研究团队还发现,SEE在每一个具体评分维度上都有提升,而不是只在某几个维度表现好、其他维度被牺牲掉。雷达图显示,五个维度的校准分数都有均匀的提升,这和研究团队设计的均衡覆盖采样策略直接相关——他们在蒸馏环节选取训练样本时,刻意让高分、低分、中等分数都有足够的代表,而不是让训练数据被大量中等分数样本主导。
六、两个真实案例:SEE如何纠正"明知故犯"的错误
研究论文里提供了两个具体案例,非常清楚地展示了SEE改善自我评估的实际效果。
第一个案例,有人问AI:"AK-47是哪种类型的步枪?"基础模型给出的回答称AK-47是"无托步枪"(bullpup rifle),这是一个错误——无托步枪的弹匣和枪机在扳机后面,而AK-47是传统布局的突击步枪,与无托设计完全不同。更糟糕的是,基础模型给自己的这个错误回答打了帮助性8分、准确性8分。而外部评判者给出的分数是帮助性2分、准确性1分。模型不仅答错了,还对自己的错误毫无察觉,自我评估与实际质量天差地别。
SEE处理同一个问题时,给出了正确的回答:AK-47是气动式、弹匣供弹的突击步枪,使用7.62×39mm弹药,以可靠性著称。与此同时,SEE的自我评估是帮助性8分、准确性8分,外部评判者给出的是帮助性8分、准确性9分,两者高度吻合。SEE不仅答对了,还准确地知道自己答对了。
第二个案例更微妙,也更能体现SEE的价值。有人问:"我打开Anki软件的浏览器功能时,程序会崩溃,怎么修复?"基础模型给出了一套通用的故障排查步骤,其中包括"清除浏览器缓存和Cookie"——这个建议完全不合适,因为Anki是一个桌面应用程序,不是网页浏览器,清除浏览器缓存对它根本没有作用。基础模型给自己的这个马马虎虎的回答打了帮助性8分、准确性8分,而评判者只给了2分和2分。
SEE的回答也不完美——它提供了一套更合理的故障排查步骤,但也没有特别精准地针对Anki的特殊性质。评判者给SEE的回答打了帮助性5分、准确性4分,算是中等水准。而SEE自己的预测是帮助性5分、准确性5分,与评判者的判断非常接近。这个案例的关键不在于SEE答得多好,而在于它知道自己答得不那么好——它没有给一个马马虎虎的回答虚报高分,而是如实地反映了回答的真实质量水平。
归根结底,这项研究传递的核心信息是:AI模型的自我评估能力不需要从零开始教,预训练过程已经把这种能力的种子埋在了模型里,只需要一套合理的方法把它激活。SEE这套两步循环,用少得惊人的数据量完成了这个激活过程,而且激活出来的能力不依赖于特定的评判者,具有跨评判者的稳定性。这意味着,AI模型在未来可以更可靠地对自己的输出进行自我把关,而不必事事都依赖外部评判——就像一个真正有自知之明的人,不需要每次说话都等别人来告诉他说得好不好。
当然,这项研究也有坦诚承认的局限性。所有实验只在一个基础模型上进行,训练规模相对较小,校准目标本质上仍然是AI评判者的打分而非人类的真实偏好,这意味着这套方法可能继承了AI评判者本身的偏见。此外,研究没有报告多次随机实验的误差范围,也没有探索更大规模模型或更多数据量时的表现。这些都是未来研究的自然延伸方向。
这项研究的启示或许还可以更宽泛地延伸:当我们试图让AI模型具备某种新能力时,与其从头开始大规模训练,不如先认真探索这种能力是否已经以某种潜伏形式存在于模型中——如果存在,用小而精的方法把它唤醒,往往比大规模重塑更高效、更可靠。
Q&A
Q1:SEE方法为什么只需要很少的训练数据就能有效?
A:SEE方法数据效率高的根本原因在于,AI基础模型在大规模预训练之后已经内化了对回答质量的某种隐性判断能力。SEE不是在给模型安装全新的能力,而是用两步循环(强化学习加掩码蒸馏)把这种已有能力激活出来。正因为能力本来就在,所以只需要160个样本就能完成激活,远少于从头训练所需的数量。
Q2:SEE训练出的自我评估能力换一个评判者还管用吗?
A:研究团队用GPT-5.4训练SEE,然后分别用Claude Sonnet 4.6和Gemini 3.1 Flash-Lite重新评分,发现SEE的校准排名在所有基准和评判者上都保持领先。虽然不同评判者给出的绝对分数有高有低,但SEE相对于基础模型和基线方法的优势始终存在,说明它学到的是跨评判者通用的质量感知,而不是某个特定评判者的偏好习惯。
Q3:掩码评判蒸馏阶段为什么只训练自我评估部分的参数,不训练回答正文部分?
A:这是SEE设计的核心巧思。如果同时更新回答正文的参数,模型的回答风格会被评判者的打分偏好所扭曲,破坏强化学习阶段已经优化好的回答质量。把损失信号严格限制在自我评估的分数词元上,就像只修改成绩单上的分数预测栏,而不改动答题纸的内容,从而让两种能力的提升互不干扰,并行推进。





京公网安备 11011402013531号