当前位置: 首页 » 资讯 » 科技头条 » 正文

阿联酋人工智能大学的研究者发现了一个更聪明的打分方式

IP属地 中国·北京 科技行者 时间:2026-05-26 18:26:31


这项由阿联酋人工智能大学(MBZUAI)联合林雪平大学和澳大利亚国立大学的研究团队共同完成的工作,于2026年5月以预印本形式发布,论文编号为arXiv:2605.19436。感兴趣的读者可以通过这个编号在arXiv平台上查阅完整论文。

一、先讲一个"奖罚不分明"的老故事

一个班里有三十个同学参加数学考试。老师改卷后,只看最终答案对不对,答对的全班同学每人发一颗糖,答错的全班同学每人扣一颗糖。问题来了——有个同学在解题过程中写下了一个关键的公式,正是这一步让整道题迎刃而解;而另一个同学在同一张卷子上写了大量废话,比如"我在思考这道题"、"嗯,让我重新整理一下",这些文字对解题毫无贡献。结果呢?关键公式和废话得到了完全相同的奖励。

这个看似荒诞的故事,恰恰是当今最流行的AI训练方式的真实写照。训练大型语言模型(也就是ChatGPT这类能聊天、能解题的AI)时,研究者会让AI反复做题,做对了就给正分,做错了就给负分。但这个分数是按"整条回答"来发的,回答里的每一个字,无论是关键的推理步骤还是"嗯"、"然后"这样的填充词,都拿到完全一样的分数。这就是所谓的"信用分配问题"——谁真正立了功,谁只是凑了个字数,系统完全分不清楚。

MBZUAI的研究团队提出了一种叫做"对比证据策略优化"(Contrastive Evidence Policy Optimization,简称CEPO)的新方法,核心思想是:要区分一个词语到底是关键推理步骤还是无关填充,不能只看"答对时这个词出现了",还要同时看"答错时这个词是不是反而不出现"。两个条件同时成立,这个词才真的重要。

二、AI是怎么学习解题的——一张通俗的全景图

在深入了解这项研究之前,有必要先弄清楚现代AI是怎么学会解数学题的。

目前最主流的方法叫做"基于可验证奖励的强化学习"(RLVR)。大致流程是这样的:给AI出一道题,AI会生成好几个不同的回答,然后有一个自动判卷程序(也叫"验证器")检查每个回答的最终答案对不对。答对了,这个回答的得分为正;答错了,得分为负。之后,系统计算每组回答里各个回答的相对得分,把得分高的回答里的每一步都强化一遍,把得分低的回答里的每一步都削弱一遍。这个流程被称为GRPO(Group Relative Policy Optimization,组相对策略优化),是目前业界最广泛使用的方法之一。

GRPO的优点是简单高效,不需要额外训练一个专门打分的网络。但它的致命弱点正是前面说的那个故事:每一个字,无论是"因此x等于5"这样的关键结论,还是"我现在来整理一下思路"这样的废话,都获得完全相同的训练信号。在数学推理这种场景下,一道题可能有几百个词,但真正决定对错的可能只有那么几步关键推理。把宝贵的训练信号平均撒在几百个词上,效率极低,而且随着题目越来越复杂、回答越来越长,这个问题会越来越严重。

三、"告诉你答案再让你学"——听起来美好,实则暗藏陷阱

研究者们自然想到了一个直觉上很合理的补救方案:既然我们知道正确答案,为什么不把正确答案提前告诉AI,让AI在知道答案的情况下重新"过一遍"解题过程,找出哪些步骤是关键的?

这类方法被称为"特权信息自蒸馏"(Privileged Self-Distillation)。具体做法是:把正确答案r?作为额外输入,让AI在"已知答案"的状态下预测每个词的概率,再把这个概率分布作为"老师"去指导AI的正常学习。OPSD和SDPO是这类方法的代表,它们让AI去最小化"知道答案时的概率分布"和"不知道答案时的概率分布"之间的差距。

这个思路听起来很美妙,但MBZUAI的合作者此前已经从理论上证明了一件令人警惕的事:不管你实现得多精巧,只要你用"知道正确答案时的全词汇表概率分布"作为训练目标,梯度里就必然会出现一个"毒素"——一个把正确答案直接编码进AI大脑的有害信号。随着训练进行,这个有害信号会越来越强,最终让AI学会的不是"怎么推理",而是"看到这类题就直接想到答案r?是什么"。这就是"信息泄漏"(information leakage)问题,而且理论上无解,不管你怎么改工程实现都无法消除。

实验结果也证实了这一点:OPSD和SDPO训练完之后,准确率居然比完全没训练的基础模型还低,在五个评测基准里有四个都出现了退步。这不是实现上的失误,而是方法本身的结构性缺陷。

四、RLSD:正确方向上的第一步,但还不够锋利

意识到上述问题之后,另一个研究团队此前提出了一种叫做RLSD(Self-Distilled RLVR,自蒸馏强化学习)的方法,成功地绕开了信息泄漏陷阱。

RLSD的核心技巧可以用一个比喻来理解:法庭上的证人说话,可以影响法官的"判决力度",但不能改变法官的"判决方向"。具体来说,RLSD不再用"知道答案时的全部概率分布"作为目标,而是只在当前那个被AI实际生成的词上,悄悄看一眼"知道正确答案时,AI生成这个词的概率是多少",再和"不知道答案时,AI生成这个词的概率是多少"做一个比值。这个比值叫做"证据比"(evidence ratio)。如果这个比值大于1,说明正确答案对这个词有支持,就把GRPO原本给这个词的分数稍微调高一点;如果小于1,就调低一点。但无论怎么调,分数的正负符号不变——原来该加分的还是加分,原来该扣分的还是扣分。

这样一来,正确答案只是作为一个"音量调节旋钮"出现在梯度里,而不是作为一个"指南针"改变学习的方向。信息泄漏被彻底封堵了。

然而,RLSD虽然安全,但信号质量还有三个明显不足。

第一个问题叫"流畅度混淆":这个证据比的分母是AI在没有任何额外提示时生成某个词的概率,也就是这个词的"基础流畅度"。常见的词(比如"的"、"是"、"然后")在任何时候概率都很高,导致证据比被压低,即便正确答案非常支持这个词,它也得不到应有的高权重。词的出现频率干扰了对词的重要性的判断。

第二个问题叫"不对称的负向信号":对于那些最终答错的回答,RLSD的惩罚方式是"正确答案不喜欢这个词,所以加大惩罚",但这并没有直接回答"错误答案是不是特别喜欢这个词"。两件事情不是一回事。

第三个问题也是最关键的,叫"单侧证据":假设某个词,正确答案和错误答案都喜欢(比如"因此"这种万能连接词),那这个词的证据比P?/PS跟某个只有正确答案喜欢、错误答案厌恶的关键推理词,可能完全一样,但后者显然更重要。RLSD无法区分这两种情况。

五、CEPO的核心创意:同时问两个问题

CEPO的解决思路可以用一个"双重考察"的比喻来理解。

评判一个员工是否真正为公司做出了关键贡献,不能只看他在成功项目里有没有出现,还要看他在失败项目里是不是恰恰缺席了。如果一个人在所有成功项目里都在、在所有失败项目里也都在,那他可能只是个"凑人数"的;反之,如果他在成功项目里出现、在失败项目里反而不见,那他才是真正的关键人物。

CEPO把RLSD的证据比从"P?/PS"换成了"P?/P?"。其中P?是"知道错误答案r?时,AI生成这个词的概率"。这个r?从哪里来呢?直接从同一批训练数据里,找那些回答错误的样本,取出它们的最终错误答案就行了,完全不需要额外的计算开销。

这个新的比值叫做"对比证据差值"(Contrastive Evidence Delta),记为ΔCE。它有一个非常清晰的贝叶斯解释:这个差值等于"看到这个词之后,信仰正确答案的程度增加了多少"减去"看到这个词之后,信仰错误答案的程度增加了多少"。如果一个词既能增强对正确答案的信仰、又能削弱对错误答案的信仰,那这个词的ΔCE就会很大,是真正的关键推理步骤;如果一个词对两边都无所谓,那ΔCE就接近零,说明它只是填充词。

之所以RLSD的那三个问题在CEPO里都消失了,原因其实很直接。流畅度混淆消失了,因为分母从PS换成了P?,PS这个基础流畅度因子被彻底消掉,不再干扰判断。不对称负向信号消失了,因为对于错误回答,P?现在直接体现在分子,惩罚方向更明确。单侧证据问题消失了,因为现在同时看两侧:正确答案喜欢、错误答案也喜欢的词,其比值接近1,跟填充词一样,不会被错误放大。

六、理论保证:这个方法安全吗?

研究团队非常严格地证明了CEPO继承了RLSD的所有"安全保证",这里用大白话解释这三条保证的含义。

第一条叫"方向锚定":无论对比证据比是多少,它只能调整训练信号的大小,绝对不会让一个"本该加分"的词变成"被扣分",反之亦然。这就像上面说的那个比喻——证人可以影响量刑轻重,但不能颠倒定罪方向。

第二条叫"无泄漏梯度":CEPO的梯度更新里,正确答案r?和错误答案r?只以"停止梯度"的形式出现,也就是说它们只是两个普通的数字(概率值),完全不参与反向传播。AI学到的是"这种推理风格有效",而不是"看到这类题就想到答案是r?"。信息泄漏从结构上被封堵。

第三条叫"RLSD包含性":当错误答案老师的概率分布P?和基础学生的概率分布PS完全一样时,CEPO精确退化为RLSD。这意味着RLSD只是CEPO在一种极端退化情况下的特例,CEPO是RLSD的严格泛化。

研究团队还给出了一个更精细的命题,说明CEPO何时比RLSD打出更高的信用分:对于一条正确回答,当且仅当错误答案老师对某个词的概率P?低于基础学生概率PS时,CEPO给这个词的权重才严格高于RLSD。换句话说,只有在错误答案"主动排斥"这个词的时候,CEPO才会额外放大它的信用——而这恰恰是真正关键推理步骤的标志。对于那些两侧都无感的填充词,CEPO和RLSD给出几乎相同的权重,也就是说CEPO不会在没有信号的地方引入噪音。

七、具体是怎么运作的——算法全流程

整个CEPO的运作流程并不复杂,可以分几步来理解。

给AI一道题,让它生成若干个回答(比如8个)。对于每个回答,用验证器判断对错,把回答分成"正确组"和"错误组"。从正确组里取正确答案r?,从错误组里取得分最低的那个错误回答的最终答案作为r?。

接下来,用同一个AI模型分别扮演两个"老师"的角色:一个"知道正确答案r?"的老师,一个"知道错误答案r?"的老师。对于回答里的每一个词,分别从这两个老师那里获取"你有多大概率生成这个词"的数字,两者相减(在对数空间里),得到ΔCE。

然后,用ΔCE调整GRPO原本给这个词的分数:如果这个回答是对的,ΔCE为正就把分数适当调高;如果这个回答是错的,ΔCE为正意味着错误答案更喜欢这个词,就适当加大惩罚。为了防止权重失控,整个调整幅度有一个截断范围(比如±0.5),避免某个词的权重被调得过高或过低而破坏训练稳定性。

整个调整过程有一个渐进开关λ,训练开始时λ=0.5,随着训练进行逐渐衰减到0,意味着对比证据的影响在训练后期会慢慢淡出。这是因为模型在早期训练阶段从对比信号里获益最大,而后期模型已经相对稳定,继续施加过强的对比信号反而会引入噪音。

八、实验结果:数字说话

实验在两个规模的视觉语言模型上进行,分别是Qwen3-VL-2B-Instruct(20亿参数)和Qwen3-VL-4B-Instruct(40亿参数)。训练数据是Geo3k,一个包含3000道几何题的数据集。评测在五个完全独立的多模态数学推理基准上进行:DynaMath、LogicVista、MathVision-mini、MMMU和WeMath。

在20亿参数模型上,CEPO平均准确率达到43.43%,而GRPO为41.17%,提升了2.26个百分点。OPSD和SDPO则分别跌到34.96%和35.70%,不仅没有超过GRPO,甚至比完全没训练的基础模型(39.73%)还要低,印证了信息泄漏理论的预测。RLSD达到40.05%,比GRPO略低,这部分是由于RLSD使用了与GRPO不同的学习率,在相同设置下有一定波动。

在40亿参数模型上,CEPO达到60.56%,GRPO为57.43%,提升了3.13个百分点。OPSD跌到56.23%,低于基础模型的58.36%,同样的泄漏模式在更大模型上也完全重现。

提升幅度在不同基准上有明显差异。LogicVista在4B模型上提升了整整6.18个百分点,MathVision-mini在2B模型上提升了4.94个百分点——这两个基准都需要细粒度的多步推理,正是CEPO的对比信号最能发挥作用的场景。而MMMU这个以多项选择为主、推理链条较短的基准,提升幅度只有1.67个百分点,与预期完全吻合:当推理步骤本来就很短时,信用分配的精准度对最终结果影响有限。

从训练曲线来看,CEPO在训练早期(前10到25步)就表现出明显的加速优势,在第40步左右达到最大领先幅度,之后随着λ衰减到0,与GRPO的差距略有收窄。这与设计预期完全一致。

在计算开销方面,CEPO需要额外进行一次前向传播(通过错误答案老师),使得总训练时间从GRPO的5小时58分钟增加到6小时34分钟,额外开销约36分钟,与RLSD的额外开销相当。考虑到准确率的提升,这个代价是划算的。

九、消融实验:每个设计决策的价值

研究团队非常细致地做了一系列消融实验,验证每一个设计选择的必要性。

关于老师的来源,研究团队比较了三种方案:使用一个训练开始时固定下来的参考模型(参考策略)、每25步同步一次的周期性更新老师、以及让老师和学生始终共享同一套参数(演员策略)。结果是演员策略最优,准确率43.43%,而固定参考策略只达到42.18%。这说明老师越"新鲜"、越贴近当前学生的状态,对比信号的质量越高。有趣的是,演员策略老师和学生共享参数,不需要额外存储一个独立的参数副本,反而更省内存。

关于正向参考r?和负向参考r?的构建方式,研究团队测试了五种组合。纯粹用"正确同伴回答的前缀"或"后缀"作为参考,效果反而比GRPO还差,因为截断的推理片段提供了噪声信号。用完整的同伴正确回答作为双侧参考,比GRPO好0.82个百分点。用经过验证的正确答案文本作为r?、用错误回答的完整内容作为r?,好1.57个百分点。而最终最优的方案——用正确答案文本作为r?、只用错误回答的最终答案(而非整个回答)作为r?——达到了最高的2.26个百分点提升。这说明r?只需要提供足够的"错误方向信息",过多的文本反而引入干扰。

关于截断参数εw,实验显示在0.4到0.5之间效果最好,超过0.8之后由于权重过于极端而导致训练不稳定,低于0.1则效果几乎等同于GRPO(因为截断太死,对比信号完全被压制)。

关于λ的调度方式,固定λ=0.5和25步线性衰减两种方案都比GRPO好,而固定λ=1.0效果反而更差——持续施加最大对比压力反而带来噪音。10步快速衰减和25步衰减效果相当,说明对比信号的主要收益集中在训练最早的10到25步,之后对比信号更多地带来噪音而非信号。

十、可视化分析:看见那些被找到的关键步骤

研究团队不只停留在数字层面,还对训练过程中的信号进行了详细分析。

通过追踪每一步训练中"正向ΔCE"(正确答案老师更偏好的词)和"负向ΔCE"(错误答案老师更偏好的词)的比例,可以看到:在训练早期,正向ΔCE的比例逐渐上升,意味着AI越来越多地生成那些与正确答案逻辑一致的词;与此同时,负向ΔCE的比例在下降,意味着AI越来越少地生成那些与错误答案逻辑相符的词。这个趋势和预期完全一致——训练正在把AI推向"越来越像答对的样子"。

在一道平行四边形几何题的具体案例中,研究团队用颜色直观展示了RLSD和CEPO的信用分配差异。RLSD给了大量文字铺垫段落较高的权重,比如"让我重新整理一下思路"这类叙述性句子;而CEPO把高权重集中在了几个关键的代数推导步骤上,特别是建立方程"x+4=3x-6"、求解x的具体步骤以及最终答案。与此同时,CEPO对那些关键词的截断率(49.5%)明显低于RLSD(71.3%),意味着CEPO在更大的动态范围内工作,区分度更高。

这个可视化结果用直觉语言印证了Proposition 1的数学推导:当P?主动压低某个词的概率时,CEPO的对比比值就会升高,而这恰恰发生在那些推进正确答案方向的关键步骤上,而不是发生在填充词上。

说到底,CEPO做的事情可以用一句话概括:问那个更难回答的问题。不是"答对的时候有没有用这个词",而是"答对的时候用了、答错的时候偏偏没用"。这个更苛刻的筛选标准,帮助AI更精准地找到了那些真正决定成败的推理步骤,把训练信号从无差别的"大水漫灌"变成了精准的"滴灌"。

这项研究真正有意思的地方在于,它的创新不是增加了什么,而是换了个比较的基准。原本拿自己的基础分做分母,现在拿一个"考错了的影子自己"做分母,仅仅这一个替换,就在不增加任何额外采样、不引入任何外部模型的前提下,带来了实质性的性能提升。

对于普通人来说,这项研究意味着未来AI助手在处理复杂推理问题(比如数学题、逻辑题、多步骤规划)时,会更加"想清楚再说",而不是把一大堆凑字数的废话和真正有用的推理步骤一视同仁。随着大模型被用在越来越长的推理任务上,这种精准信用分配的优势只会越来越明显。

研究目前在几何题这一特定领域和视觉语言模型上进行了验证,研究团队也坦诚地指出,将CEPO推广到纯文字推理、代码生成,以及更大规模的模型上,是下一步自然的探索方向。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.19436查阅完整论文,代码也已经在GitHub上公开。

Q&A

Q1:CEPO和GRPO训练AI的本质区别是什么?

A:GRPO对回答里所有词一视同仁,答对了每个词都得正分,答错了每个词都得负分。CEPO额外引入了一个"如果知道错误答案、该词会怎样"的对照信号,让那些"答对时出现、答错时反而不出现"的关键推理词得到更高的信用分,而无关填充词保持原样,从而让训练更有针对性。

Q2:OPSD和SDPO为什么训练后反而比没训练的AI更差?

A:这两种方法在训练中把"知道正确答案时的全词汇表概率分布"作为学习目标,导致梯度里包含一个把正确答案直接编码进模型的有害信号,称为"信息泄漏"。随着训练进行,这个有害信号越来越强,模型开始靠记住"这类题的答案就是r?"来作弊,在新题上反而更差。这是方法的结构性问题,不是实现失误。

Q3:CEPO的负向参考答案r?从哪里来,需要额外生成吗?

A:不需要。r?直接来自同一批训练中AI自己生成的那些错误回答,取得分最低的那个错误回答的最终答案即可。整个过程完全在已有的训练数据里完成,没有任何额外的采样成本,这是CEPO在工程上非常实用的一个特点。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。