阿联酋人工智能大学的研究者发现了一个更聪明的打分方式

IP属地中国·北京 科技行者 时间：2026-05-26 18:26:31

这项由阿联酋人工智能大学（MBZUAI）联合林雪平大学和澳大利亚国立大学的研究团队共同完成的工作，于2026年5月以预印本形式发布，论文编号为arXiv:2605.19436。感兴趣的读者可以通过这个编号在arXiv平台上查阅完整论文。
一、先讲一个"奖罚不分明"的老故事
一个班里有三十个同学参加数学考试。老师改卷后，只看最终答案对不对，答对的全班同学每人发一颗糖，答错的全班同学每人扣一颗糖。问题来了——有个同学在解题过程中写下了一个关键的公式，正是这一步让整道题迎刃而解；而另一个同学在同一张卷子上写了大量废话，比如"我在思考这道题"、"嗯，让我重新整理一下"，这些文字对解题毫无贡献。结果呢？关键公式和废话得到了完全相同的奖励。
这个看似荒诞的故事，恰恰是当今最流行的AI训练方式的真实写照。训练大型语言模型（也就是ChatGPT这类能聊天、能解题的AI）时，研究者会让AI反复做题，做对了就给正分，做错了就给负分。但这个分数是按"整条回答"来发的，回答里的每一个字，无论是关键的推理步骤还是"嗯"、"然后"这样的填充词，都拿到完全一样的分数。这就是所谓的"信用分配问题"——谁真正立了功，谁只是凑了个字数，系统完全分不清楚。
MBZUAI的研究团队提出了一种叫做"对比证据策略优化"（Contrastive Evidence Policy Optimization，简称CEPO）的新方法，核心思想是：要区分一个词语到底是关键推理步骤还是无关填充，不能只看"答对时这个词出现了"，还要同时看"答错时这个词是不是反而不出现"。两个条件同时成立，这个词才真的重要。
二、AI是怎么学习解题的——一张通俗的全景图
在深入了解这项研究之前，有必要先弄清楚现代AI是怎么学会解数学题的。
目前最主流的方法叫做"基于可验证奖励的强化学习"（RLVR）。大致流程是这样的：给AI出一道题，AI会生成好几个不同的回答，然后有一个自动判卷程序（也叫"验证器"）检查每个回答的最终答案对不对。答对了，这个回答的得分为正；答错了，得分为负。之后，系统计算每组回答里各个回答的相对得分，把得分高的回答里的每一步都强化一遍，把得分低的回答里的每一步都削弱一遍。这个流程被称为GRPO（Group Relative Policy Optimization，组相对策略优化），是目前业界最广泛使用的方法之一。
GRPO的优点是简单高效，不需要额外训练一个专门打分的网络。但它的致命弱点正是前面说的那个故事：每一个字，无论是"因此x等于5"这样的关键结论，还是"我现在来整理一下思路"这样的废话，都获得完全相同的训练信号。在数学推理这种场景下，一道题可能有几百个词，但真正决定对错的可能只有那么几步关键推理。把宝贵的训练信号平均撒在几百个词上，效率极低，而且随着题目越来越复杂、回答越来越长，这个问题会越来越严重。
三、"告诉你答案再让你学"——听起来美好，实则暗藏陷阱
研究者们自然想到了一个直觉上很合理的补救方案：既然我们知道正确答案，为什么不把正确答案提前告诉AI，让AI在知道答案的情况下重新"过一遍"解题过程，找出哪些步骤是关键的？
这类方法被称为"特权信息自蒸馏"（Privileged Self-Distillation）。具体做法是：把正确答案r?作为额外输入，让AI在"已知答案"的状态下预测每个词的概率，再把这个概率分布作为"老师"去指导AI的正常学习。OPSD和SDPO是这类方法的代表，它们让AI去最小化"知道答案时的概率分布"和"不知道答案时的概率分布"之间的差距。
这个思路听起来很美妙，但MBZUAI的合作者此前已经从理论上证明了一件令人警惕的事：不管你实现得多精巧，只要你用"知道正确答案时的全词汇表概率分布"作为训练目标，梯度里就必然会出现一个"毒素"——一个把正确答案直接编码进AI大脑的有害信号。随着训练进行，这个有害信号会越来越强，最终让AI学会的不是"怎么推理"，而是"看到这类题就直接想到答案r?是什么"。这就是"信息泄漏"（information leakage）问题，而且理论上无解，不管你怎么改工程实现都无法消除。
实验结果也证实了这一点：OPSD和SDPO训练完之后，准确率居然比完全没训练的基础模型还低，在五个评测基准里有四个都出现了退步。这不是实现上的失误，而是方法本身的结构性缺陷。
四、RLSD：正确方向上的第一步，但还不够锋利
意识到上述问题之后，另一个研究团队此前提出了一种叫做RLSD（Self-Distilled RLVR，自蒸馏强化学习）的方法，成功地绕开了信息泄漏陷阱。
RLSD的核心技巧可以用一个比喻来理解：法庭上的证人说话，可以影响法官的"判决力度"，但不能改变法官的"判决方向"。具体来说，RLSD不再用"知道答案时的全部概率分布"作为目标，而是只在当前那个被AI实际生成的词上，悄悄看一眼"知道正确答案时，AI生成这个词的概率是多少"，再和"不知道答案时，AI生成这个词的概率是多少"做一个比值。这个比值叫做"证据比"（evidence ratio）。如果这个比值大于1，说明正确答案对这个词有支持，就把GRPO原本给这个词的分数稍微调高一点；如果小于1，就调低一点。但无论怎么调，分数的正负符号不变——原来该加分的还是加分，原来该扣分的还是扣分。
这样一来，正确答案只是作为一个"音量调节旋钮"出现在梯度里，而不是作为一个"指南针"改变学习的方向。信息泄漏被彻底封堵了。
然而，RLSD虽然安全，但信号质量还有三个明显不足。
第一个问题叫"流畅度混淆"：这个证据比的分母是AI在没有任何额外提示时生成某个词的概率，也就是这个词的"基础流畅度"。常见的词（比如"的"、"是"、"然后"）在任何时候概率都很高，导致证据比被压低，即便正确答案非常支持这个词，它也得不到应有的高权重。词的出现频率干扰了对词的重要性的判断。
第二个问题叫"不对称的负向信号"：对于那些最终答错的回答，RLSD的惩罚方式是"正确答案不喜欢这个词，所以加大惩罚"，但这并没有直接回答"错误答案是不是特别喜欢这个词"。两件事情不是一回事。
第三个问题也是最关键的，叫"单侧证据"：假设某个词，正确答案和错误答案都喜欢（比如"因此"这种万能连接词），那这个词的证据比P?/PS跟某个只有正确答案喜欢、错误答案厌恶的关键推理词，可能完全一样，但后者显然更重要。RLSD无法区分这两种情况。
五、CEPO的核心创意：同时问两个问题
CEPO的解决思路可以用一个"双重考察"的比喻来理解。
评判一个员工是否真正为公司做出了关键贡献，不能只看他在成功项目里有没有出现，还要看他在失败项目里是不是恰恰缺席了。如果一个人在所有成功项目里都在、在所有失败项目里也都在，那他可能只是个"凑人数"的；反之，如果他在成功项目里出现、在失败项目里反而不见，那他才是真正的关键人物。
CEPO把RLSD的证据比从"P?/PS"换成了"P?/P?"。其中P?是"知道错误答案r?时，AI生成这个词的概率"。这个r?从哪里来呢？直接从同一批训练数据里，找那些回答错误的样本，取出它们的最终错误答案就行了，完全不需要额外的计算开销。
这个新的比值叫做"对比证据差值"（Contrastive Evidence Delta），记为ΔCE。它有一个非常清晰的贝叶斯解释：这个差值等于"看到这个词之后，信仰正确答案的程度增加了多少"减去"看到这个词之后，信仰错误答案的程度增加了多少"。如果一个词既能增强对正确答案的信仰、又能削弱对错误答案的信仰，那这个词的ΔCE就会很大，是真正的关键推理步骤；如果一个词对两边都无所谓，那ΔCE就接近零，说明它只是填充词。
之所以RLSD的那三个问题在CEPO里都消失了，原因其实很直接。流畅度混淆消失了，因为分母从PS换成了P?，PS这个基础流畅度因子被彻底消掉，不再干扰判断。不对称负向信号消失了，因为对于错误回答，P?现在直接体现在分子，惩罚方向更明确。单侧证据问题消失了，因为现在同时看两侧：正确答案喜欢、错误答案也喜欢的词，其比值接近1，跟填充词一样，不会被错误放大。
六、理论保证：这个方法安全吗？
研究团队非常严格地证明了CEPO继承了RLSD的所有"安全保证"，这里用大白话解释这三条保证的含义。
第一条叫"方向锚定"：无论对比证据比是多少，它只能调整训练信号的大小，绝对不会让一个"本该加分"的词变成"被扣分"，反之亦然。这就像上面说的那个比喻——证人可以影响量刑轻重，但不能颠倒定罪方向。
第二条叫"无泄漏梯度"：CEPO的梯度更新里，正确答案r?和错误答案r?只以"停止梯度"的形式出现，也就是说它们只是两个普通的数字（概率值），完全不参与反向传播。AI学到的是"这种推理风格有效"，而不是"看到这类题就想到答案是r?"。信息泄漏从结构上被封堵。
第三条叫"RLSD包含性"：当错误答案老师的概率分布P?和基础学生的概率分布PS完全一样时，CEPO精确退化为RLSD。这意味着RLSD只是CEPO在一种极端退化情况下的特例，CEPO是RLSD的严格泛化。
研究团队还给出了一个更精细的命题，说明CEPO何时比RLSD打出更高的信用分：对于一条正确回答，当且仅当错误答案老师对某个词的概率P?低于基础学生概率PS时，CEPO给这个词的权重才严格高于RLSD。换句话说，只有在错误答案"主动排斥"这个词的时候，CEPO才会额外放大它的信用——而这恰恰是真正关键推理步骤的标志。对于那些两侧都无感的填充词，CEPO和RLSD给出几乎相同的权重，也就是说CEPO不会在没有信号的地方引入噪音。
七、具体是怎么运作的——算法全流程
整个CEPO的运作流程并不复杂，可以分几步来理解。
给AI一道题，让它生成若干个回答（比如8个）。对于每个回答，用验证器判断对错，把回答分成"正确组"和"错误组"。从正确组里取正确答案r?，从错误组里取得分最低的那个错误回答的最终答案作为r?。
接下来，用同一个AI模型分别扮演两个"老师"的角色：一个"知道正确答案r?"的老师，一个"知道错误答案r?"的老师。对于回答里的每一个词，分别从这两个老师那里获取"你有多大概率生成这个词"的数字，两者相减（在对数空间里），得到ΔCE。
然后，用ΔCE调整GRPO原本给这个词的分数：如果这个回答是对的，ΔCE为正就把分数适当调高；如果这个回答是错的，ΔCE为正意味着错误答案更喜欢这个词，就适当加大惩罚。为了防止权重失控，整个调整幅度有一个截断范围（比如±0.5），避免某个词的权重被调得过高或过低而破坏训练稳定性。
整个调整过程有一个渐进开关λ，训练开始时λ=0.5，随着训练进行逐渐衰减到0，意味着对比证据的影响在训练后期会慢慢淡出。这是因为模型在早期训练阶段从对比信号里获益最大，而后期模型已经相对稳定，继续施加过强的对比信号反而会引入噪音。
八、实验结果：数字说话
实验在两个规模的视觉语言模型上进行，分别是Qwen3-VL-2B-Instruct（20亿参数）和Qwen3-VL-4B-Instruct（40亿参数）。训练数据是Geo3k，一个包含3000道几何题的数据集。评测在五个完全独立的多模态数学推理基准上进行：DynaMath、LogicVista、MathVision-mini、MMMU和WeMath。
在20亿参数模型上，CEPO平均准确率达到43.43%，而GRPO为41.17%，提升了2.26个百分点。OPSD和SDPO则分别跌到34.96%和35.70%，不仅没有超过GRPO，甚至比完全没训练的基础模型（39.73%）还要低，印证了信息泄漏理论的预测。RLSD达到40.05%，比GRPO略低，这部分是由于RLSD使用了与GRPO不同的学习率，在相同设置下有一定波动。
在40亿参数模型上，CEPO达到60.56%，GRPO为57.43%，提升了3.13个百分点。OPSD跌到56.23%，低于基础模型的58.36%，同样的泄漏模式在更大模型上也完全重现。
提升幅度在不同基准上有明显差异。LogicVista在4B模型上提升了整整6.18个百分点，MathVision-mini在2B模型上提升了4.94个百分点——这两个基准都需要细粒度的多步推理，正是CEPO的对比信号最能发挥作用的场景。而MMMU这个以多项选择为主、推理链条较短的基准，提升幅度只有1.67个百分点，与预期完全吻合：当推理步骤本来就很短时，信用分配的精准度对最终结果影响有限。
从训练曲线来看，CEPO在训练早期（前10到25步）就表现出明显的加速优势，在第40步左右达到最大领先幅度，之后随着λ衰减到0，与GRPO的差距略有收窄。这与设计预期完全一致。
在计算开销方面，CEPO需要额外进行一次前向传播（通过错误答案老师），使得总训练时间从GRPO的5小时58分钟增加到6小时34分钟，额外开销约36分钟，与RLSD的额外开销相当。考虑到准确率的提升，这个代价是划算的。
九、消融实验：每个设计决策的价值
研究团队非常细致地做了一系列消融实验，验证每一个设计选择的必要性。
关于老师的来源，研究团队比较了三种方案：使用一个训练开始时固定下来的参考模型（参考策略）、每25步同步一次的周期性更新老师、以及让老师和学生始终共享同一套参数（演员策略）。结果是演员策略最优，准确率43.43%，而固定参考策略只达到42.18%。这说明老师越"新鲜"、越贴近当前学生的状态，对比信号的质量越高。有趣的是，演员策略老师和学生共享参数，不需要额外存储一个独立的参数副本，反而更省内存。
关于正向参考r?和负向参考r?的构建方式，研究团队测试了五种组合。纯粹用"正确同伴回答的前缀"或"后缀"作为参考，效果反而比GRPO还差，因为截断的推理片段提供了噪声信号。用完整的同伴正确回答作为双侧参考，比GRPO好0.82个百分点。用经过验证的正确答案文本作为r?、用错误回答的完整内容作为r?，好1.57个百分点。而最终最优的方案——用正确答案文本作为r?、只用错误回答的最终答案（而非整个回答）作为r?——达到了最高的2.26个百分点提升。这说明r?只需要提供足够的"错误方向信息"，过多的文本反而引入干扰。
关于截断参数εw，实验显示在0.4到0.5之间效果最好，超过0.8之后由于权重过于极端而导致训练不稳定，低于0.1则效果几乎等同于GRPO（因为截断太死，对比信号完全被压制）。
关于λ的调度方式，固定λ=0.5和25步线性衰减两种方案都比GRPO好，而固定λ=1.0效果反而更差——持续施加最大对比压力反而带来噪音。10步快速衰减和25步衰减效果相当，说明对比信号的主要收益集中在训练最早的10到25步，之后对比信号更多地带来噪音而非信号。
十、可视化分析：看见那些被找到的关键步骤
研究团队不只停留在数字层面，还对训练过程中的信号进行了详细分析。
通过追踪每一步训练中"正向ΔCE"（正确答案老师更偏好的词）和"负向ΔCE"（错误答案老师更偏好的词）的比例，可以看到：在训练早期，正向ΔCE的比例逐渐上升，意味着AI越来越多地生成那些与正确答案逻辑一致的词；与此同时，负向ΔCE的比例在下降，意味着AI越来越少地生成那些与错误答案逻辑相符的词。这个趋势和预期完全一致——训练正在把AI推向"越来越像答对的样子"。
在一道平行四边形几何题的具体案例中，研究团队用颜色直观展示了RLSD和CEPO的信用分配差异。RLSD给了大量文字铺垫段落较高的权重，比如"让我重新整理一下思路"这类叙述性句子；而CEPO把高权重集中在了几个关键的代数推导步骤上，特别是建立方程"x+4=3x-6"、求解x的具体步骤以及最终答案。与此同时，CEPO对那些关键词的截断率（49.5%）明显低于RLSD（71.3%），意味着CEPO在更大的动态范围内工作，区分度更高。
这个可视化结果用直觉语言印证了Proposition 1的数学推导：当P?主动压低某个词的概率时，CEPO的对比比值就会升高，而这恰恰发生在那些推进正确答案方向的关键步骤上，而不是发生在填充词上。
说到底，CEPO做的事情可以用一句话概括：问那个更难回答的问题。不是"答对的时候有没有用这个词"，而是"答对的时候用了、答错的时候偏偏没用"。这个更苛刻的筛选标准，帮助AI更精准地找到了那些真正决定成败的推理步骤，把训练信号从无差别的"大水漫灌"变成了精准的"滴灌"。
这项研究真正有意思的地方在于，它的创新不是增加了什么，而是换了个比较的基准。原本拿自己的基础分做分母，现在拿一个"考错了的影子自己"做分母，仅仅这一个替换，就在不增加任何额外采样、不引入任何外部模型的前提下，带来了实质性的性能提升。
对于普通人来说，这项研究意味着未来AI助手在处理复杂推理问题（比如数学题、逻辑题、多步骤规划）时，会更加"想清楚再说"，而不是把一大堆凑字数的废话和真正有用的推理步骤一视同仁。随着大模型被用在越来越长的推理任务上，这种精准信用分配的优势只会越来越明显。
研究目前在几何题这一特定领域和视觉语言模型上进行了验证，研究团队也坦诚地指出，将CEPO推广到纯文字推理、代码生成，以及更大规模的模型上，是下一步自然的探索方向。有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.19436查阅完整论文，代码也已经在GitHub上公开。
Q&A
Q1：CEPO和GRPO训练AI的本质区别是什么？
A：GRPO对回答里所有词一视同仁，答对了每个词都得正分，答错了每个词都得负分。CEPO额外引入了一个"如果知道错误答案、该词会怎样"的对照信号，让那些"答对时出现、答错时反而不出现"的关键推理词得到更高的信用分，而无关填充词保持原样，从而让训练更有针对性。
Q2：OPSD和SDPO为什么训练后反而比没训练的AI更差？
A：这两种方法在训练中把"知道正确答案时的全词汇表概率分布"作为学习目标，导致梯度里包含一个把正确答案直接编码进模型的有害信号，称为"信息泄漏"。随着训练进行，这个有害信号越来越强，模型开始靠记住"这类题的答案就是r?"来作弊，在新题上反而更差。这是方法的结构性问题，不是实现失误。
Q3：CEPO的负向参考答案r?从哪里来，需要额外生成吗？
A：不需要。r?直接来自同一批训练中AI自己生成的那些错误回答，取得分最低的那个错误回答的最终答案即可。整个过程完全在已有的训练数据里完成，没有任何额外的采样成本，这是CEPO在工程上非常实用的一个特点。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

智算星空CEO林子杨：太空算力迎来高速增长加速赋能商业航天产业升级丨对话新经济人物

爱诗科技完成29.8亿元C轮融资，阿里领投，PixVerse全球用户突破1.5亿

《人民日报》发李彦宏署名文章，首提以DAA衡量智能经济

比亚迪调整海外品牌架构：王朝海洋整合，腾势方程豹合并运营

比亚迪副总裁李柯：没有美国市场，公司销量也能超越丰田

福特执行董事长比尔·福特：美国不可能永远把中国车企挡在门外

全站最新

智算星空CEO林子杨：太空算力迎来高速增长加速赋能商业航天产业升级丨对话新经济人物

爱诗科技完成29.8亿元C轮融资，阿里领投，PixVerse全球用户突破1.5亿

《人民日报》发李彦宏署名文章，首提以DAA衡量智能经济

比亚迪调整海外品牌架构：王朝海洋整合，腾势方程豹合并运营

热门推荐

在AI时代的十字路口：腾讯的“加减法”

智算星空CEO林子杨：太空算力迎来高速增长加速赋能商业航天产业升级丨对话新经济人物

谷歌 Chrome 安卓版重构底部栏:新增 Gemini 专属按钮并支持多标签页 AI 分析

法国凭借低价电力在 AI 竞争中脱颖而出

爱诗科技完成29.8亿元C轮融资，阿里领投，PixVerse全球用户突破1.5亿

《人民日报》发李彦宏署名文章，首提以DAA衡量智能经济

估值4800亿！曝DeepSeek筹备IPO，梁文锋登顶AI圈新首富

比亚迪调整海外品牌架构：王朝海洋整合，腾势方程豹合并运营

比亚迪副总裁李柯：没有美国市场，公司销量也能超越丰田

福特执行董事长比尔·福特：美国不可能永远把中国车企挡在门外

梁文锋旗下公司打新长鑫科技，153只私募产品“全军出击”

长鑫科技朱一明：希望促进产业链协同发展将坚持自主创新道路

长鑫科技IPO路演，董事长朱一明最新发声

英特尔18A良率升至85% 据悉已获英伟达及OpenAI等多个公司大单

国家统计局：我国平均每天生产芯片超过15亿块