当前位置: 首页 » 资讯 » 科技头条 » 正文

Meta实验室新突破:让AI数学推理更聪明的"混合奖励"训练法

IP属地 中国·北京 科技行者 时间:2025-11-12 22:12:30


这项由Meta人工智能实验室(FAIR)的陶雷天、伊利亚·库利科夫等研究人员与威斯康星大学麦迪逊分校合作完成的研究,发表于2025年10月,论文编号为arXiv:2510.07242v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

教AI做数学题就像训练一个学生,但现在的方法存在一个根本问题:要么太严格,要么太宽松。现有的训练方式通常采用两种截然不同的评判标准。第一种就像那种极其苛刻的数学老师,只认标准答案,哪怕你的解题思路完全正确、只是最后答案格式稍有不同,也会被判为零分。第二种则像那种过分宽松的老师,给分很随意,有时候错误答案也能得高分,正确答案反而分数不高。

Meta的研究团队意识到,这两种极端方式都不利于AI真正学会数学推理。他们提出了一个巧妙的解决方案,称为HERO(混合集成奖励优化),这个方法就像找到了严格老师和宽松老师之间的完美平衡点。

当前AI数学训练面临的核心困境可以用一个简单的例子来说明。假设AI要解决一道数学题,答案是"2x+3",但AI给出的答案是"3+2x"。从数学角度看,这两个表达式完全等价,但传统的严格验证系统会因为顺序不同而判定为错误。相反,如果使用过于宽松的评分模型,它可能会给一些看似合理但实际错误的答案打高分,误导AI的学习方向。

研究团队发现,目前的AI训练主要依赖两种奖励信号。第一种是"可验证奖励",就像标准化考试的答题卡一样,只有0分或满分,没有中间地带。这种方法虽然准确,但过于严苛,很多合理的答案因为格式问题被错误地判为零分。第二种是"奖励模型",它能给出连续的分数,比如75分、85分等,能够识别部分正确的答案,但有时候判分不够准确。

HERO的创新之处在于巧妙地结合了这两种方法的优势。它采用了一种叫做"分层标准化"的技术,简单来说就是先用严格的验证器将所有答案分为"正确"和"错误"两个大组,然后在每个组内部使用奖励模型进行细致的排名。这就像是先按照及格和不及格将学生分组,然后在及格组内部按照具体分数排序,在不及格组内部也按照接近程度排序。

这种方法还引入了"方差感知加权"机制。当AI面对简单问题时,大部分答案要么全对要么全错,这种情况下学习价值有限。但遇到复杂问题时,不同答案的质量差异很大,这时候就需要给予更多关注。HERO会自动识别这些"有挑战性"的问题,并在训练中给它们分配更高的权重,确保AI把更多精力花在真正困难的推理任务上。

为了验证这个方法的有效性,研究团队进行了全面的实验测试。他们构建了三种不同的训练数据集:容易验证的数学题(答案格式标准,容易自动检查)、难以验证的数学题(答案格式灵活,需要人工判断),以及两种题目的混合集。实验涵盖了多个知名的数学推理基准测试,包括MATH500、AMC、Minerva和Olympiad等。

实验结果令人振奋。在使用Qwen3-4B-Base模型的测试中,当训练数据为容易验证的样本时,HERO在容易验证任务上的平均得分达到62.0,显著超过了仅使用奖励模型的56.4分和仅使用规则验证器的58.3分。更重要的是,在难以验证的任务上,HERO的优势更加明显,得分高达66.3,比奖励模型方法高出11.7分,比规则验证器方法高出9.2分。

当训练数据包含难以验证的样本时,传统的规则验证器表现尤其糟糕,因为它们面对格式不标准的正确答案时往往束手无策。在这种情况下,HERO仍能保持稳定的性能提升,证明了其强大的适应性和鲁棒性。

研究团队还进行了详细的消融实验,深入分析了HERO各个组件的贡献。他们发现,在负样本(错误答案)组内提供密集的奖励信号比在正样本组内更为重要。这个发现很有道理:对于正确答案,主要目标是确认其正确性;但对于错误答案,区分"完全错误"和"部分正确"对学习更有价值。

实验还显示,奖励范围的选择对性能有重要影响。对于容易验证的任务,较小的奖励范围(如0.05)效果最好,因为规则验证器的精确性使得较紧的范围能够减少噪声。对于混合任务,较大的奖励范围(如0.1或0.2)能提供更丰富的信号,帮助模型更好地学习复杂情况。

令人惊讶的是,使用更大的奖励模型(从7B增加到72B参数)并没有带来显著的性能提升,这表明HERO的优势主要来自其巧妙的混合奖励设计,而不是简单的模型规模扩大。这个发现对实际应用很有价值,因为它意味着可以在不大幅增加计算成本的情况下获得性能提升。

研究团队还与其他先进方法进行了对比。他们测试了基于生成模型的验证器(如TIGER-Lab的通用验证器)和大型语言模型验证器(如Qwen2.5-7B-Instruct),结果显示HERO在所有测试场景中都保持了领先优势。这证明了结构化奖励整合比单纯增加验证器规模更为有效。

为了更深入地理解奖励模型的行为,研究团队分析了它在不同难度任务上的表现。他们发现,在难以验证的任务上,奖励模型容易出现"奖励欺骗"现象,即快速提高奖励分数但实际数学准确性却在下降。这就像学生学会了考试技巧但没有真正掌握知识。HERO通过将奖励模型的输出锚定到验证器定义的正确性群组中,有效避免了这种问题。

研究还揭示了一个有趣的现象:密集负样本奖励比密集正样本奖励更重要。当AI产生错误答案时,能够区分"完全胡说八道"和"思路基本正确但细节有误"对学习非常有价值。而对于正确答案,主要的区别只是表达方式和完整性,重要性相对较低。

在可扩展性方面,HERO在不同规模的模型上都显示出了一致的改进效果。无论是在相对较强的Qwen3-4B-Base上,还是在基线较弱的OctoThinker-8B-Hybrid-Base上,HERO都能带来显著的性能提升。这种一致性表明该方法具有良好的普遍适用性。

值得注意的是,HERO不仅在数学推理任务上表现出色,其设计理念也可能适用于其他需要精确性和创造性平衡的任务。比如在代码生成、逻辑推理、甚至某些创意写作任务中,都存在类似的"严格性"与"灵活性"之间的张力。

从技术实现角度看,HERO引入的计算开销是可控的。虽然需要同时运行验证器和奖励模型,但这种额外成本在现代GPU集群环境下是可以接受的。而且,由于方法能够更高效地利用训练数据,实际上可能减少达到相同性能水平所需的总训练时间。

这项研究也为未来的发展指明了方向。研究团队指出,可以进一步改进验证器的覆盖范围,开发更好的难度估计器,以及探索过程级别的奖励信号(不仅仅关注最终答案,还要评估解题步骤的质量)。这些改进方向都有可能进一步提升AI的数学推理能力。

从更宏观的角度看,这项研究反映了AI发展中的一个重要趋势:从粗放式的规模扩张转向精细化的训练优化。与其简单地增加模型参数或训练数据,不如深入思考如何设计更好的训练信号和学习机制。HERO正是这种思路的典型体现。

说到底,HERO就像是为AI找到了一位既严格又灵活的好老师。这位老师知道什么时候该坚持标准,什么时候该给予鼓励,能够根据学生的不同情况调整教学策略。通过这种精心设计的教学方法,AI在数学推理方面的表现得到了显著提升,为构建更强大、更可靠的人工智能系统迈出了重要一步。

Q&A

Q1:HERO混合奖励优化方法具体是如何工作的?

A:HERO采用分层标准化技术,先用严格的验证器将答案分为正确和错误两组,然后在每组内部用奖励模型进行细致排名。同时引入方差感知加权,自动识别有挑战性的问题并给予更高权重,确保AI把更多精力花在真正困难的推理任务上。

Q2:为什么传统的AI数学训练方法效果不好?

A:传统方法要么过于严格(只认标准答案格式,正确但格式不同的答案也被判零分),要么过于宽松(评分随意,错误答案可能得高分)。这两种极端都不利于AI真正学会数学推理,HERO正是为了解决这个问题而设计的。

Q3:HERO在实际测试中的效果如何?

A:在Qwen3-4B-Base模型测试中,HERO在难以验证任务上得分66.3,比奖励模型方法高11.7分,比规则验证器高9.2分。在各种数学推理基准测试中都显示出显著优势,且在不同规模模型上都有一致的改进效果。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。