![]()
这项由韩国科学技术院(KAIST)与DeepAuto.ai联合完成的研究发表于2026年5月,论文编号为arXiv:2605.15726v1,题为《Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR》。有兴趣深入了解技术细节的读者可以通过该编号在arXiv上查阅完整论文,研究团队也在GitHub上开源了相关代码。
回到我们要聊的故事。如果把训练一个会做数学题的人工智能比作培养一位侦探,那么这项研究要解决的问题,恰恰是每个新手侦探都会遇到的困境——破案的时候总是不自觉地用同一套思路,哪怕这套思路明显走不通,也很难跳出来换个角度想想。研究团队找到了一个出人意料的解决办法:与其让侦探拼命多查几遍同一条线索,不如给他几张写着不同侦查方向的小纸条,逼他强制尝试不同的破案路径。这个看似简单的改动,让人工智能在数学竞赛题目上的表现大幅提升,甚至超过了那些用八倍计算资源硬"堆"出来的方案。
一、侦探的舒适区陷阱:为什么AI总用同一招
要理解这项研究的价值,得先弄明白现在训练AI做数学题的主流方法到底卡在哪里。目前业界流行的做法叫做"可验证奖励强化学习",名字听起来很复杂,但本质上就像训练一个侦探:每次给他一个案子,让他自己尝试推理出答案,如果破案成功就给奖励,失败就不给。重复成千上万次之后,这位侦探就学会了破案技巧。
其中最有代表性的方法叫做GRPO,它的工作方式很有意思。每给侦探一个案子,就让他同时写出八份不同的破案报告,然后把这八份报告放在一起比较。表现最好的那几份会被表扬,表现差的会被批评,侦探就从这种对比中慢慢进步。
听起来很合理对吧?但问题来了。这位侦探有自己最擅长、最舒服的那套破案思路,每次让他写八份报告,他写出来的八份很可能用的都是同一种方法,只是细节略有不同。这就好比让一个习惯用指纹分析破案的侦探尝试新方法,结果他交上来的八份报告全都在分析指纹,只是分析的手指头不太一样。如果这个案子恰好不适合用指纹分析来破,那这八份报告就全军覆没了。
研究团队引用了之前的一项理论分析,指出了这个问题的数学本质。简单来说,AI在训练过程中真正能进步的部分,取决于它"采样到的正确答案"。而那些它本来知道但就是想不到去尝试的正确路径,反而会变成拖后腿的负面因素。这个发现意味着,AI的瓶颈不在于它能不能识别正确答案,而在于它压根就没想到要往那个方向去试。
那能不能用最暴力的办法解决——既然八份报告不够多样,那就让侦探一次写六十四份呢?理论上确实可以,但研究团队通过一个简单的数学计算指出了这条路的死胡同:如果某种正确的破案思路在侦探脑子里的出现概率只有百分之一,那平均得让他写一百份报告才能碰上一次;如果概率是千分之一,那就得一千份。这种"碰运气"的做法不仅烧钱烧到肉疼,而且对于那些真正罕见但巧妙的解法,几乎永远也碰不上。实验数据也证实了这一点:当报告数量从三十二份增加到六十四份时,AI的表现不升反降,说明硬堆数量已经失去了边际效益。
二、给侦探递小纸条:策略助推法的妙处
研究团队的核心创意,就是这个被他们称为"策略助推"的方法。延续侦探的比喻,他们的做法相当于:在让侦探写报告之前,先给每份报告附上一张小纸条,上面写着一个具体的侦查方向。比如第一份纸条上写"用指纹分析",第二份写"用监控录像分析",第三份写"用证人证词分析"。这样一来,侦探就被强制要求尝试不同的破案路径,再也没法八份报告都用同一招了。
具体到数学题的场景,这些小纸条上写的就是各种数学概念或定理的提示,比如"考西函数方程"、"对自然数的归纳"、"线性函数的性质"等等。注意,这些纸条上写的不是答案,也不是解题步骤,而仅仅是一个方向性的关键词,相当于告诉AI:"你这次试着往这个方向想想看。"
这里有一个特别精妙的设计。研究团队意识到,如果只是简单地把所有可能的方向都堆在一个提示里,让AI自己选择用哪个,那AI很可能还是会偷懒回到自己最熟悉的那条路。所以他们采取了"强制分配"的策略:每一份报告都被预先指定了一个方向,AI别无选择,只能按照这个方向去尝试。
不过完全强制也有问题——如果AI永远只能在小纸条规定的方向里打转,那它就失去了发挥自己原本能力的机会。为了平衡这一点,研究团队加入了一个叫做"上下文丢弃"的机制:每次以一半的概率把小纸条撤掉,让AI回归到没有任何提示的原始状态自由发挥。实验显示,这个一半对一半的比例效果最好,太少则限制了AI的自由探索,太多则削弱了策略助推的引导效果。
那么这些写着方向的小纸条又是从哪里来的呢?研究团队用了一个很经济的办法:让一个相对便宜的语言模型(GPT-4o-mini)针对每道题目自动生成两个候选方向。整个过程是一次性的,生成完之后这些纸条就可以反复使用,不会增加训练过程中的开销。更妙的是,这些纸条不需要经过任何验证——它们不一定要指向正确答案,只要能引导AI去尝试不同的思路就够了。
效果如何呢?研究团队做了一个直观的对比实验。在同样写八份报告的情况下,原来的方法生成的报告中,大多数情况下只能涵盖一两种不同的解题思路;而加入策略助推之后,报告所涉及的不同思路数量明显增加,很多题目能覆盖四五种甚至更多的解题路径。这就像让原本只会用指纹分析的侦探,突然学会了同时尝试监控、证词、物证、动机分析等多种破案方法。
三、给奖励算账的新方式:组内组间双重比较
策略助推虽然解决了思路多样性的问题,但又带来了一个新麻烦:怎么公平地评价这些用不同思路写出来的报告呢?
继续用侦探的比喻:假设一位侦探写了八份报告,其中四份用指纹分析方法,四份用监控录像方法。结果指纹分析的四份里有三份破案成功,监控录像的四份里只有一份破案成功。这时候问题来了——监控录像组里那唯一成功的一份,应该如何评价?是因为它用了一种相对困难的方法而值得特别表扬,还是因为它属于整体表现较差的小组而应该被打压?
原来的GRPO方法直接把所有八份报告放在一起比较,这会带来一个不公平的现象:用难方法成功的报告,可能因为身边大多数同组报告都失败了,而被平均水平拉低,得到不应有的低分。这就好比把不同难度组别的选手放在一起排名,对那些挑战高难度动作的选手很不公平。
研究团队设计的"组间-组内双重优势"方法,巧妙地解决了这个问题。它的工作原理是这样的:先按照小纸条的方向把报告分成几个小组,然后从两个层面来评价每份报告。一个层面是"组内比较",看这份报告在自己同组的伙伴中表现如何;另一个层面是"组间比较",看这份报告所在的整个小组相对于平均水平表现如何。最终的评分由这两部分加权合成。
这里有一个叫做"λ"的调节参数,控制着两层评价的权重分配。当λ设置为1.1时(实验显示这是最佳值),意味着AI会稍微倾向于鼓励那些来自高表现组别的成功报告。这个看似细微的设定其实有深意:因为策略助推已经在源头保证了思路的多样性,所以在评价阶段,可以稍微偏向于强化那些"靠谱的方向",让AI学得更扎实。研究团队还在数学上证明了,只要λ的值落在0到2之间,这套评分机制就能保证奖励高的报告永远获得更高的总评分,不会出现颠倒黑白的情况。
四、训练时开小灶,考试时靠自己:知识蒸馏的桥梁
策略助推还面临一个根本性的挑战:训练时AI有小纸条作为提示,但实际考试时是没有任何提示的。如果AI只学会了"看着小纸条解题",那训练再好也没用——总不能在真正的数学竞赛上还给它递条子吧?
研究团队为此设计了一个叫做"自蒸馏"的机制,本质上就是搭建一座从"有小纸条状态"到"无小纸条状态"的知识桥梁。具体做法是:当AI在有小纸条的情况下产生了一份高质量的解题报告,系统会同时让"没有小纸条状态的AI"去学习这份报告。换句话说,AI不仅要学会"看着提示解题",更要学会"在没有提示的情况下,也能自然地想到这种思路"。
这个机制和普通的模仿学习有个关键区别:它不是无脑地模仿所有报告,而是根据每份报告的优势分数来加权。表现越好的报告,对"无提示AI"的影响越大;表现差的报告则几乎不会被学习。这就确保了AI学到的都是真正有价值的解题思路。
最终的训练目标是把强化学习的部分(让有提示的AI学得更好)和蒸馏的部分(把好的思路传递给无提示的AI)按一定比例结合起来。研究团队发现蒸馏的权重设为0.1时效果最佳——既能起到桥梁作用,又不会过分约束AI的学习。
一个特别有意思的发现是,随着训练进行,"没有小纸条"状态下的AI表现竟然有时会超过"有小纸条"状态下的表现。这说明小纸条的作用并不是直接简化问题,而是引导AI去探索那些它原本不会想到的思路,而一旦这些思路被AI内化吸收,它在没有任何提示的情况下反而能发挥得更好。这一点和那些依赖"标准答案提示"的方法有本质区别——那些方法主要是让难题变容易,而这项研究的方法是让AI变得更聪明。
五、实战检验:用八份报告打败六十四份
理论说得再漂亮,最终还得看实战表现。研究团队在两个不同的AI模型上测试了他们的方法:一个是Qwen3-4B-Instruct(40亿参数级别),另一个是Olmo-3-7B-Instruct-SFT(70亿参数级别)。测试的题目来自五个不同的数学竞赛数据集,涵盖了从高中竞赛到奥林匹克级别的各种难题,包括AIME24、AIME25、AMC23、MATH500的最难子集,以及Apex Shortlist这个非常困难的数据集。
结果让人印象深刻。在40亿参数的模型上,用策略助推方法(每题只产生八份报告)取得的平均成绩是0.489,而原来的方法即使产生三十二份报告,最好成绩也只有0.487;当报告数量增加到六十四份时,原方法的成绩反而下降到0.451。也就是说,新方法用八分之一的计算资源,达到了甚至超越了暴力堆砌资源的效果。
在70亿参数的模型上情况类似,新方法以八份报告达到了0.285的平均成绩,而原方法即使用三十二份报告也只能达到0.281。这种"以小博大"的效果,对于实际应用来说意义重大——意味着研究者和开发者可以用更少的计算资源训练出更好的AI模型。
研究团队还和另一种叫做POPE的方法进行了对比。POPE的思路是给AI看部分标准答案作为提示,相当于让侦探看一眼破案报告的开头几行。这种方法的问题在于:标准答案需要专门生成(研究中用的是DeepSeek Reasoner这样的强大模型),成本很高,而且它倾向于让AI模仿一条特定的解题路径,限制了思路多样性。结果显示,新方法在两个模型上都超越了POPE,证明"引导多样化探索"比"提供标准答案片段"更有效。
六、深入案例:一道AIME题目的故事
为了具体说明新方法的优势,研究团队挑选了一道2025年美国数学邀请赛的题目作为案例。这道题涉及一个直角三角形和几个内部点的距离关系,要求计算某个四边形的面积。
原方法训练的AI在三十二次尝试中全部失败,没有一份能给出正确答案。它的失败模式很典型:AI大多采用坐标几何的方法,但在求解过程中陷入了复杂的代数运算,推导越来越长,最终因为篇幅限制被强制截断,根本来不及得出最终答案。一些尝试还误入了"假设三角形是等腰的"这种简化但错误的路径,或者陷入了繁琐的面积分解法,结果同样是越算越乱。
新方法训练的AI在三十二次尝试中有六次成功了,成功的关键在于它发现并采用了"鞋带公式"这条捷径。鞋带公式是一种通过多边形顶点坐标直接计算面积的方法,相比于把四边形拆分成小三角形再分别计算,它要简洁得多。原方法训练的AI虽然偶尔也会尝试鞋带公式(在三十二次尝试中只用过一次),但用得不熟练;而新方法训练的AI在十次相关尝试中有六次成功用这个公式得出了正确答案104。
这个案例生动地展示了策略助推的双重价值:一方面它让AI接触到了原本很少尝试的解题方法(鞋带公式),另一方面组间-组内的评分机制让AI学会了识别并强化这种可靠的方法,最终把它内化为自己的能力。
七、对比其他主流方法:为什么"引导式探索"更胜一筹
除了和暴力堆砌资源的方法对比,研究团队还和另一种流行的探索方法进行了较量——这种方法叫做"解耦剪辑",简单说就是通过调整算法参数让AI更大胆地往好的方向更新。
实验显示,当这种方法的关键参数从0.2逐渐增加到0.4时,AI的表现先是略有提升(在0.24到0.36之间略有改善),但到了0.4这种极端值时表现急剧下滑。整个过程中,原方法的最佳表现也只有0.566,而新方法在最保守的设置下就达到了0.598,全程压制对手。
这个对比揭示了一个深刻的道理:通过调整数学参数来"鼓励探索"是一种盲目的方式,它只是让AI更激进地偏离当前路径,但没有指明应该往哪里偏。这就像告诉侦探"你要大胆一点,尝试新东西",但不告诉他可以尝试什么新东西,结果他可能尝试一些完全没意义的方向。相比之下,策略助推直接给出了"试试这个方向"的具体指引,是一种"有结构的探索",效果自然更好。
八、深挖机制:为什么随机比精选更好
研究团队还做了一个反直觉的实验。他们对比了两种生成小纸条的方式:一种是随机生成两个方向,另一种是精心挑选——先生成五个候选方向,然后通过实际测试选出能让AI表现最好的两个。
按常理来说,精心挑选应该更好,但实验结果恰恰相反:随机方式的平均成绩是0.598,精心挑选的方式只有0.552。为什么会这样呢?
研究团队的解释是:精心挑选的方向往往会集中在那几个"最容易成功"的解题路径上,这反而限制了思路的多样性。AI虽然每次都能用这些"靠谱方向"得出答案,但它失去了接触各种不同思路的机会,整体能力反而没有提升那么多。随机方式虽然会包含一些不那么完美的方向,但正是这种多样性让AI接触到更广阔的解题思路,从而获得更全面的能力提升。
这个发现强化了整篇研究的核心理念:策略助推的关键作用不是给AI提供"最优答案的暗示",而是迫使它走出舒适区,去尝试各种可能的思路。多样性本身就是最大的价值。
九、训练动态:策略助推让AI学得更快
研究团队还观察了AI在整个训练过程中的进步轨迹。结果显示,使用策略助推的AI不仅最终成绩更好,而且进步速度也更快。在训练进行到200步左右时,新方法在AIME24/25数据集上的成绩就已经超过了0.42,而原方法即使用更多报告也只能在0.41附近徘徊或者增长更慢。
更有意思的是,研究团队同时观察了"有小纸条时"和"没有小纸条时"AI的表现,发现两者在整个训练过程中是同步提升的,而且后期甚至出现了"没小纸条时表现更好"的情况。这说明蒸馏桥梁起到了作用——AI通过有提示的训练发现的好思路,确实被成功转移到了无提示的状态。
研究团队还测试了一种叫做pass@k的指标,意思是允许AI尝试k次,看其中有没有至少一次成功。结果显示,新方法在k等于1、4、16、64、256、1024的各种设置下都全面领先,这说明新方法不仅让AI单次回答更准确,也让它的整体能力上限更高了。
十、研究的边界与未来:还能更聪明吗
这项研究虽然取得了显著的成果,但研究团队也坦率地指出了一些局限。生成小纸条本身需要一些前期成本——尽管用的是相对便宜的语言模型,但毕竟也是一笔开销。好在这个过程是一次性的,生成完之后可以反复使用,所以总体来看仍然非常划算。
更值得思考的是一个深层问题:目前的小纸条是预先生成好的,与AI本身的学习状态无关。但随着训练的进行,AI会变得越来越聪明,那些原本能引导它去尝试新方向的纸条,可能逐渐变得不再有挑战性。研究团队设想了一个未来方向:让小纸条的生成能够根据AI当前的状态动态调整,专门针对AI"还想不到的盲区"来生成提示。这种自适应的小纸条系统,或许能让训练效果保持长期的高效率。
说到底,这项研究最让人觉得有意思的地方,并不在于它在数学题目上提升了几个百分点的成绩,而在于它揭示了一个朴素但重要的道理:让AI变得更聪明,未必需要更多的计算资源或者更复杂的数学技巧,有时候只需要一个简单的引导——告诉它"换个思路试试"。这种思路某种程度上呼应了人类学习的本质:一个好老师不是给学生标准答案,也不是让学生反复做同一道题,而是引导学生从不同角度思考问题。研究团队用一种巧妙的工程方法,把这种"启发式教学"的智慧成功地应用到了AI训练中。
对于普通读者来说,这项研究的意义也许不会立即体现在日常生活中,但它代表了AI发展的一个重要方向——从"暴力堆资源"转向"巧妙引导",从"提供答案"转向"鼓励探索"。这种转变意味着未来的AI训练可能会更加经济、更加灵活,普通的研究团队和小公司也能训练出强大的AI模型,而不需要烧掉天价的计算资源。如果你对这项研究感兴趣,可以通过论文编号arXiv:2605.15726在arXiv网站上查阅完整内容,研究团队也在GitHub上公开了代码,欢迎进一步探索。
最后留个问题给你思考:如果连AI学习都需要"换个思路"才能突破瓶颈,那么我们自己在学习和工作中遇到困境时,是不是也应该多给自己递几张"思路小纸条",强制自己尝试一些原本不会考虑的方向呢?
Q&A
Q1:策略助推方法到底是怎么让AI变聪明的?
A:策略助推的核心做法是在每次让AI解题时,预先分配一个具体的解题方向作为提示,比如"试试用归纳法"或"考虑函数方程"。这样强制AI走出它熟悉的思维舒适区,去尝试不同的解题路径。这些方向性的提示由一个便宜的语言模型一次性生成好,不包含答案也不需要验证,仅仅起到引导多样性的作用。配合一半概率撤掉提示的机制,AI既能学到新思路,也能保留独立思考的能力。
Q2:为什么用八份报告的新方法能打败用六十四份报告的旧方法?
A:关键在于报告的多样性而非数量。旧方法虽然写了六十四份报告,但因为AI倾向于使用熟悉的思路,这六十四份本质上是同一种方法的重复变体,浪费了大量计算资源。新方法虽然只写八份,但每份都被强制走不同的解题路径,覆盖的思路范围反而更广。实验也显示旧方法在三十二份达到顶峰后,到六十四份时表现还会下降,说明单纯堆数量已经失去意义。
Q3:策略助推方法和那些用标准答案做提示的方法相比有什么优势?
A:用标准答案做提示的方法(比如POPE)依赖昂贵的强大模型生成标准答案片段,成本很高且难以规模化。更关键的是,标准答案会把AI引导向一条特定的解题路径,限制了思路多样性。策略助推用的是廉价生成的关键词级提示,不包含任何答案信息,只指引方向。实验显示这种"弱监督"反而效果更好,因为它鼓励AI探索多种思路,而不是模仿一条固定路径。





京公网安备 11011402013531号