当探索撞上天花板：KAIST团队教会AI"换个思路想想"的聪明办法

IP属地中国·北京 科技行者 时间：2026-05-22 22:15:57

这项由韩国科学技术院（KAIST）与DeepAuto.ai联合完成的研究发表于2026年5月，论文编号为arXiv:2605.15726v1，题为《Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR》。有兴趣深入了解技术细节的读者可以通过该编号在arXiv上查阅完整论文，研究团队也在GitHub上开源了相关代码。
回到我们要聊的故事。如果把训练一个会做数学题的人工智能比作培养一位侦探，那么这项研究要解决的问题，恰恰是每个新手侦探都会遇到的困境——破案的时候总是不自觉地用同一套思路，哪怕这套思路明显走不通，也很难跳出来换个角度想想。研究团队找到了一个出人意料的解决办法：与其让侦探拼命多查几遍同一条线索，不如给他几张写着不同侦查方向的小纸条，逼他强制尝试不同的破案路径。这个看似简单的改动，让人工智能在数学竞赛题目上的表现大幅提升，甚至超过了那些用八倍计算资源硬"堆"出来的方案。
一、侦探的舒适区陷阱：为什么AI总用同一招
要理解这项研究的价值，得先弄明白现在训练AI做数学题的主流方法到底卡在哪里。目前业界流行的做法叫做"可验证奖励强化学习"，名字听起来很复杂，但本质上就像训练一个侦探：每次给他一个案子，让他自己尝试推理出答案，如果破案成功就给奖励，失败就不给。重复成千上万次之后，这位侦探就学会了破案技巧。
其中最有代表性的方法叫做GRPO，它的工作方式很有意思。每给侦探一个案子，就让他同时写出八份不同的破案报告，然后把这八份报告放在一起比较。表现最好的那几份会被表扬，表现差的会被批评，侦探就从这种对比中慢慢进步。
听起来很合理对吧？但问题来了。这位侦探有自己最擅长、最舒服的那套破案思路，每次让他写八份报告，他写出来的八份很可能用的都是同一种方法，只是细节略有不同。这就好比让一个习惯用指纹分析破案的侦探尝试新方法，结果他交上来的八份报告全都在分析指纹，只是分析的手指头不太一样。如果这个案子恰好不适合用指纹分析来破，那这八份报告就全军覆没了。
研究团队引用了之前的一项理论分析，指出了这个问题的数学本质。简单来说，AI在训练过程中真正能进步的部分，取决于它"采样到的正确答案"。而那些它本来知道但就是想不到去尝试的正确路径，反而会变成拖后腿的负面因素。这个发现意味着，AI的瓶颈不在于它能不能识别正确答案，而在于它压根就没想到要往那个方向去试。
那能不能用最暴力的办法解决——既然八份报告不够多样，那就让侦探一次写六十四份呢？理论上确实可以，但研究团队通过一个简单的数学计算指出了这条路的死胡同：如果某种正确的破案思路在侦探脑子里的出现概率只有百分之一，那平均得让他写一百份报告才能碰上一次；如果概率是千分之一，那就得一千份。这种"碰运气"的做法不仅烧钱烧到肉疼，而且对于那些真正罕见但巧妙的解法，几乎永远也碰不上。实验数据也证实了这一点：当报告数量从三十二份增加到六十四份时，AI的表现不升反降，说明硬堆数量已经失去了边际效益。
二、给侦探递小纸条：策略助推法的妙处
研究团队的核心创意，就是这个被他们称为"策略助推"的方法。延续侦探的比喻，他们的做法相当于：在让侦探写报告之前，先给每份报告附上一张小纸条，上面写着一个具体的侦查方向。比如第一份纸条上写"用指纹分析"，第二份写"用监控录像分析"，第三份写"用证人证词分析"。这样一来，侦探就被强制要求尝试不同的破案路径，再也没法八份报告都用同一招了。
具体到数学题的场景，这些小纸条上写的就是各种数学概念或定理的提示，比如"考西函数方程"、"对自然数的归纳"、"线性函数的性质"等等。注意，这些纸条上写的不是答案，也不是解题步骤，而仅仅是一个方向性的关键词，相当于告诉AI："你这次试着往这个方向想想看。"
这里有一个特别精妙的设计。研究团队意识到，如果只是简单地把所有可能的方向都堆在一个提示里，让AI自己选择用哪个，那AI很可能还是会偷懒回到自己最熟悉的那条路。所以他们采取了"强制分配"的策略：每一份报告都被预先指定了一个方向，AI别无选择，只能按照这个方向去尝试。
不过完全强制也有问题——如果AI永远只能在小纸条规定的方向里打转，那它就失去了发挥自己原本能力的机会。为了平衡这一点，研究团队加入了一个叫做"上下文丢弃"的机制：每次以一半的概率把小纸条撤掉，让AI回归到没有任何提示的原始状态自由发挥。实验显示，这个一半对一半的比例效果最好，太少则限制了AI的自由探索，太多则削弱了策略助推的引导效果。
那么这些写着方向的小纸条又是从哪里来的呢？研究团队用了一个很经济的办法：让一个相对便宜的语言模型（GPT-4o-mini）针对每道题目自动生成两个候选方向。整个过程是一次性的，生成完之后这些纸条就可以反复使用，不会增加训练过程中的开销。更妙的是，这些纸条不需要经过任何验证——它们不一定要指向正确答案，只要能引导AI去尝试不同的思路就够了。
效果如何呢？研究团队做了一个直观的对比实验。在同样写八份报告的情况下，原来的方法生成的报告中，大多数情况下只能涵盖一两种不同的解题思路；而加入策略助推之后，报告所涉及的不同思路数量明显增加，很多题目能覆盖四五种甚至更多的解题路径。这就像让原本只会用指纹分析的侦探，突然学会了同时尝试监控、证词、物证、动机分析等多种破案方法。
三、给奖励算账的新方式：组内组间双重比较
策略助推虽然解决了思路多样性的问题，但又带来了一个新麻烦：怎么公平地评价这些用不同思路写出来的报告呢？
继续用侦探的比喻：假设一位侦探写了八份报告，其中四份用指纹分析方法，四份用监控录像方法。结果指纹分析的四份里有三份破案成功，监控录像的四份里只有一份破案成功。这时候问题来了——监控录像组里那唯一成功的一份，应该如何评价？是因为它用了一种相对困难的方法而值得特别表扬，还是因为它属于整体表现较差的小组而应该被打压？
原来的GRPO方法直接把所有八份报告放在一起比较，这会带来一个不公平的现象：用难方法成功的报告，可能因为身边大多数同组报告都失败了，而被平均水平拉低，得到不应有的低分。这就好比把不同难度组别的选手放在一起排名，对那些挑战高难度动作的选手很不公平。
研究团队设计的"组间-组内双重优势"方法，巧妙地解决了这个问题。它的工作原理是这样的：先按照小纸条的方向把报告分成几个小组，然后从两个层面来评价每份报告。一个层面是"组内比较"，看这份报告在自己同组的伙伴中表现如何；另一个层面是"组间比较"，看这份报告所在的整个小组相对于平均水平表现如何。最终的评分由这两部分加权合成。
这里有一个叫做"λ"的调节参数，控制着两层评价的权重分配。当λ设置为1.1时（实验显示这是最佳值），意味着AI会稍微倾向于鼓励那些来自高表现组别的成功报告。这个看似细微的设定其实有深意：因为策略助推已经在源头保证了思路的多样性，所以在评价阶段，可以稍微偏向于强化那些"靠谱的方向"，让AI学得更扎实。研究团队还在数学上证明了，只要λ的值落在0到2之间，这套评分机制就能保证奖励高的报告永远获得更高的总评分，不会出现颠倒黑白的情况。
四、训练时开小灶，考试时靠自己：知识蒸馏的桥梁
策略助推还面临一个根本性的挑战：训练时AI有小纸条作为提示，但实际考试时是没有任何提示的。如果AI只学会了"看着小纸条解题"，那训练再好也没用——总不能在真正的数学竞赛上还给它递条子吧？
研究团队为此设计了一个叫做"自蒸馏"的机制，本质上就是搭建一座从"有小纸条状态"到"无小纸条状态"的知识桥梁。具体做法是：当AI在有小纸条的情况下产生了一份高质量的解题报告，系统会同时让"没有小纸条状态的AI"去学习这份报告。换句话说，AI不仅要学会"看着提示解题"，更要学会"在没有提示的情况下，也能自然地想到这种思路"。
这个机制和普通的模仿学习有个关键区别：它不是无脑地模仿所有报告，而是根据每份报告的优势分数来加权。表现越好的报告，对"无提示AI"的影响越大；表现差的报告则几乎不会被学习。这就确保了AI学到的都是真正有价值的解题思路。
最终的训练目标是把强化学习的部分（让有提示的AI学得更好）和蒸馏的部分（把好的思路传递给无提示的AI）按一定比例结合起来。研究团队发现蒸馏的权重设为0.1时效果最佳——既能起到桥梁作用，又不会过分约束AI的学习。
一个特别有意思的发现是，随着训练进行，"没有小纸条"状态下的AI表现竟然有时会超过"有小纸条"状态下的表现。这说明小纸条的作用并不是直接简化问题，而是引导AI去探索那些它原本不会想到的思路，而一旦这些思路被AI内化吸收，它在没有任何提示的情况下反而能发挥得更好。这一点和那些依赖"标准答案提示"的方法有本质区别——那些方法主要是让难题变容易，而这项研究的方法是让AI变得更聪明。
五、实战检验：用八份报告打败六十四份
理论说得再漂亮，最终还得看实战表现。研究团队在两个不同的AI模型上测试了他们的方法：一个是Qwen3-4B-Instruct（40亿参数级别），另一个是Olmo-3-7B-Instruct-SFT（70亿参数级别）。测试的题目来自五个不同的数学竞赛数据集，涵盖了从高中竞赛到奥林匹克级别的各种难题，包括AIME24、AIME25、AMC23、MATH500的最难子集，以及Apex Shortlist这个非常困难的数据集。
结果让人印象深刻。在40亿参数的模型上，用策略助推方法（每题只产生八份报告）取得的平均成绩是0.489，而原来的方法即使产生三十二份报告，最好成绩也只有0.487；当报告数量增加到六十四份时，原方法的成绩反而下降到0.451。也就是说，新方法用八分之一的计算资源，达到了甚至超越了暴力堆砌资源的效果。
在70亿参数的模型上情况类似，新方法以八份报告达到了0.285的平均成绩，而原方法即使用三十二份报告也只能达到0.281。这种"以小博大"的效果，对于实际应用来说意义重大——意味着研究者和开发者可以用更少的计算资源训练出更好的AI模型。
研究团队还和另一种叫做POPE的方法进行了对比。POPE的思路是给AI看部分标准答案作为提示，相当于让侦探看一眼破案报告的开头几行。这种方法的问题在于：标准答案需要专门生成（研究中用的是DeepSeek Reasoner这样的强大模型），成本很高，而且它倾向于让AI模仿一条特定的解题路径，限制了思路多样性。结果显示，新方法在两个模型上都超越了POPE，证明"引导多样化探索"比"提供标准答案片段"更有效。
六、深入案例：一道AIME题目的故事
为了具体说明新方法的优势，研究团队挑选了一道2025年美国数学邀请赛的题目作为案例。这道题涉及一个直角三角形和几个内部点的距离关系，要求计算某个四边形的面积。
原方法训练的AI在三十二次尝试中全部失败，没有一份能给出正确答案。它的失败模式很典型：AI大多采用坐标几何的方法，但在求解过程中陷入了复杂的代数运算，推导越来越长，最终因为篇幅限制被强制截断，根本来不及得出最终答案。一些尝试还误入了"假设三角形是等腰的"这种简化但错误的路径，或者陷入了繁琐的面积分解法，结果同样是越算越乱。
新方法训练的AI在三十二次尝试中有六次成功了，成功的关键在于它发现并采用了"鞋带公式"这条捷径。鞋带公式是一种通过多边形顶点坐标直接计算面积的方法，相比于把四边形拆分成小三角形再分别计算，它要简洁得多。原方法训练的AI虽然偶尔也会尝试鞋带公式（在三十二次尝试中只用过一次），但用得不熟练；而新方法训练的AI在十次相关尝试中有六次成功用这个公式得出了正确答案104。
这个案例生动地展示了策略助推的双重价值：一方面它让AI接触到了原本很少尝试的解题方法（鞋带公式），另一方面组间-组内的评分机制让AI学会了识别并强化这种可靠的方法，最终把它内化为自己的能力。
七、对比其他主流方法：为什么"引导式探索"更胜一筹
除了和暴力堆砌资源的方法对比，研究团队还和另一种流行的探索方法进行了较量——这种方法叫做"解耦剪辑"，简单说就是通过调整算法参数让AI更大胆地往好的方向更新。
实验显示，当这种方法的关键参数从0.2逐渐增加到0.4时，AI的表现先是略有提升（在0.24到0.36之间略有改善），但到了0.4这种极端值时表现急剧下滑。整个过程中，原方法的最佳表现也只有0.566，而新方法在最保守的设置下就达到了0.598，全程压制对手。
这个对比揭示了一个深刻的道理：通过调整数学参数来"鼓励探索"是一种盲目的方式，它只是让AI更激进地偏离当前路径，但没有指明应该往哪里偏。这就像告诉侦探"你要大胆一点，尝试新东西"，但不告诉他可以尝试什么新东西，结果他可能尝试一些完全没意义的方向。相比之下，策略助推直接给出了"试试这个方向"的具体指引，是一种"有结构的探索"，效果自然更好。
八、深挖机制：为什么随机比精选更好
研究团队还做了一个反直觉的实验。他们对比了两种生成小纸条的方式：一种是随机生成两个方向，另一种是精心挑选——先生成五个候选方向，然后通过实际测试选出能让AI表现最好的两个。
按常理来说，精心挑选应该更好，但实验结果恰恰相反：随机方式的平均成绩是0.598，精心挑选的方式只有0.552。为什么会这样呢？
研究团队的解释是：精心挑选的方向往往会集中在那几个"最容易成功"的解题路径上，这反而限制了思路的多样性。AI虽然每次都能用这些"靠谱方向"得出答案，但它失去了接触各种不同思路的机会，整体能力反而没有提升那么多。随机方式虽然会包含一些不那么完美的方向，但正是这种多样性让AI接触到更广阔的解题思路，从而获得更全面的能力提升。
这个发现强化了整篇研究的核心理念：策略助推的关键作用不是给AI提供"最优答案的暗示"，而是迫使它走出舒适区，去尝试各种可能的思路。多样性本身就是最大的价值。
九、训练动态：策略助推让AI学得更快
研究团队还观察了AI在整个训练过程中的进步轨迹。结果显示，使用策略助推的AI不仅最终成绩更好，而且进步速度也更快。在训练进行到200步左右时，新方法在AIME24/25数据集上的成绩就已经超过了0.42，而原方法即使用更多报告也只能在0.41附近徘徊或者增长更慢。
更有意思的是，研究团队同时观察了"有小纸条时"和"没有小纸条时"AI的表现，发现两者在整个训练过程中是同步提升的，而且后期甚至出现了"没小纸条时表现更好"的情况。这说明蒸馏桥梁起到了作用——AI通过有提示的训练发现的好思路，确实被成功转移到了无提示的状态。
研究团队还测试了一种叫做pass@k的指标，意思是允许AI尝试k次，看其中有没有至少一次成功。结果显示，新方法在k等于1、4、16、64、256、1024的各种设置下都全面领先，这说明新方法不仅让AI单次回答更准确，也让它的整体能力上限更高了。
十、研究的边界与未来：还能更聪明吗
这项研究虽然取得了显著的成果，但研究团队也坦率地指出了一些局限。生成小纸条本身需要一些前期成本——尽管用的是相对便宜的语言模型，但毕竟也是一笔开销。好在这个过程是一次性的，生成完之后可以反复使用，所以总体来看仍然非常划算。
更值得思考的是一个深层问题：目前的小纸条是预先生成好的，与AI本身的学习状态无关。但随着训练的进行，AI会变得越来越聪明，那些原本能引导它去尝试新方向的纸条，可能逐渐变得不再有挑战性。研究团队设想了一个未来方向：让小纸条的生成能够根据AI当前的状态动态调整，专门针对AI"还想不到的盲区"来生成提示。这种自适应的小纸条系统，或许能让训练效果保持长期的高效率。
说到底，这项研究最让人觉得有意思的地方，并不在于它在数学题目上提升了几个百分点的成绩，而在于它揭示了一个朴素但重要的道理：让AI变得更聪明，未必需要更多的计算资源或者更复杂的数学技巧，有时候只需要一个简单的引导——告诉它"换个思路试试"。这种思路某种程度上呼应了人类学习的本质：一个好老师不是给学生标准答案，也不是让学生反复做同一道题，而是引导学生从不同角度思考问题。研究团队用一种巧妙的工程方法，把这种"启发式教学"的智慧成功地应用到了AI训练中。
对于普通读者来说，这项研究的意义也许不会立即体现在日常生活中，但它代表了AI发展的一个重要方向——从"暴力堆资源"转向"巧妙引导"，从"提供答案"转向"鼓励探索"。这种转变意味着未来的AI训练可能会更加经济、更加灵活，普通的研究团队和小公司也能训练出强大的AI模型，而不需要烧掉天价的计算资源。如果你对这项研究感兴趣，可以通过论文编号arXiv:2605.15726在arXiv网站上查阅完整内容，研究团队也在GitHub上公开了代码，欢迎进一步探索。
最后留个问题给你思考：如果连AI学习都需要"换个思路"才能突破瓶颈，那么我们自己在学习和工作中遇到困境时，是不是也应该多给自己递几张"思路小纸条"，强制自己尝试一些原本不会考虑的方向呢？
Q&A
Q1：策略助推方法到底是怎么让AI变聪明的？
A：策略助推的核心做法是在每次让AI解题时，预先分配一个具体的解题方向作为提示，比如"试试用归纳法"或"考虑函数方程"。这样强制AI走出它熟悉的思维舒适区，去尝试不同的解题路径。这些方向性的提示由一个便宜的语言模型一次性生成好，不包含答案也不需要验证，仅仅起到引导多样性的作用。配合一半概率撤掉提示的机制，AI既能学到新思路，也能保留独立思考的能力。
Q2：为什么用八份报告的新方法能打败用六十四份报告的旧方法？
A：关键在于报告的多样性而非数量。旧方法虽然写了六十四份报告，但因为AI倾向于使用熟悉的思路，这六十四份本质上是同一种方法的重复变体，浪费了大量计算资源。新方法虽然只写八份，但每份都被强制走不同的解题路径，覆盖的思路范围反而更广。实验也显示旧方法在三十二份达到顶峰后，到六十四份时表现还会下降，说明单纯堆数量已经失去意义。
Q3：策略助推方法和那些用标准答案做提示的方法相比有什么优势？
A：用标准答案做提示的方法（比如POPE）依赖昂贵的强大模型生成标准答案片段，成本很高且难以规模化。更关键的是，标准答案会把AI引导向一条特定的解题路径，限制了思路多样性。策略助推用的是廉价生成的关键词级提示，不包含任何答案信息，只指引方向。实验显示这种"弱监督"反而效果更好，因为它鼓励AI探索多种思路，而不是模仿一条固定路径。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

少年开发者进入AI实战场，2026华为云少年开发者人工智能大赛决赛在沪举行

OpenAI造“星际之门”、马斯克送算力“上天”，中国AI基建走出了一条什么路？

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文

全站最新

少年开发者进入AI实战场，2026华为云少年开发者人工智能大赛决赛在沪举行

OpenAI造“星际之门”、马斯克送算力“上天”，中国AI基建走出了一条什么路？

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

热门推荐

华能新能源在勐海成立新公司

红星美凯龙加速布局地级市家电市场，首发经济成撬动行业转型新支点

麻省理工博士归国创业29载，雷赛智能借人形机器人东风市值破230亿

少年开发者进入AI实战场，2026华为云少年开发者人工智能大赛决赛在沪举行

OpenAI造“星际之门”、马斯克送算力“上天”，中国AI基建走出了一条什么路？

边投AI边减持？腾讯被曝拟套现超百亿港元后，快手确认大股东出售2.7亿股

中信证券等在青岛成立合伙企业

智元机器人家族集结！覆盖七大场景引领通用具身智能新潮流

具身智能浪潮涌动，上海智元世界模型夺冠引领产业新飞跃

深夜突发！腾讯大幅减持快手！

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

活力中国调研行｜浦江之畔，看机器人加速突围

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文