清华发现：让AI自己出"模拟题"，数学竞赛题的正确率飙升了4分

IP属地中国·北京 科技行者 时间：2026-05-28 22:15:51

这项由清华大学跃迁实验室（LeapLab）与清华大学求真书院联合开展的研究，于2026年5月发表在预印本平台arXiv上，论文编号为arXiv:2605.22074。有兴趣深入了解的读者可以通过该编号查询完整论文。
教一个孩子解数学难题，最笨的办法是什么？把题目直接扔给他，做对了夸一句，做错了骂一顿，然后期待他下次就会了。任何有经验的老师都知道，真正有效的教学方式应该是把一道大题拆成几道小题，让孩子一步一步爬楼梯，在每一级台阶上都得到反馈，逐渐积累信心和能力，最终独立完成那道原本看似高不可攀的难题。
这个道理适用于人类学生，同样适用于人工智能。清华的研究团队发现，目前主流的AI数学训练方式，正在犯"把难题直接扔给学生"这个经典错误。他们提出了一套名为SCRL（子问题课程强化学习）的新训练框架，用"出模拟题"的方式帮AI爬楼梯，让它在挑战奥林匹克级别数学难题时，平均成绩提升了整整4.1分——这在AI研究领域是相当显著的进步。
一、AI学数学：为什么"做对了给糖，做错了不给"的方法失效了
要理解这个研究解决的问题，需要先明白当前AI是怎么学数学的。目前最流行的方式叫做"基于可验证奖励的强化学习"，英文缩写是RLVR。你可以把它理解成一种非常直接的训练机制：AI做一道题，如果最终答案对了，就给它一颗糖（正向奖励）；如果答错了，就什么都不给。AI在无数次做题、获奖或落空的循环中，逐渐摸索出解题的规律。
这套方法在中等难度的数学题上效果不错。但当遇到真正的硬骨头，比如美国数学奥林匹克邀请赛（AIME）或国际数学奥林匹克（IMO）级别的题目时，这套方法就哑火了。原因很简单：这些题太难了，AI几乎每次都做错，一颗糖都拿不到。训练系统从没见过"做对了"是什么样子，自然也就无从学习。
更糟糕的是，哪怕AI做了一道题，差一点点就要答对了，这套系统也完全无法识别"差一点"和"差十万八千里"之间的区别。在它眼里，所有错误都是一样的错误，没有任何中间反馈。就好像一位老师批改作文，无论学生写得是90分水平还是20分水平，只要不满分，通通给零分——这样的反馈方式根本无法帮助学生进步。
研究团队把这个现象叫做"梯度死区"。从数学角度解释，当AI几乎每次都做不对某道题时，用来更新AI参数的"学习信号"会趋近于零，AI陷入一种停滞状态，无论怎么练习都无法从这道题上学到任何有用的东西。
面对这个困境，研究人员之前尝试过两种补救方案。第一种是直接给AI"抄作业"——把正确的解题过程展示给AI，让它模仿着学。这种方式类似于老师直接把答案告诉学生，虽然短期内有效，但学生永远不会真正理解解题思路，一旦换个题型就抓瞎。第二种是给AI一些"提示前缀"——把正确解答的前几步直接塞给AI，让它只负责完成剩余部分。这就像是老师已经帮你做完了前三步，只让你做第四步。学生练的是"接盘"而非"从零开始"，能力提升自然有限。
清华团队认为，这两种方案都是在回避问题而非真正解决问题。他们想找到一种方式，让AI保持完全自主探索的同时，也能从每一次"虽然没做对但已经做到第几步了"的尝试中获得有意义的学习信号。
二、"分级模拟题"的灵感：从数学竞赛的出题方式说起
清华团队的灵感来自一个非常直观的观察：数学竞赛的题目往往不是单一问题，而是一道分成四个小问的综合题。第一问最简单，第二问稍难，第三问更难，第四问就是最终的核心难题。每做对一个小问，你都能拿到分数，而且前一问的结果往往是解下一问的基础。
这种结构设计极其精妙。它让参赛者即使解不出最后一步，也能凭借前几步的正确推导拿到部分分数。对于出题者来说，这四个小问共同引导着学生一步步深入核心知识点，难度层层递进，形成了一个自然的学习路径。
SCRL框架完全借鉴了这个思路。给定一道难题和它的参考解题过程，系统会用一个外部语言模型（扮演"课程设计师"的角色）从解题过程中提炼出四个渐进式的子问题。这四个子问题难度递增，后面的问题以前面问题的结论作为铺垫，但每个问题本身又是独立完整的，有明确的、可以自动验证对错的答案。最重要的是，第四个子问题就是原始的难题本身。
AI在训练时面对的不再是孤零零的一道难题，而是一份"四题连环卷"。它需要按顺序作答，在一次连续的推理过程中解决全部四道题。每道题的答案都夹在特殊标签之间，系统可以分别验证每道题的对错。
这个设计有一个非常关键的地方：AI解题时并没有得到任何"提示"或"前几步的答案"。四个子问题都是以完整独立的问题形式呈现的，AI必须完全依靠自己的能力从第一题做到第四题，所有的推理步骤都是自己生成的。这就避免了之前"给提示"方案的核心缺陷——AI练的永远是完整的、自主的解题能力，而不是"接着别人的思路继续做"的能力。
三、"只算连续答对的题"：一个防作弊的关键设计
子问题分解解决了"学习信号太稀疏"的问题，但随之而来了一个新麻烦：如果AI在第一题和第二题都做错了，却碰巧猜对了第三题，这个第三题的正确答案应该给奖励吗？
清华团队认为不应该。因为在正常的解题逻辑中，第三题的正确答案是建立在第一、二题的正确结论之上的。如果前两步都是错的，第三步"碰巧对了"只是一种误打误撞，不代表AI真正掌握了这一步的推理。奖励这种"运气好的错误"反而会给AI错误的导向，让它学会通过猜答案来骗取奖励，而不是真正理解解题逻辑。
因此，SCRL引入了一个叫做"进度感知修正"的机制。系统只承认AI"连续从第一题开始答对"的进度。如果AI答对了第一、二题，但第三题答错了，那第四题即使答对，也不计入有效成绩。换句话说，如果AI的答题情况是"对、对、错、对"，系统会把它视为"对、对、错、错"来处理。
这就好比一场接力赛：只有当你成功把接力棒传给下一个人，下一个人的奔跑才算有效。如果第三棒选手摔倒了，即使第四棒跑得再快，也于事无补，比赛在那一刻就已经失败了。
这个设计彻底堵住了AI通过"跳跃式猜题"来刷分的漏洞，确保奖励信号真正对应着有效的推理进步。
四、"按位置打分"：比以前的方式精细了整整一个维度
解决了"哪些答案算数"的问题之后，还剩下一个核心技术问题：怎么把每道子题的分数，精确地反馈给负责生成那道题答案的具体文字？
在之前的GRPO方法中，整道题的最终得分被"平摊"给这道题解答中的每一个字。无论是解题过程中的关键推导，还是无关紧要的废话，都收到同等程度的奖励或惩罚。这就像一位导演在评价一部电影时，不管哪个场景，一律给出同样的评价——演员、摄影、配乐全部不区分。显然，这种粗糙的反馈无法指导团队改进真正需要改进的地方。
SCRL提出了"子问题级别归一化"的方法，让反馈精细了整整一个维度。系统分别对四个子题各自打分，比较同一组AI生成的多个解答在第一题上谁表现更好、在第二题上谁表现更好，以此类推。然后，每道子题的独立评分，只被反馈给生成那道子题答案的那段文字。
这样做的结果是，第一题推导写得好的部分，会得到针对第一题的专属奖励；第三题解答写得差的部分，会得到针对第三题的专属惩罚。AI能以更高的精度了解到自己的哪些推理步骤是有价值的，哪些是走弯路的。
五、"两套卷子同时练"：防止AI忘记怎么答原题
到这里，系统还面临最后一个实际问题：AI在训练中反复练的是"四题连环卷"格式，但在真正考试时，它面对的是原始的单题格式。如果训练和测试的题目形式差异太大，AI可能会慢慢"忘记"怎么直接回答单道难题，而变得只会答格式化的多题卷子。
为了防止这种情况，SCRL采用了"混合训练"的策略。每次训练时，系统同时给AI布置两种作业：一半是"四题连环卷"格式的课程题，用子问题级别的精细反馈来训练；另一半是原始的单题格式，用传统的整体打分方式来训练。两种训练在同一次参数更新中共同发挥作用。
这就像一位高考生的复习计划：一部分时间做分解练习，专注于每个知识点；另一部分时间做完整的模拟卷，保持对全题的整体感觉。两者缺一不可，相互补充。
六、数学证明：为什么这个方法理论上一定有效
研究团队不满足于仅仅用实验结果说话，他们还从数学角度严格证明了SCRL有效的根本原因。
核心思路是这样的。在数学上，可以用一个叫做"有效梯度信息矩阵"的量来衡量AI从一道题上能学到多少东西——矩阵的最小特征值越大，学习信号就越强，AI进步得越快；如果这个值趋近于零，AI就陷入了"梯度死区"，学习停滞。
研究团队用定理严格证明：当一道题对于当前AI来说太难，正确率接近零时，直接在这道题上训练的学习信号也会趋近于零，印证了"梯度死区"的存在。与此对应，另一个定理证明：只要子问题的正确率比原题高（这是课程设计的基本前提），在子问题上的学习信号就能保持在一个有意义的正值上，从根本上跳出死区。更精妙的是，原题越难（正确率越低），子问题方法相对于直接训练的优势就越大——这在数学上体现为恢复比率是原题正确率的倒数级别。
简单类比：一道每100人中只有1人能答对的极难题，用子问题方法训练的效果比直接训练好约100倍的量级；而一道每10人中有1人能答对的中等难题，优势只有约10倍。越是绝世难题，这套方法就越是关键。
七、实验结果：在七个数学竞赛基准上全面领先
理论证明完成后，研究团队进行了大规模的实验验证。他们使用了两种主流的大语言模型：阿里的Qwen3系列（包括4B和14B参数量的版本）以及Meta的Llama 3.2系列（3B参数量版本），在七个数学推理基准上进行了全面测试，这七个基准涵盖了从相对较难的奥林匹克数学题（OlympiadBench）到顶级竞赛题（AIME 2024、AIME 2025、IMO-Bench）的完整难度谱系。
在中等规模的Qwen3-4B模型上，SCRL的表现最为突出。在七个基准上的平均分，SCRL达到了35.0%，而同样的模型用传统GRPO方法训练只有30.9%，差距达到4.1个百分点。和最强的竞争方法QuestA（32.0%）相比，SCRL还领先了3.0个百分点。在最难的AIME 2025上，SCRL取得了15.3%的成绩，而QuestA只有11.7%，传统GRPO更是只有7.2%。
在更大规模的Qwen3-14B模型上，SCRL同样取得了最高的平均分38.3%，比GRPO的36.4%提升了1.9个百分点。
除了"做一次能不能做对"（pass@1）这个指标，研究团队还测试了pass@64，即给AI64次机会，只要有一次做对就算成功。在这个反映AI"探索能力"的指标上，SCRL的提升更加明显——在三个最难的基准（AIME24、AIME25、IMO-Bench）上，pass@64比GRPO提升了4.6个百分点，说明SCRL训练的AI不仅在常规情况下表现更好，在面对极难问题时也具备更强的探索和尝试能力。
训练过程中的数据也很能说明问题。研究人员追踪了AI能够解决的题目数量随训练进行的变化。SCRL训练的AI解题能力扩展得更快，最终能覆盖的题目范围也比GRPO更广，而且这种能力的提升并不只体现在"课程格式"的题目上，在原始的单题格式下同样有所改善，说明课程训练的收益真实地迁移到了实际解题能力上。
八、不依赖顶级AI出题，弱一点的模型也能用
这个研究框架有一个潜在的担心：生成子问题需要用外部语言模型，如果这个"出题模型"水平不高，生成的子问题质量差，整个系统还能工作吗？
研究团队专门对此进行了测试。他们分别用顶级的DeepSeek-V3.2和较弱的Qwen3-4B-Instruct（与被训练的模型同等规模）来生成子问题，然后在同样的训练管线下进行对比。结果发现，用弱模型生成子问题时，SCRL依然比传统GRPO高出2.7个平均分；用强模型生成子问题时，提升幅度进一步扩大到3.9个平均分。
这说明SCRL框架本身的有效性并不依赖于一个特别强大的外部出题模型，弱模型生成的子问题哪怕质量一般，也足以提供有意义的课程结构。当然，更好的出题模型能带来更大的收益，但这不是系统运作的必要条件。
九、细节验证：删掉任何一个设计都会变差
研究团队还做了一系列"拆零件"的实验，验证系统中每个设计决策的必要性。
第一个测试是去掉"进度感知修正"机制，允许第三、四题即使在前面做错的情况下也能获得奖励。结果平均分从44.2降到了41.9，说明这个防作弊机制是真实有效的，不只是理论上好看。
第二个测试是把"子问题级别打分"换回"整体打分"，即虽然出了四道子题，但仍然只在意最后那道原题对不对，课程题只是作为辅助格式使用。结果平均分变成了43.9，比完整版SCRL的44.2略低，但比没有课程的GRPO的40.3仍然高出不少。这说明仅仅是把难题拆开来问，让AI练习多步推理，本身就有一定价值；但精细到子题级别的信用分配，能在这个基础上进一步提升性能。
第三个测试是改变子问题的数量K。当K从默认的4降低到3或2时，性能都有所下降，但即使只有K=2（只有两道子题），也仍然比单纯的GRPO要好。K越大，AI在每次练习中能获得学习信号的机会就越多，但同时也对AI提出了更高的要求，需要它连续答对更多题。K=4是研究团队认为最合适的平衡点。
十、超出数学领域：在代码生成和科学问答上也有提升
研究成果不仅限于数学领域。研究团队还把用SCRL训练的Qwen3-14B模型放到了三个完全不同的任务上进行测试：科学知识问答（GPQA）、代码生成（HumanEval）和竞争性编程（LiveCodeBench v6）。
结果显示，SCRL在这三个任务上的平均分为51.67，而传统GRPO只有48.37，原始未训练的基础模型是47.20。三项任务中SCRL分别比GRPO高：GPQA高4.55分（41.41对36.86）、HumanEval高4.87分（89.02对84.15）、LiveCodeBench高0.47分（24.57对24.10）。
这个结果说明，SCRL训练的不是针对特定题型的技巧，而是一种更底层的、可迁移的多步推理能力。这种能力在需要分步骤解决问题的任务中普遍有效，无论问题是数学、科学还是编程形式的。
说到底，清华团队做的这件事可以用一句话概括：他们教会了AI自己给自己出练习题，而且出的练习题质量还不错。通过把一道大难题拆成四道递进的小题，AI终于有机会在每一次练习中获得有意义的反馈，而不是在无尽的失败中原地打转。
这对普通人的意义是什么？最直接的影响是：未来的AI数学助手和通用推理AI将会更擅长处理真正困难的问题，而不仅仅是常见题型。当你遇到一道棘手的证明题或复杂的工程计算时，AI提供帮助的能力将会明显增强。更深远的影响在于，这套训练思路不限于数学，可以推广到任何需要多步骤推理的领域，比如法律分析、医学诊断、软件调试等。
当然，这套方法也有它的局限性。构建子问题需要依赖外部语言模型来辅助，增加了训练前的准备工作量。此外，子问题必须有明确可验证的答案，对于那些没有标准答案、需要主观判断的开放式任务，这套方法目前还不太好用。
一个有趣的延伸思考是：AI替自己设计练习题这件事，其实和人类学习中"费曼技巧"有异曲同工之妙——真正理解一个知识点的标志，是你能把它分解并讲解给别人听。SCRL让AI在某种意义上做到了这一点：通过理解一道难题的解题结构，把它转化为一系列可以一步步验证的子目标。
有兴趣进一步了解技术细节的读者，可以在arXiv上搜索论文编号arXiv:2605.22074，获取完整的原始论文。
Q&A
Q1：SCRL方法中的"子问题"是AI自己想出来的，还是人工设计的？
A：子问题是由外部语言模型（如DeepSeek-V3.2或Qwen3-4B-Instruct）根据原题的参考解答自动生成的，不需要人工逐题设计。生成时需要提供原题、标准答案和参考解题过程，外部模型会从解题步骤中提炼出四个难度递进的子问题，整个过程是离线自动完成的。
Q2：SCRL训练出来的模型，回答问题时还会出现那四个子问题的格式吗？
A：不会。SCRL采用了"混合训练"策略，一半训练用带子问题格式的课程题，另一半用原始单题格式。测试时使用的也是标准的单题提示格式，模型会直接给出最终答案，不会带有子问题的标签结构。子问题格式只在训练过程中出现，不影响最终使用时的对话体验。
Q3：SCRL和直接给AI看正确解题过程（监督微调）相比，哪个效果更好？
A：从实验数据看，SCRL整体优于监督微调（SFT）。以Qwen3-4B为例，SFT的平均分是28.0，而SCRL达到35.0，领先了整整7分。监督微调让AI记忆标准答案，而SCRL让AI在自主探索中学习推理结构，两者培养的能力有本质区别，在面对新题时SCRL训练出的模型泛化能力更强。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

全站最新

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

热门推荐

社评：面对人工智能时代之问，世界期待中国方案

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

英矽智能创始人：中国让人工智能惠及全球更多国家

字节两员离职大将，单挑老东家？

阿维塔07L开启预售：全系标配华为ADS 5与896线激光雷达，24.99万元起

对话|大晓机器人董事长王晓刚：商业化落地路径采取先To B后To C

大盘回撤银行股逆势抗跌，分红创新高后行情延续性几何？

紫银转债迎最后交易日，未转股比例高达99.99%，青农转债接棒大考

飞天茅台i茅台零售价涨至1639元/瓶，1L规格同步上调

安克充电宝首批获新国标认证，26年全线新品同步跟进