当前位置: 首页 » 资讯 » 科技头条 » 正文

普渡大学团队找到了让AI"越学越聪明"而不是"越学越死板"的秘诀

IP属地 中国·北京 科技行者 时间:2026-05-18 22:15:44


这项由美国普渡大学(Purdue University)研究团队完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2604.26326,有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有见过这样的学生:刚开始学一门课时进步飞快,但学到一半就突然停滞不前,不管再怎么刷题、再怎么复习,成绩就是上不去了?这种"撞墙"现象在人类学习中很常见,但你可能没想到,当下最先进的人工智能在接受强化学习训练时,也会遭遇完全一样的困境——研究者们把它叫做"性能饱和"。

普渡大学的研究团队发现,造成这种困境的根本原因,在于AI在学习过程中逐渐丧失了"探索欲"。为了解决这个问题,他们提出了一套叫做 Entrocraft 的新方法,核心思路出人意料地简单:通过精确控制AI的"好奇心曲线",让它在整个训练过程中保持恰到好处的探索状态,既不过于保守,也不过于散漫。

实验结果相当亮眼——用这套方法训练出来的40亿参数模型,在数学推理竞赛题目上的表现超过了用传统方法训练的80亿参数模型。换句话说,同样花一笔钱训练AI,用了新方法可以用一半的"脑子"做出更好的成绩。不仅如此,AI的持续改进时间延长了4倍,解题的多样性提升了50%。

一、AI为什么会"越学越死板"?

要理解这项研究解决的是什么问题,先从一个生活场景说起。

假设你在学打麻将。刚开始时,你什么牌型都愿意尝试,有时候打清一色,有时候打混合牌,甚至故意去试一些奇怪的打法。正是因为这种"乱试",你才慢慢摸清了各种牌型的优缺点,技术进步很快。但如果某一天你发现"摸到什么打什么"这种最保守的打法胜率还不错,你就开始只走这条路,再也不愿意尝试其他方式。于是你的技术就停滞了——你不是没有潜力,而是主动放弃了探索。

AI的强化学习训练过程和打麻将非常相似。AI会生成很多种回答(就像试验不同的打牌方式),然后根据哪些回答得到了好的奖励,调整自己以后更多地产生这类回答。这个过程的关键在于平衡"探索"和"利用":探索是指尝试新的、不确定的方向;利用是指坚持已经知道有效的策略。

当AI越训练越好,它会越来越频繁地生成它"最擅长"的那种回答,慢慢地,它只会走那几条固定的路,而彻底放弃探索。研究者用"熵"来衡量这种探索能力的高低——熵越高,代表AI的回答越多样,探索能力越强;熵越低,代表AI越来越只会走固定套路。"熵崩溃"就是指AI在训练过程中探索能力急剧下降,最终陷入僵局。

二、别人是怎么试图解决这个问题的,又为何不够好?

研究界当然不是没注意到这个问题。在这项研究之前,已经有不少团队提出了各种"防止AI变死板"的方法,大致可以分成三类。

第一类方法是在训练目标里加一条额外的惩罚规则,说白了就是告诉AI:"如果你的回答变得太单调,我要扣你分。"这就像强迫学生必须每隔一段时间交一篇不同类型的作文,否则期末成绩会被扣分。这种方法确实能让AI保持一些多样性,但问题是它改变了原本的训练目标,而且控制粒度很粗——你只能说"不要太单调",却没法精确控制"应该多单调"。

第二类方法是"裁剪"技术,意思是把那些AI特别自信的回答直接剔除掉,不让它们参与训练更新。道理是:AI越自信的回答,越会加速它的"固化"。这就像不让考试成绩特别好的同学只复习他已经擅长的内容,而是强迫他也练练薄弱科目。这类方法的代表有DAPO、Clip-Cov等。这些方法确实有效,但同样只是间接地影响熵的变化,没办法精确地说"我要让熵在第100步是0.6,第200步是0.5"。

第三类方法把正确回答和错误回答分开处理。研究发现,AI对错误回答的学习("知道自己哪里错了")反而有助于提升探索能力,所以有些团队设计了专门调节正确/错误学习比例的机制,代表方法有W-Reinforce和EntroPIC。其中EntroPIC已经能让熵收敛到一个目标值,是目前最接近"精确控制"的方法,但仍然只能做到"最终稳定在某个值",无法指定一条具体的曲线让熵沿着走。

普渡大学团队看到了这些方法共同的短板:它们都是通过修改训练规则来间接影响熵,而不是直接控制熵本身。这就像你想把室温精确控制在22度,但你能做的只是拉开窗帘、穿件毛衣、开一会儿空调——这些都有帮助,但你没有一个精确的温控系统。结果就是,在训练的中期和后期,熵的曲线往往忽高忽低,极不稳定,训练效果也随之起伏。

三、"好奇心"到底是怎么变化的?理论先行

在设计解决方案之前,研究团队做了一件很重要的事:把"熵是如何变化的"这件事彻底搞清楚,给出了严格的数学证明。这一部分是整篇研究的理论基础。

他们想弄清楚两个核心问题:每次训练更新之后,熵会变大还是变小?变化幅度受什么影响?

研究团队推导出了两个定理。第一个定理针对单个词(也叫"token",就是AI每次生成文字时输出的最小单位)的熵变化规律。第二个定理则把分析扩展到整个回答序列的层面。两个定理得出了一致的结论,可以用一句话来概括:如果AI对某个回答/词语的评价是"好的"(即优势分数为正),那么学习这个回答之后,AI的探索能力(熵)就会下降;反之,如果是"差的"回答,学习之后熵会上升。而且,AI对这个回答越有把握(概率越高),这种熵的变化就越剧烈。

换句话说,AI越学越固执是有其内在逻辑的:因为正确的回答通常是AI已经比较熟悉、比较自信的,学习这些回答会加速固化;而且随着训练进行,AI的"正确率"越来越高,几乎每一步都是在学"好的回答",熵就不断下降。

研究团队还做了一个实验来验证这个理论的关键前提。理论成立需要一个条件:AI对它生成的那些回答要有"足够高的信心"。他们在三种不同类型的训练设置下(只有正面回答、正负混合、只有负面回答)都测量了AI的信心水平,发现无论哪种设置下AI的信心都远高于理论中的阈值,这就证明了定理在实际训练中是普遍适用的。

此外,他们还发现了一个有趣的现象:即使使用"正负平衡"的训练方式(比如GRPO,这是目前业界最主流的强化学习算法之一),熵依然会下降。原因在于:AI对正确回答的信心系统性地高于对错误回答的信心,所以正确回答对熵的"拉低效果"始终占主导地位。

这套理论不仅解释了为什么现有方法的熵曲线会不稳定,也给出了"如何精确控制熵"的思路:既然正面回答会降熵、负面回答会升熵,那么通过选择性地决定哪些回答参与训练,就可以直接控制熵的走向。

四、Entrocraft:用"筛选"而不是"修改规则"来掌控好奇心

理论清楚了,Entrocraft的设计思路自然水到渠成。

核心操作出奇地简单:在每一轮训练之前,先量一量当前AI的"好奇心水平"(即当前熵值),然后对比一下它是否处于预设的目标范围内。如果当前熵太低(AI太固执),就把这一轮里那些"正确回答/正面评价的回答"从训练样本里剔除出去,只用那些"负面评价的回答"来更新AI。根据理论,这样做会让熵上升,恢复AI的探索能力。如果当前熵太高(AI太散漫),就反过来,剔除负面回答,只保留正面回答,让熵降低一些。如果熵在目标范围内,就正常训练,什么都不做。

这就像一位厨师在做一锅汤,不断用勺子尝味道,酸了就加糖,淡了就加盐,而且每次只加很少量,保证味道始终在最佳区间内波动。与之前那些方法相比,Entrocraft的高明之处在于:它不改变任何训练目标,不修改任何数学公式,只是在"选择用哪些食材"这一环节上做文章。这也意味着它可以无缝地搭配任何现有的强化学习算法——不管你用的是GRPO、GSPO还是其他什么算法,直接在上面加上Entrocraft就行,就像给汤碗换个滤网。

被剔除的回答不会参与梯度计算(也就是说不会影响AI的权重更新),所以实际的计算量不增反减——只有通过筛选的回答才需要计算。研究中也记录了实际有效训练样本数量的变化,结果显示随着AI越来越好,负面样本越来越少,每次触发筛选时实际使用的样本量也逐渐减少,这和理论预测完全一致。

五、光能"稳住"还不够,还要能"画曲线"

掌握了精确的熵控制工具之后,研究团队意识到他们面对的是一个全新的问题:什么样的熵曲线才是最好的?

这个问题以前从来没有人能系统性地研究,因为没有足够精准的控制工具。以前大家只能说"熵高一点比熵低一点好",但具体高多少、保持多久、什么时候可以降下来,完全没有定论。Entrocraft第一次让这种系统研究成为可能。

研究团队尝试了三种不同的熵曲线策略。第一种是固定目标,也就是全程把熵维持在某一个固定值(比如0.5)。这种方式在短期内很好用,但实验显示在训练到大约20万个样本之后,它开始变得不稳定,熵曲线剧烈震荡,训练效果也随之下降。原因在于:随着AI越来越好,能产生负面评价的回答越来越少,每次需要"拉高熵"时可用的素材奇缺,导致操作非常粗糙,就像厨师想往汤里加盐但盐罐几乎空了,每次加盐的量控制就非常不精准。

第二种是余弦衰减,也就是让熵的目标值按照余弦函数的形状慢慢降低,前期降得慢,后期也降得慢,中间降得最快。第三种是线性衰减,也就是让熵均匀地从一个较高的初始值(比如0.6-0.7)直线下降到一个较低的终点值(比如0.1-0.2)。

对比实验的结论很清晰:两种衰减方案都比固定目标稳定得多,训练可以持续推进到40万样本以上而不出现崩溃。而线性衰减略优于余弦衰减,最终在数学竞赛基准上的成绩也最高。

背后的逻辑其实很直观:随着AI越学越好,正确解法越来越多,保持高熵需要越来越稀缺的负面样本来支撑,这本身就是一种不稳定的状态。与其硬撑着让熵维持高位,不如顺势让它温和地下降——在早期充分探索,在后期逐渐收敛,这才是一条既充分利用探索能力、又不至于把训练搞垮的理想曲线。

六、实验结果:数字说话

研究团队用一系列数学推理竞赛题来检验Entrocraft的实际效果,测试集包括AMC-23(美国数学竞赛)、AIME-24、AIME-25、AIME-26(美国数学邀请赛,难度更高)和MATH-500(500道数学题的综合测试集)。每道题让AI独立作答32次,统计它回答正确的平均比例(mean@32)以及至少答对一次的比例(pass@32)。

基础实验中,以GRPO为底座加上Entrocraft的方案,在AIME-25上的平均正确率从原始GRPO的8.9%提升到15.1%,pass@32从40.0%提升到46.7%;在MATH-500上平均正确率从75.3%提升到79.0%,pass@32从89.4%提升到93.0%。与此同时,其他的熵控制方法(Clip-Higher、Clip-Cov、Entropy Loss、W-Reinforce、EntroPIC)的提升幅度都明显小于Entrocraft,差距尤其在AIME这类难题上最为显著。

模型规模对比实验的结果是整篇论文最让人印象深刻的部分之一。用GRPO加Entrocraft训练的40亿参数模型,在AIME-25上的mean@32达到了约14.5%,而用普通GRPO训练的80亿参数模型只有约14.4%。更小的模型、更少的计算资源,反而做出了更好的成绩——这直接说明,训练方法的质量在某些情况下比模型规模更重要。

在推理时间扩展实验里,研究团队观察了当你给AI更多次作答机会时(从pass@1到pass@32)成绩的变化趋势。Entrocraft训练出的模型,pass@K的增长速度明显快于普通GRPO训练的模型,说明Entrocraft成功防止了AI"只会那几种解法"的问题,让它在每次作答时都能探索不同的路径。

长期训练对比实验则展示了Entrocraft在时间维度上的价值。标准GRPO在训练10万个样本后基本就停止进步了,之后的训练几乎没有额外收益。加上Clip-Higher或Clip-Cov之后,停滞得稍晚一些,但最终在30-40万样本附近同样开始出问题。而Entrocraft(线性衰减方案)的模型一直到40万样本时还在持续进步,而且Clip-Cov在30万样本后还出现了性能回退(对应着那个时间点的熵爆炸),而Entrocraft的熵曲线始终平稳,没有出现任何异常。

研究团队还测试了其他规模的模型,包括Qwen3-8B-Base、Qwen3-14B-Base和Llama-3.1-8B-Instruct,结果显示Entrocraft在所有这些模型上都能带来稳定的提升,说明这个方法不是针对某个特定模型的"特异性优化",而是一个具有普遍适用性的训练工具。

七、这项研究的边界与未来

在充分展示优势的同时,研究团队也坦诚地讨论了这套方法目前还不够完美的地方。

目前所有实验都集中在单轮对话的数学推理任务上,使用的是相对密集(非稀疏)的神经网络架构。但现实中越来越多的应用场景涉及多轮对话(AI需要和用户来回交互才能完成任务)以及混合专家(MoE)架构的模型。在这些更复杂的场景中,熵的不稳定问题会更加严重,而当前版本的Entrocraft并没有针对这些场景做专门设计。研究团队表示,将这套方法扩展到多轮对话和MoE架构是他们接下来的重要研究方向。

此外,研究还揭示了一个有趣的边界效应:并不是熵越高越好。当研究团队尝试把熵的目标值设得过高(比如维持在0.6-0.7这个范围)时,反而会造成训练的剧烈不稳定——KL散度(衡量AI现在和以前有多不一样的指标)急剧飙升,模型的表现也变得极不可靠。这说明"适度探索"才是关键,探索过度和探索不足一样有害。这也正是为什么线性衰减方案效果最好——它从足够高的起点出发,给早期训练提供充足的探索空间,同时随着训练推进而逐步收敛,避免后期的不稳定。

归根结底,这项研究的价值不仅仅在于提出了一个有效的具体方法,更在于它开辟了一种全新的思维角度:把"探索能力的变化曲线"当作一个可以主动设计的训练超参数,就像调整学习率的变化曲线一样,而不是被动地观察和应对。随着AI训练规模越来越大、训练时间越来越长,这种精确控制能力的重要性只会与日俱增。

Q&A

Q1:Entrocraft和GRPO的区别是什么?

A:GRPO是目前主流的大模型强化学习算法,Entrocraft并不是它的替代品,而是一个可以叠加在GRPO(或其他任何强化学习算法)上的附加模块。Entrocraft的核心操作是在每次训练更新前,根据当前AI的探索能力(熵)水平,有选择地过滤掉一部分训练样本,从而精确控制熵的变化方向和幅度。加了Entrocraft的GRPO,在所有测试任务上的表现都优于单独的GRPO,而且不需要修改任何训练目标或损失函数。

Q2:为什么强化学习训练AI时熵会自然下降?

A:核心原因在于AI对正确回答的信心系统性地高于对错误回答的信心。理论证明,学习"高评价、高信心"的回答会降低AI的探索能力(熵),而训练越进行,这类回答就越多、AI对它们越自信,熵下降的趋势就越不可阻挡。即使使用了正负平衡的训练设计,正确回答的高信心依然会让它们对熵的拉低效果压过负面回答的拉高效果,最终导致熵崩溃。

Q3:线性衰减的熵曲线为什么比固定熵目标效果更好?

A:固定熵目标要求在训练的所有阶段都维持同一个探索水平。但随着AI越来越好,能产生负面评价的回答越来越少,每次需要"拉高熵"时可用的样本越来越稀缺,操作精度大幅下降,训练变得不稳定。线性衰减则顺应了训练过程的自然规律:前期探索需求高,给较高的熵目标;后期模型已经比较成熟,允许熵适度降低,同时避免了因负面样本稀缺而导致的操作失控。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。