当前位置: 首页 » 资讯 » 科技头条 » 正文

南加州大学:AI实现举一反三式推理能力提升突破

IP属地 中国·北京 科技行者 时间:2026-05-19 22:18:51


这项由南加州大学研究团队完成的研究发表于2026年5月,论文编号为arXiv:2605.12466v1,感兴趣的读者可以通过该编号查询完整论文。

在过去几年里,以ChatGPT、Claude为代表的大型语言模型彻底改变了人们对人工智能的认知。然而,这些模型在处理每一个问题时,都像是一口气冲刺完成的——无论问题简单还是复杂,模型都用固定的步骤、固定的计算量走完全程,然后给出答案。这就好比一个厨师,不管客人点的是一碗泡面还是一桌满汉全席,都用完全相同的时间和精力去"烹饪",既不能偷懒,也不能加班。

这种设计在大多数情况下运作良好,但在面对真正需要深度思考的问题时,就显得力不从心了。研究者们很早就意识到,如果能让模型在输出答案之前,先在内部"反复琢磨"、逐步改善自己的预测,效果可能会好得多。于是出现了一类被称为"循环架构"或"循环语言模型"的设计思路——让模型像拧螺丝一样,一圈一圈地把答案拧得越来越准。

然而,这条路走起来并不顺畅。让模型反复循环的代价非常高昂:训练时需要记录每一轮循环的中间状态,内存消耗随循环次数线性增长,有时候训练一个循环模型消耗的计算资源,相当于训练一个大十倍的普通模型。更糟糕的是,这类模型往往训练不稳定,而且一旦在推理时多转几圈,表现反而会下降——因为模型在训练时只见过固定圈数的情形。

南加州大学的研究团队提出了一种全新的解决方案,他们称之为"吸引子模型"(Attractor Models)。这个名字来自物理学中的"吸引子"概念——在动力系统中,吸引子是一个系统最终会自然收敛到的稳定状态,就像一个小球无论从哪里滚下,都会最终停在碗底最低的那个点。这项研究的核心思想是:与其让模型一圈一圈地转,不如直接让它找到那个"碗底",也就是迭代过程最终会收敛到的固定点,然后直接在那里解码出答案。

这个想法带来了一系列令人印象深刻的实验结果。在大规模语言建模方面,吸引子模型在140M、370M、770M三个参数量级上全面超越了普通Transformer和现有的循环语言模型基准,同时训练计算量减少了25%到31%,训练内存消耗几乎保持恒定不变。更引人注目的是,一个7.7亿参数的吸引子模型,在性能上超过了一个参数量是它近两倍、训练数据也是它两倍的13亿参数普通Transformer。在极端推理任务上,一个仅有2700万参数、只用约1000个训练样本训练出来的吸引子模型,在"超难数独"和"超难迷宫"两个任务上分别达到了91.4%和93.1%的准确率,而DeepSeek R1、Claude 3.7、GPT o3-mini等顶尖大模型的准确率均为0%。

一、普通AI模型的"固定跑道"困境

要理解吸引子模型解决了什么问题,先要理解现有模型的工作方式。以标准Transformer为例,当你输入一段话请它预测下一个词时,模型会把这段话从头到尾走一遍固定的计算流程,经过若干层处理后吐出答案。这个过程是单向的、固定深度的,不管这个词是高频的"的"还是需要复杂推理才能填对的专业术语,模型花费的计算量是一样的。

为了让模型能够"多想一想",研究者们设计了循环架构。这类架构让模型把同一批参数反复用多次,每次处理的结果作为下一次的输入,就像一位厨师把同一份食材反复翻炒,每次翻炒都使味道更进一步。这样的设计在理论上很有吸引力,现有研究也证明循环架构确实能提升模型在推理任务上的表现。

但是,把这个想法真正落地时,麻烦就来了。训练循环模型时,需要用"时间反向传播"技术把梯度(可以理解为"模型改进自己的方向")从最后一圈传回到第一圈。这意味着每一圈的中间结果都要保存在内存里,圈数越多,内存占用越高,就像一个厨师需要把每次翻炒的照片都保存下来以便复盘——翻炒100次,就要保存100张照片。当循环深度增加时,这种开销会让训练变得不可承受。

更棘手的是"训练与推理不匹配"的问题。模型在训练时被告知"转8圈",它就把自己调整为在第8圈给出好答案。如果推理时转了12圈,模型反而会给出更差的结果,因为它从来没见过"第9圈到第12圈"应该是什么状态。这就好比一个运动员平时只练100米跑,突然要他跑120米,最后20米完全不知道该怎么办。

另一个极端是专门为小型推理任务设计的递归网络,比如TRM(微型递归模型)。这类模型在只有700万参数时表现还不错,但一旦把参数量扩大到2700万,性能反而直接崩溃到0%——研究者将这种现象称为"越大越差",这对于追求可扩展性的AI研究来说是个严重的障碍。

二、吸引子模型:直接找到"碗底"而不是一圈圈往下滚

吸引子模型的核心思路来自一个关键的机制发现:有研究者通过分析循环语言模型的内部运作发现,对于绝大多数词元(token,可以理解为文字的基本单位),循环过程最终都会收敛到一个固定状态——也就是说,无论再循环多少次,输出都不再发生变化。这个观察说明,循环语言模型本质上是在用有限次迭代来近似一个固定点,就像用手推一个碗里的小球,小球最终总会停在碗底那个固定点。

既然循环的终点总是那个固定点,何不直接去找它,而不是一步一步滚过去?这正是吸引子模型的思路——它把迭代过程建模为一个"求不动点"的问题,直接用数学求解器(类似于解方程的工具)找到那个收敛状态,而不是一圈圈展开来算。

吸引子模型由两个模块组成,它们的分工就像一位资深厨师带着一位助理共同完成一道菜。第一个模块叫"骨干模块"(backbone module),由一个较大的Transformer网络担任,它的职责是根据输入文本,快速给出一个初步的"输出嵌入"(output embedding,可以理解为一个初始的答案向量,处于模型的内部表示空间中)。这个初步答案不需要完美,但要有意义、有方向——就像厨师先根据食谱大体估算出菜肴的方向,而不是随机乱猜。

第二个模块叫"吸引子模块"(attractor module),通常是一个更小的Transformer网络,它的职责是对骨干模块给出的初步答案进行迭代精炼,直到找到那个"不动点"——即再怎么精炼结果也不再改变的状态。精炼的方式是反复执行:新的答案 = 吸引子模块(当前答案,初始猜测),直到新旧答案之间的差距小于某个阈值ε,或者达到最大迭代次数为止。

有一个细节非常重要:在每一次精炼中,骨干模块给出的初始猜测都会被重新注入到吸引子模块,以加法的方式叠加在当前状态上。这种设计被称为"持续注入",它的作用是确保吸引子模块始终知道"我的起点是什么",从而防止它漂移到一个与输入无关的固定点。研究者通过消融实验(逐一关掉某个设计来测试它的贡献)证明,如果不进行持续注入,只用99.7%到12.4%的词元能在规定迭代次数内收敛,而采用加法形式的持续注入后,收敛率达到了99.7%,同时困惑度(衡量模型预测准确性的指标,越低越好)也是最优的。

三、用"隐函数定理"让训练内存不再随迭代增长

吸引子模型在工程上的一大优势,来自它独特的反向传播(即训练时计算"模型该怎么改进"的过程)方式。普通循环模型需要记录每一圈的中间结果,圈数越多内存越大。吸引子模型则借助数学中的"隐函数定理"来计算梯度,这个方法的神妙之处在于:它只需要知道最终的不动点状态,就能算出梯度,完全不需要保存中间每一步的结果。

用一个比方来理解:假设你在山里找到了一个湖泊(不动点),你想知道"如果山的坡度稍微改变一下,湖泊会移到哪里"。隐函数定理告诉你,只需要分析湖泊当前位置的地形特征,就能回答这个问题,不需要重新模拟整个水流从山顶流下来的过程。

在实际实现中,研究团队还进一步采用了"一步近似"(one-step approximation)——即用一个非常简单的单步计算来近似精确的隐函数梯度。他们在消融实验中发现,完整的隐函数梯度计算(Anderson方法)比一步近似的验证困惑度只低0.14,但需要4.8倍的训练内存和2.7倍的训练时间。用"中间方案"的幽灵梯度(phantom gradient,展开3步)则需要1.8倍内存和1.4倍时间,改进幅度为0.11。由此,研究团队选择了一步近似方案,以几乎可以忽略的质量损失换取大幅的效率提升。

实验数据显示,当循环深度(循环圈数)从1增加到256时,使用传统回传方式的Parcae模型的峰值训练内存从不足10GB急剧攀升至超过80GB,而吸引子模型的内存始终稳定在约4.18GB附近,几乎是一条平线。这一特性使得吸引子模型在更深的有效循环深度下依然可以正常训练,而不会因为内存不足而崩溃。

四、"平衡内化":模型自学如何让迭代器变得多余

训练完成后,研究者们发现了一个出乎意料的现象,他们将其命名为"平衡内化"(equilibrium internalization)。简单来说,经过充分训练的吸引子模型,其骨干模块给出的初始猜测已经非常接近最终的不动点——也就是说,模型不需要再经过太多精炼迭代,答案就已经基本到位了。

为什么会发生这种情况?从训练机制上看,损失函数(衡量模型预测质量的指标)施加在最终的不动点上,而不动点又与初始猜测有着数学上的联动关系——骨干模块的输出如果改变,不动点也会随之改变。因此,在训练过程中,骨干模块会受到压力,去学习产生一个"已经接近不动点"的输出,这样损失就会更小。随着训练推进,骨干模块越来越擅长直接预测出接近答案的嵌入,吸引子模块只需要做少量的"收尾工作"。

研究者通过两种方式直观地展示了这一现象。第一种是对迭代轨迹做主成分分析(PCA,一种把高维数据压缩到二维平面展示的技术)。结果显示,在前8步迭代中,吸引子模型的状态就已经在二维投影图上收敛到一个密集的点簇,而后续的8步迭代轨迹几乎与前8步重叠,说明系统已经达到了稳定;对比之下,现有循环模型Parcae的轨迹在16步内仍有明显漂移,收敛更慢且更不干净。第二种是追踪训练过程中求解器需要的迭代次数变化。对比的DEQ基线模型(一种之前提出的深度平衡模型)在训练推进时,所需迭代次数持续增加;而吸引子模型在训练早期就迅速降到了最小迭代次数,并在此后保持稳定不变。

这种平衡内化现象在推理阶段也有直接体现。研究者系统测试了不同推理迭代次数T(T=0表示直接用骨干模块的输出,不运行吸引子模块)下模型的表现。结果表明,对于吸引子模型,从T=1开始性能就几乎达到了峰值,而T=0的表现已经强于需要T=8才能稳定的Parcae模型。换句话说,即便完全去掉吸引子模块,只用骨干模块的输出,模型的性能也超过了那些需要反复迭代8次才能发挥出最佳状态的竞争对手。

这个发现极具实践意义:吸引子模型在训练时充分利用了迭代精炼的好处,但在推理时,用户可以选择完全跳过迭代步骤,直接用骨干模块输出,既节省了计算时间,又几乎不损失质量。

五、大规模语言建模:全面碾压同级选手

在大规模语言建模实验中,研究团队对吸引子模型、标准Transformer和循环语言模型Parcae进行了三方对比,在140M、370M、770M三个参数量级上分别训练,使用相同的数据集(FineWeb-Edu)、相同的优化器和学习率计划,只有核心架构不同。

评测指标包括验证集困惑度(在训练数据上评测,越低表示预测越准确)、Lambada困惑度(一个需要理解长距离上下文才能正确预测词语的测试集,越低越好)以及CORE和CORE-Ext两个下游任务准确率(直接衡量模型理解和推理能力,越高越好)。

在140M参数量级上,标准Transformer的Lambada困惑度为127.39,Parcae降到了80.64,而吸引子模型进一步降到了68.02,相比Transformer改善了46.6%。CORE准确率从13.00%提升到14.59%,改善了12.2%。在370M参数量级上,吸引子模型的Lambada困惑度为27.14,优于Parcae的32.74和Transformer的40.77,CORE准确率改善了15.9%。在770M参数量级上,吸引子模型的CORE准确率达到26.83%,相比同参数量的标准Transformer提升了19.7%,并且在Lambada困惑度(15.21)上超越了参数量为1.3B(约为其1.7倍)、训练数据也是其约两倍的标准Transformer(17.26)。

在训练效率方面,计算量对比同样令人印象深刻。以140M参数量为例,标准Transformer消耗约9.2 EFLOPs(一种计算量单位),Parcae消耗约15.2 EFLOPs,吸引子模型消耗约11.3 EFLOPs,比Parcae减少了约25%。在770M参数量上,Parcae消耗约545.8 EFLOPs,吸引子模型只消耗约377.4 EFLOPs,减少约31%。这一节省来源于两方面:求解器通常在达到最大迭代次数之前就已经收敛,以及反向传播采用的一步近似不需要额外的迭代计算。

六、极端推理任务:顶尖大模型束手无策的地方,它做到了

数独和迷宫听起来像是儿童游戏,但这里用的是"极难"等级的版本。超难数独要求在一个9×9的网格中填入数字,每行、每列和每个3×3小方块中的数字1到9各出现一次,而且初始给出的数字非常少,需要大量逻辑推断才能填完整。超难迷宫同理,需要在复杂的网格结构中找出从起点到终点的路径。这两个任务的特点是:不能靠模糊的语感蒙过去,必须每一步都严格正确,否则整道题全错。

更值得关注的是任务设置:模型必须在单次前向传播中(即不能一步一步写出推理过程,而是一次性给出完整答案),在只有约1000个训练样本的情况下学会解决这些问题。在这种设定下,标准Transformer(2700万参数)的准确率为0%,DeepSeek R1(6710亿参数)、Claude 3.7和GPT o3-mini-high的准确率同样为0%——顶尖大模型在这里完全失效,原因在于它们生成的是自然语言推理过程(链式思维),而不是直接输出完整网格,不满足任务要求。

在专门设计的递归架构中,HRM(层次推理模型,2700万参数)在超难数独和超难迷宫上分别达到55.0%和74.5%,是相对较强的基准。TRM(微型递归模型)在700万参数时达到74.7%和85.3%,是所有非吸引子方法中最强的,但当参数量增加到2700万时,TRM的准确率崩溃到0%——这就是"越大越差"现象的典型表现。

吸引子模型的结果则完全不同。在700万参数时,吸引子模型在超难数独上达到54.3%,在超难迷宫上达到46.7%,与TRM 7M相比稍弱。但当参数量扩大到2700万时,吸引子模型的准确率跃升至91.4%(超难数独)和93.1%(超难迷宫),不仅没有崩溃,反而大幅提升,显示出健康的可扩展性。

在这个设定下,吸引子模型的实现有所不同:由于训练样本极少,不需要单独的骨干模块,初始猜测由"深度监督"步骤中的上一步结果充当,第一步则使用一个可学习的嵌入。反向传播方式也从大规模预训练时的一步近似,改为幽灵梯度(展开3步),因为在样本量极小、网络极小的情况下,一步近似提供的训练信号太粗糙,而幽灵梯度能在效率和精度之间取得更好的平衡。研究者指出,这与TRM的作者报告的经验一致:将TRM的反向传播改为一步近似后,超难数独准确率从87.4%骤降至56.5%。

七、与相关架构的深入对比

吸引子模型不是第一个把固定点概念引入神经网络的工作。深度平衡模型(DEQ,Deep Equilibrium Models)早在2019年就提出了类似的框架:用一个隐状态的不动点作为输出,并通过隐函数定理求梯度。研究团队对吸引子模型和参数量相同的DEQ进行了对比,结果显示两者在验证困惑度上差距相当大:DEQ为42.18,带有绑定嵌入的DEQ为38.74,而吸引子模型为34.05。

这一差距来自三处关键的设计区别。首先,DEQ的不动点在隐藏状态空间中,需要一个单独的输出头来解码,而吸引子模型的不动点直接在绑定的输出嵌入空间中,骨干模块的初始猜测和最终不动点可以用同一个嵌入矩阵直接解码,这让两个模块的优化目标天然一致。其次,DEQ从零向量开始迭代,求解器必须从一个完全无信息的起点出发,重新构造出有意义的表示;吸引子模型则从骨干模块产生的有意义猜测开始,求解器只需做小幅修正,因此收敛更快(平均8.4次迭代对比DEQ的14.6次)。第三,DEQ的文献中指出扩大DEQ块的数量反而会损害性能,而吸引子模型允许任意深度的骨干Transformer,且使用可变数量的求解器块,这给了架构更大的设计灵活性。

归根结底,吸引子模型做了一件在直觉上非常自然的事:先用一个强大的网络给出一个靠谱的初步猜测,再用一个专门做精炼的小网络把它推向最终答案,而精炼过程通过直接求解"最终答案应该满足的方程"来完成,既不需要记录每一步的过程,也不需要提前说好转几圈才停下来。

更耐人寻味的是平衡内化现象:模型在训练中自发地学会了让初步猜测越来越接近最终答案,到最后精炼步骤几乎没有必要了——但正是这个精炼步骤在训练时充当了"移动的参照系",引导初步猜测持续进步。这有点像一个学徒在一位严格师傅的带领下反复打磨手艺,最终出师后师傅不在场也能做出同等水准的作品。

这项研究意味着,未来的语言模型或许不需要在"更多参数"和"更多计算"之间做艰难取舍,通过更聪明的架构设计,在更少的计算资源下获得更强的性能是可行的。对于那些需要在有限算力下部署强大AI的场景——比如手机端的智能助手、医院的辅助诊断系统、学校的个性化教学工具——这条路径具有相当现实的价值。

有兴趣深入了解技术细节的读者,可以通过编号arXiv:2605.12466查阅完整论文,南加州大学的研究代码也已在GitHub上公开。

Q&A

Q1:吸引子模型和普通Transformer相比,推理时会不会更慢?

A:不一定更慢,有时甚至更快。由于"平衡内化"现象,训练好的吸引子模型的骨干模块给出的初步预测已经非常接近最终答案,吸引子模块往往只需要极少几步迭代(甚至T=1)就能收敛,而且可以直接跳过吸引子模块只用骨干模块输出,性能损失很小。实际推理延迟取决于骨干模块大小和收敛速度,并不必然比同参数量的Transformer慢。

Q2:吸引子模型为什么能在极难数独上超越Claude和GPT o3-mini,这两个大模型是不是被限制了?

A:这里的任务设置确实有特殊之处:模型必须在单次前向传播中一次性输出完整的答案网格,不允许生成推理过程。Claude和GPT o3-mini擅长的链式思维推理(一步步写出分析过程)在这个设定下不被允许,所以得分为0%。吸引子模型是针对这种"单次直接预测完整结构"的任务专门训练的,两者解决问题的方式不同,不能简单理解为吸引子模型"打败了"这些大模型。

Q3:吸引子模型训练时内存为什么能保持不变,普通循环模型为什么不行?

A:普通循环模型训练时,需要把每一次循环的中间结果都保存下来,以便反向计算梯度,循环圈数越多保存的内容越多,内存线性增长。吸引子模型利用隐函数定理求梯度,这个方法只需要最终的不动点状态就能算出梯度,不需要保存任何中间步骤的结果,所以无论求解器迭代了多少次,训练内存都不会增加,始终保持在一个固定水平。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。