当前位置: 首页 » 资讯 » 科技头条 » 正文

Ubiquant团队推出通用推理模型URM:让AI像人类一样循环思考

IP属地 中国·北京 科技行者 时间:2025-12-20 22:10:53


这项由Ubiquant公司研究团队完成的突破性研究发表于2025年12月16日的arXiv预印本平台(编号:arXiv:2512.14693v1),论文作者包括高子天、陈林霞、肖义豪、邢贺、陶然、罗浩明、周乔伊和戴布赖恩等研究者。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

当我们解决复杂数学题时,往往需要反复思考、修正错误、重新尝试,这个循环过程正是人类智慧的体现。而现在,Ubiquant的研究团队成功让人工智能也学会了这种"反复琢磨"的思考方式,创造出了一个名为通用推理模型(Universal Reasoning Model,简称URM)的AI系统。

这个系统在目前最具挑战性的AI推理测试——ARC-AGI测试中取得了令人瞩目的成绩。如果把这个测试比作AI界的高考,那么URM在ARC-AGI 1版本中达到了53.8%的正确率,在更困难的ARC-AGI 2版本中也获得了16.0%的正确率。这些数字看起来可能不算惊人,但要知道,这些测试题目连很多聪明的人类都觉得头疼,而且URM还在数独游戏中达到了77.6%的准确率,证明了它确实具备了某种接近人类的推理能力。

研究团队深入剖析了为什么有些AI模型在复杂推理任务上表现突出,他们发现关键并不在于模型有多么复杂的架构设计,而在于一种被称为"循环归纳偏置"的机制。简单来说,就像我们做难题时会反复思考一样,这些优秀的AI模型也会对同一个问题进行多轮处理,每一轮都能让答案变得更加精确。

一、什么是通用变换器?为什么循环思考如此重要?

要理解URM的工作原理,我们首先需要了解它的基础——通用变换器(Universal Transformer)。如果把传统的AI模型比作流水线工厂,那么每个工作站点都有专门的工人负责特定任务,产品从第一个工作站依次传递到最后一个工作站完成生产。这种方式效率很高,但缺乏灵活性。

而通用变换器更像是一个熟练的工匠作坊,只有一个万能工匠,但他可以对同一件作品进行反复加工和完善。工匠会拿起一件半成品,仔细检查、修改、改进,然后再次检查这个改进后的版本,如此循环往复,直到作品达到满意的质量。这个"反复加工"的过程就是循环计算,而"万能工匠"就是参数共享机制。

研究团队通过大量实验证实了一个重要发现:那些在复杂推理任务上表现优异的AI模型,其成功的秘诀主要来自于这种循环处理机制,而不是复杂的模型架构。就像解数学题一样,关键不在于你用了多少种不同的方法,而在于你是否愿意反复检查和改进你的答案。

为了验证这个发现,研究团队设计了一个对比实验。他们比较了传统变换器和通用变换器在相同计算资源下的表现。结果显示,即使传统变换器使用了32倍的参数量,在ARC-AGI测试中的正确率也只有23.75%,而参数量少得多的通用变换器却能达到40.0%的正确率。这就像是用复杂昂贵的机器生产的产品,质量反而不如经验丰富的手工艺人精心制作的作品。

二、URM的创新:短卷积模块让思考更加细致

虽然循环处理是关键,但研究团队发现还有改进空间。他们注意到,在人类思考过程中,我们不仅会反复思考整体问题,还会特别关注细节之间的关系。比如在解决视觉推理题目时,我们会仔细观察相邻图案之间的关系,寻找局部规律。

基于这个观察,研究团队为URM增加了一个名为ConvSwiGLU的短卷积模块。如果把原来的处理方式比作用放大镜逐个检查每个部件,那么加入短卷积模块后,AI就像戴上了特殊的眼镜,能够同时看清楚相邻部件之间的微妙关系。

这个改进看似微小,但效果显著。在ARC-AGI测试中,加入短卷积模块后的模型正确率从45.3%提升到了53.8%,提升幅度相当可观。研究团队还发现,这个模块最好放置在模型的非线性处理部分,也就是说,在AI已经对信息进行初步加工之后,再让它关注局部细节关系,效果最佳。

三、截断反向传播:避免"想太多"的困扰

当AI模型进行太多轮循环思考时,就会出现一个有趣的现象,类似于人类"想太多"的情况。就像我们解题时如果反复纠结于前面的步骤,可能会影响整体的思考效率,甚至产生负面影响。

研究团队发现,当模型进行8轮循环处理时,如果让所有8轮都参与学习过程的反馈调整,效果反而不如只让后面6轮参与调整。这就像是告诉AI:"前面两轮的思考就当作热身,不用太在意对错,从第三轮开始才认真计分。"

这种被称为截断反向传播的技术,让模型在保持循环思考优势的同时,避免了过度纠结早期步骤的问题。实验结果显示,采用这种方法后,模型在ARC-AGI测试中的正确率从36.25%提升到了39.13%,证明了这种"适度放松"策略的有效性。

四、非线性能力是推理的核心

研究团队还做了一个有趣的实验,逐步削弱模型的非线性处理能力,观察推理性能的变化。结果令人印象深刻:随着非线性能力的减弱,模型的推理表现呈现出明显的下降趋势。

具体来说,当他们将高级的SwiGLU激活函数替换为简单的SiLU时,模型正确率从53.75%下降到29.75%。而当进一步简化为更基础的ReLU函数时,正确率继续下降到28.63%。最极端的情况是完全移除注意力机制中的softmax函数,这时模型几乎完全失去了推理能力,正确率跌至仅有2.00%。

这个实验揭示了一个重要真相:复杂推理任务需要强大的非线性处理能力。就像烹饪需要各种调料来创造丰富的口感一样,AI推理也需要多样化的非线性变换来处理复杂的逻辑关系。这解释了为什么URM要特别强化非线性组件,以及为什么短卷积模块能够带来显著改善。

五、优化器选择:训练效率的提升

在实际训练过程中,研究团队还比较了不同优化算法的效果。他们发现,使用名为Muon的先进优化器比传统的Adam优化器能够更快地达到相同的性能水平。在ARC-AGI 2测试中,Muon优化器只需要大约60万次训练步骤就能达到11.5%的正确率,而Adam优化器需要超过130万次步骤才能达到同样水平,训练速度几乎快了一倍。

不过有趣的是,虽然Muon优化器能让模型更快地学会推理技巧,但最终两种优化器训练出的模型性能相当。这说明优化器主要影响的是学习效率,而不是模型的最终能力上限。

六、与其他模型的全面对比

为了充分验证URM的优势,研究团队将其与目前最先进的同类模型进行了全面对比。在ARC-AGI 1测试中,URM的53.8%正确率远超TRM模型的40.0%和HRM模型的34.4%。在更具挑战性的ARC-AGI 2测试中,URM的16.0%正确率几乎是HRM的三倍,是TRM的两倍多。

这些对比不仅体现在单次尝试的正确率上,当允许模型进行多次尝试时,URM的优势更加明显。比如在ARC-AGI 1测试中,当允许1000次尝试时,URM的成功率能达到85.1%,而TRM和HRM分别只有64.4%和60.5%。这说明URM不仅在首次尝试时表现优异,而且具有更强的"举一反三"能力,能够通过多样化的尝试找到正确答案。

七、技术实现的精妙之处

URM的技术架构虽然听起来复杂,但核心思想相当直观。整个系统可以想象成一个既有固定流程又有循环改进的智能工厂。固定流程部分负责基础的信息处理,就像流水线上的标准操作。而循环改进部分则像是质检环节,会反复检查和优化产品质量。

在循环处理的每一轮中,模型都会运用注意力机制来重新审视问题的各个方面,然后通过包含短卷积的前馈网络来细化理解。这个过程会重复多次,每一次都在前一次的基础上进一步改进。最终,模型会运用自适应计算时间机制,根据问题的复杂程度自动决定需要多少轮循环处理。

短卷积模块的加入特别巧妙。它不是简单地增加模型复杂度,而是专门针对相邻信息的关系建模。研究团队通过仔细实验发现,将这个模块放在前馈网络的特定位置效果最佳,这就像在合适的时机加入合适的调料,能够显著提升整道菜的味道。

八、实际应用的广阔前景

虽然URM目前主要在学术测试中展现优势,但它的核心技术具有广阔的应用前景。循环推理机制可以应用于任何需要多步骤逻辑分析的场景,比如医疗诊断、法律推理、工程设计等领域。

在医疗诊断中,医生通常需要综合考虑患者的各种症状、检查结果和病史信息,然后反复推理得出诊断结论。URM的循环推理能力可以帮助AI系统模拟这种诊断过程,提高诊断的准确性和可靠性。

在工程设计领域,设计师经常需要在多个约束条件之间寻找平衡,反复调整设计方案直到满足所有要求。URM的这种反复优化机制正好契合这类需求,可以帮助自动化设计系统生成更优的解决方案。

研究团队特别强调,URM的优势不仅在于最终性能,还在于其参数效率。相比需要巨大参数量的大型语言模型,URM用相对较少的参数就能实现强大的推理能力,这使得它更适合在资源受限的环境中部署,比如移动设备或边缘计算场景。

归根结底,这项研究揭示了一个重要原理:在人工智能的推理任务中,"如何思考"比"知道多少"可能更加重要。URM通过模拟人类的循环思考过程,在复杂推理任务上取得了显著突破。虽然目前的测试成绩距离人类水平还有差距,但这种方法为AI推理能力的进一步提升指明了明确方向。

更重要的是,这项研究证明了一个令人鼓舞的观点:我们不一定需要更大、更复杂的模型来提升AI的智能水平,而是需要更好地理解和模拟人类思维的本质特征。当AI学会了像人类一样反复思考、注重细节、适度放松时,它就能在复杂推理任务中展现出接近甚至超越人类的能力。这为未来AI技术的发展提供了全新的思路和可能性,也让我们对真正智能的人工智能充满期待。

Q&A

Q1:通用推理模型URM与传统AI模型有什么区别?

A:URM最大的特点是采用循环思考机制,就像人类解难题时会反复思考一样。传统AI模型更像流水线,信息只处理一遍就输出结果,而URM会对同一个问题进行多轮循环处理,每一轮都能让答案更精确。这种设计让URM在复杂推理任务上表现更好,用更少的参数就能达到更高的准确率。

Q2:URM在ARC-AGI测试中的53.8%正确率意味着什么?

A:ARC-AGI被认为是目前最具挑战性的AI推理测试,连很多聪明的人类都觉得困难。URM在ARC-AGI 1中达到53.8%的正确率,远超其他先进模型,这表明它具备了接近人类水平的抽象推理能力。更重要的是,当允许多次尝试时,URM的成功率能达到85%以上,显示出强大的问题解决潜力。

Q3:URM技术能应用到哪些实际场景中?

A:URM的循环推理机制可以应用于任何需要多步骤逻辑分析的领域。比如医疗诊断中,可以帮助AI模拟医生反复分析症状的过程;在工程设计中,可以帮助系统在多个约束条件间寻找最优解;在法律推理中,可以辅助分析复杂案例。由于URM参数效率高,还特别适合在手机等移动设备上部署。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。