当前位置: 首页 » 资讯 » 科技头条 » 正文

AI有了自知之明,准确率飙升,Meta AI团队发布DeepConf

IP属地 中国·北京 编辑:顾青青 至顶AI实验室 时间:2025-08-26 22:21:19

2025年8月21日,Meta AI团队开发了DeepConf方法,让AI学会评估自己的解题质量和及时停止错误思路。在数学竞赛测试中,该方法将准确率提升至99.9%,同时减少84.7%的计算量,展示了AI自我认知能力的重要价值。相关论文发布于arXiv,代码也即将开源。

当你参加一场重要考试时,是不是经常遇到这样的情况:对于一道难题,你会先写出几种不同的解答思路,然后从中挑选最有把握的那个答案?现在,人工智能也学会了这种"多重思考"的方法。不过,传统的AI思考方式就像一个过于勤奋但不够聪明的学生,它会不厌其烦地写出数百种解题思路,然后简单地"少数服从多数"来决定最终答案。这种方法虽然能提高正确率,但就像让一个人不停地重复解同一道题一样,既费时又费力,而且效果还不够理想。

研究团队在多个极具挑战性的数学竞赛题目上测试了这个方法,包括美国数学邀请赛(AIME)、哈佛-MIT数学竞赛(HMMT)等顶级赛事的题目。结果令人印象深刻:在AIME 2025的题目上,使用DeepConf方法的AI达到了99.9%的正确率,这意味着它几乎做对了所有题目。同时,相比于传统的"暴力思考"方法,新方法减少了84.7%的计算量,就像原本需要写500页草稿纸的题目,现在只需要75页就能得出同样准确的答案。

这项研究的价值不仅仅在于让AI答题更准确,更重要的是它展示了如何让AI变得更"自知"——知道什么时候应该继续思考,什么时候应该停下来。这种能力在实际应用中具有重要意义,无论是在教育辅导、科研分析,还是在各种需要复杂推理的场景中,这种既聪明又高效的AI思考方式都将发挥重要作用。

AI的"考试焦虑症":当前推理方法的困境

要理解这项研究的价值,我们需要先了解当前AI在面对复杂问题时的"应试策略"。目前最主流的方法叫做"自一致性"(self-consistency),这种方法的工作原理就像让一个学生对同一道题目写出很多遍答案,然后看哪个答案出现的次数最多,就选哪个作为最终答案。

这种方法听起来合理,但实际上存在一个很大的问题:AI就像一个缺乏自信的考生,它不知道自己哪次答题答得好,哪次答得不好,只能简单地进行"民主投票"。更糟糕的是,这种方法需要AI反复解答同一个问题成百上千次,就像让一个学生把同一道数学题抄写500遍一样,不仅耗费大量时间和精力,而且准确率的提升也有限。

研究团队发现,当AI使用传统方法解决困难的数学竞赛题时,经常会出现这样的情况:为了将正确率从68%提升到82%,AI需要额外生成511条完整的解题思路,这相当于增加了1亿个文字的计算量。更令人沮丧的是,随着解题次数的增加,准确率的提升会越来越小,有时甚至会因为错误答案太多而导致最终结果变差。

这种现象就像一个班级进行集体答题,如果班上大部分学生都对某个错误答案很有信心,那么"少数服从多数"的规则反而会导致错误的结果。传统的AI方法无法区分哪些解题过程是深思熟虑的,哪些是匆忙草率的,它把所有答案都当作同等重要的"选票"。

另一个关键问题是效率。传统方法要求AI必须完整地完成每一次解题过程,即使在解题过程中已经出现了明显的错误思路,它也会继续走下去直到结束。这就像一个学生明明知道自己的解题方法有问题,但还是硬着头皮把错误的计算过程进行到底,白白浪费了时间和精力。

更让人困扰的是,这种低效不仅体现在计算资源的浪费上,还体现在最终结果的不可靠性上。当AI生成了大量的解题过程后,其中往往混合着深思熟虑的正确思路和匆忙草率的错误思路,而传统方法无法有效地区分这两者,导致最终的"投票"结果并不能真正反映AI的最佳推理能力。

置信度的智慧:教AI学会"自我评估"

面对这些问题,Meta AI的研究团队想到了一个绝妙的解决方案:既然问题出在AI不知道哪次答题质量更高,那就教它学会评估自己的解题过程。这就像训练一个学生在答题时不仅要给出答案,还要评估自己对这个答案有多少把握。

研究团队发现,AI在生成每个词汇时都会产生一个内部的"确信程度",这个确信程度就像学生在写字时的笔迹深浅一样,能够反映出AI对当前内容的信心水平。当AI对某个词汇很确信时,这个置信度就会比较高;当它犹豫不决时,置信度就会比较低。通过仔细分析这些置信度数据,研究团队开发出了几种不同的"自我评估"方法。

第一种方法叫做"组置信度"(Group Confidence),这种方法就像让学生评估自己最近写的几个字的质量。AI会实时计算最近生成的一小段文字(比如最近2048个词)的平均置信度,如果这个平均值突然下降,就说明AI可能进入了"胡思乱想"的状态,应该停下来重新思考。

第二种方法叫做"尾部置信度"(Tail Confidence),这种方法专门关注解题过程的末尾部分。就像学生答题时,最后的计算步骤和结论往往是最关键的,如果学生在写结论时显得犹豫不决,那么整个解题过程的可靠性就值得怀疑。AI也是如此,如果它在得出最终答案时表现出低置信度,那么整个解题思路很可能是有问题的。

第三种方法叫做"最低10%组置信度"(Bottom 10% Group Confidence),这种方法关注的是解题过程中最"不确定"的那些部分。这就像老师批改作业时,会特别关注学生答题过程中明显犹豫或者反复修改的地方,因为这些地方往往暴露了学生理解上的薄弱环节。如果一个解题过程中存在太多这样的"不确定"片段,那么整个答案的可信度就会大打折扣。

研究团队通过大量实验发现,这些置信度指标确实能够有效地区分高质量和低质量的解题过程。当AI对自己的答案很有信心时,这个答案正确的概率确实更高;反之,当AI表现出犹豫和不确定时,答案出错的可能性也会相应增加。这种关联性为开发更智能的推理方法提供了坚实的基础。

离线优化:给AI装上"答题质量检测器"

在掌握了置信度评估的基本方法后,研究团队开发了两种不同的应用模式。第一种叫做"离线模式",这种模式就像让AI先完成所有的解题过程,然后再根据质量评估来筛选最好的答案。

在离线模式下,AI会像平常一样对同一个问题生成多个解答思路,但接下来的处理过程就大不相同了。传统方法会简单地统计每个答案出现的次数,然后选择"得票"最多的答案。而DeepConf方法则会先对每个解题过程进行质量评估,然后根据置信度来给不同的答案分配不同的"权重"。

这个过程就像一个智能的评委会,不是简单地数人头,而是根据每个答案的质量来决定它在最终决策中的发言权。一个经过深思熟虑、逻辑清晰、置信度很高的解答可能会获得10分的权重,而一个匆忙草率、逻辑混乱、置信度很低的解答可能只能获得2分的权重。最终的答案选择就基于这种加权投票的结果。

除了加权投票,DeepConf还引入了一个"质量筛选"的环节。研究团队发现,有时候最好的策略不是考虑所有的解答,而是只保留质量最高的那些。这就像一个严格的选拔考试,只有达到一定质量标准的解答才有资格参与最终的投票。

具体来说,研究团队设计了两种筛选标准:保留前10%和保留前90%。保留前10%是一种"精英策略",只选择质量最高的少数解答,这种方法在题目较难、大部分解答都不太可靠的情况下特别有效。保留前90%则是一种"排除劣质策略",主要是过滤掉最明显的错误解答,同时保持足够的多样性。

实验结果显示,这种离线优化方法效果显著。在困难的数学竞赛题目上,DeepConf的准确率比传统方法提升了5-20个百分点。特别是在AIME 2025这样的顶级数学竞赛题目上,使用GPT-OSS-120B模型的DeepConf方法达到了99.9%的准确率,几乎做对了所有题目。这相当于让一个原本只能答对97%题目的学生,通过更好的自我评估和答案筛选,将正确率提升到接近满分的水平。

更重要的是,这种提升不需要增加任何计算成本。传统方法和DeepConf方法都使用相同数量的解题尝试,区别只在于后者能够更智能地利用这些尝试的结果。这就像两个学生都有相同的考试时间,但其中一个学会了如何更好地分配时间和精力,最终取得了更好的成绩。

在线优化:让AI学会"及时止损"

在线模式就像训练一个学生在考试时具备"止损"意识。当学生发现自己的解题思路越来越混乱、对每一步都越来越没有把握时,与其继续硬着头皮算下去,不如果断停下来,把时间和精力投入到新的解题尝试中。

DeepConf的在线模式通过实时监控AI的置信度变化来实现这种"智能止损"。具体来说,AI在生成每个词汇时都会计算当前的局部置信度,当这个置信度连续下降并且低于预设的阈值时,系统就会自动终止当前的解题过程。

这个阈值的设定很有讲究。研究团队采用了一种"热身"策略:对于每个新问题,AI首先会完整地进行几次解题尝试(通常是16次),然后分析这些完整解题过程的置信度分布,据此确定一个合理的停止阈值。这就像一个学生在正式考试前先做几道练习题,了解自己在这类题目上的一般表现水平,然后在正式答题时以此为参考。

为了进一步提高效率,研究团队还引入了"自适应采样"机制。这个机制会实时监控AI当前答案的一致性程度。如果AI通过几次不同的解题尝试都得出了相同的答案,并且对这个答案都很有信心,那么系统就会认为已经找到了可靠的答案,不需要继续进行更多的尝试。这就像学生在考试时发现自己用两种不同方法都算出了相同的结果,就可以确信答案是正确的,不需要再用第三种方法验证。

在线模式的效果令人印象深刻。实验结果显示,这种方法能够在保持甚至提升准确率的同时,大幅减少计算量。在不同的测试场景下,DeepConf在线模式减少了43%到84%的token生成量。这意味着AI能够用原来一半甚至更少的计算资源,达到相同或更好的解题效果。

更具体地说,在AIME 2025的测试中,使用GPT-OSS-120B模型的DeepConf在线模式将准确率从97.0%提升到了97.9%,同时将计算量减少了84.7%。这就像一个学生不仅提高了考试成绩,还缩短了答题时间,实现了效率和效果的双重提升。

研究团队还发现,不同的问题难度需要不同的"止损"策略。对于较简单的问题,AI往往能够很快找到正确的思路,这时候可以采用较为宽松的止损标准,避免过早终止正确的解题过程。对于较困难的问题,AI更容易陷入错误的思维陷阱,这时候就需要采用较为严格的止损标准,及时切断错误的思路。

实验验证:在顶级数学竞赛中的表现

为了验证DeepConf方法的有效性,研究团队选择了一系列极具挑战性的数学竞赛题目进行测试。这些题目包括美国数学邀请赛(AIME)2024年和2025年的题目、哈佛-MIT数学竞赛(HMMT)2025年的题目、布朗大学数学奥林匹克竞赛(BRUMO)2025年的题目,以及研究生水平的科学问答基准GPQA-Diamond。

这些测试题目的难度可以说是世界顶尖水平。AIME是美国最权威的高中数学竞赛之一,能够参加这个竞赛的学生都是各州的数学精英,题目难度远超普通的高考数学题。HMMT则是哈佛大学和MIT联合举办的大学生数学竞赛,参赛者都是来自世界各地顶尖大学的数学专业学生。GPQA-Diamond更是专门针对研究生水平设计的科学推理题目,涵盖物理、化学、生物等多个领域的深度问题。

在这些极具挑战性的测试中,DeepConf展现出了令人印象深刻的性能。在AIME 2025的测试中,使用GPT-OSS-120B模型的DeepConf离线模式达到了99.9%的准确率,这意味着在所有测试题目中,AI几乎每道题都答对了。相比之下,传统的多数投票方法只达到了97.0%的准确率,而单次解题的准确率更是只有91.8%。

在其他测试基准上,DeepConf同样表现出色。在HMMT 2025的测试中,DeepConf将准确率从92.9%提升到了接近100%。在BRUMO 2025的测试中,准确率从86.7%提升到了89.4%。即使在最困难的GPQA-Diamond测试中,DeepConf也实现了2-3个百分点的稳定提升。

更令人印象深刻的是,这些准确率的提升往往伴随着显著的计算效率改进。在在线模式下,DeepConf能够在保持或提升准确率的同时,将计算量减少40%到80%以上。这种效率的提升对于实际应用具有重要意义,因为它意味着相同的计算资源可以处理更多的问题,或者达到相同效果所需的成本大幅降低。

研究团队还进行了详细的对比实验,测试了不同规模的AI模型(从8亿参数到1200亿参数)在不同置信度策略下的表现。结果显示,DeepConf方法在各种规模的模型上都能实现稳定的改进,而且模型越大,改进效果往往越明显。这说明置信度信息是AI模型的一种内在能力,随着模型能力的增强,这种自我评估能力也会相应提升。

为了确保实验结果的可靠性,研究团队对每个测试设置都进行了64次重复实验,然后计算平均结果。这种严格的实验设计确保了结果不是偶然现象,而是方法本身的真实效果。同时,研究团队还公开了实验的详细设置和参数,使得其他研究者能够重现这些结果。

技术细节:如何让AI学会"自知之明"

要深入理解DeepConf的工作原理,我们需要了解一些关键的技术细节。这些细节就像一道复杂菜肴的制作过程,每个步骤都至关重要,缺一不可。

首先是置信度的计算方法。当AI生成每个词汇时,它实际上会计算出整个词汇表中每个词的出现概率,然后选择概率最高的词作为输出。DeepConf方法巧妙地利用了这个概率分布来计算置信度。具体来说,它会取概率最高的几个候选词的对数概率的负平均值作为置信度指标。这个指标的直观含义是:如果AI对某个位置的词汇选择很确定,那么最优选择的概率会明显高于其他候选词,此时置信度就比较高;如果AI犹豫不决,各个候选词的概率比较接近,此时置信度就比较低。

接下来是组置信度的滑动窗口机制。为了避免个别词汇的置信度波动对整体判断造成干扰,DeepConf采用了滑动窗口的方法来计算局部平均置信度。这就像一个移动的放大镜,始终关注最近生成的一段文字(比如2048个词)的整体质量。当AI生成新词时,滑动窗口会自动更新,丢弃最早的词汇,加入最新的词汇,然后重新计算平均置信度。

对于在线模式,阈值的设定是一个关键技术环节。研究团队发现,不同的问题和不同的模型需要不同的阈值设定。为了解决这个问题,他们设计了一种"动态校准"机制:对于每个新问题,系统首先进行小规模的"热身"解题(通常是16次完整尝试),然后分析这些尝试的置信度分布,最后根据预设的筛选比例(比如保留前10%或前90%)来确定具体的阈值。

在实际实现中,研究团队还需要处理一些技术挑战。比如,如何在不增加显著计算开销的情况下实时计算置信度?如何确保早期终止的解题过程不会影响最终的答案聚合?如何处理不同长度的解题过程之间的公平比较?

为了解决这些问题,研究团队开发了一套高效的实现方案。他们将置信度计算集成到AI的正常生成过程中,避免了额外的计算开销。他们设计了一种加权聚合算法,能够公平地处理不同长度的解题过程。他们还开发了一套完整的实验框架,支持各种不同的配置和测试场景。

研究团队还提供了DeepConf方法的开源实现,并详细说明了如何将其集成到现有的AI推理系统中。

至顶AI实验室洞察

DeepConf的真正价值不在于提高解题准确率,而在于让AI获得了一种珍贵的能力——自知之明。

这种让AI学会说"我不确定"的技术,正在推动整个人工智能领域发生深刻转变:从盲目计算向智能推理的跃升。当AI不仅能解决问题,还能评估自己的可靠性时,它就从被动的工具进化为主动的智能伙伴。

未来的人机协作可能会变成:AI会诚实地告诉医生"这个诊断我不太确定,建议进一步检查",会提醒研究者"这部分分析存在不确定性,需要更多证据"。这种基于自我认知的诚实,反而会赢得更多信任。

DeepConf展示的不仅是一种技术方法,更是一种全新的智能哲学:真正的智能不是无所不知,而是知道自己的边界。从"能做什么"到"知道自己能做什么"的转变,标志着AI正在向更高层次的智能迈进——这或许正是我们一直在寻找的通向可信AI的关键路径。

项目地址:jiaweizzhao.github.io/deepconf

论文地址:https://www.arxiv.org/abs/2508.15260

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:DeepConf是什么?

A:DeepConf是一种用于提升大型语言模型(LLM)推理性能的方法。它通过模型内部置信度信号(如熵和置信分数)动态过滤低质量推理轨迹,无需额外训练或超参数调整。DeepConf支持离线和在线模式,提高准确率的同时减少计算开销。例如,在离线模式下,它筛选高置信度轨迹用于加权投票,显著提升推理效率。

Q2:DeepConf如何减少LLM推理的token生成量?

A:DeepConf在在线模式中实时监测组置信度,提前终止低置信度推理轨迹,减少不必要的token生成。它使用最低组置信度阈值动态停止生成,并自适应采样以调整轨迹数量。实验显示,相比标准并行推理,DeepConf可减少高达84.7%的token生成,如在AIME 2025基准测试中节省大量计算资源。

Q3:DeepConf在基准测试中的准确率表现如何?

A:DeepConf在多个推理基准上显著提升准确率,如AIME 2025和HMMT 2025。使用GPT-OSS-120B模型,DeepConf@512达到99.9%准确率,远超标准多数投票的97.0%。其置信度加权投票和过滤机制(如保留top-10%高置信度轨迹)优化了性能。实验结果在图表中展示,例如图1突出其在AIME 2025的饱和表现。

2025年8月21日,Meta AI团队开发了DeepConf方法,让AI学会评估自己的解题质量和及时停止错误

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。