当前位置: 首页 » 资讯 » 科技头条 » 正文

中科院教会AI"从错误中学习":让大模型像人类一样会改错的新方法

IP属地 中国·北京 科技行者 时间:2026-05-22 22:16:34


在人工智能的世界里,大模型就像一个聪明却倔强的学生。它做对题目时,老师会给它一颗糖;做错时,老师会摇摇头说"不对"。但问题来了——如果老师只是简单地说"不对",从不告诉它错在哪里、该怎么改,这个学生真的能学好吗?

这正是中国科学院软件研究所中文信息处理实验室联合中国科学院大学和小红书公司的研究团队所关注的问题。他们在2026年5月发表的一篇论文中,提出了一种名为CIPO(Correction-Oriented Policy Optimization,可以理解为"以纠错为导向的策略优化")的新方法,专门解决大模型训练中"失败样本被白白浪费"的难题。这项研究的论文编号为arXiv:2605.14539v1,有兴趣深入了解技术细节的读者可以通过这个编号查询完整论文。

说起来,这个研究解决的问题特别有意思。当下最火热的大模型(比如能做数学题、写代码的那些AI),主要靠一种叫做"可验证奖励的强化学习"(RLVR)的方式来训练。简单理解就是:给AI出一道数学题,让它解答,如果答对了就奖励它,答错了就惩罚它。听起来很合理对吧?但研究团队发现,这套机制就像一位只会打分却不讲解题的严厉老师,效率低得让人着急。CIPO的厉害之处就在于,它把那些被丢弃的"错题"重新利用起来,让AI在自己的错误中学会成长。

接下来,让我们一起走进这个故事,看看研究团队是如何让AI变成一个会"反思错题"的优秀学生的。

一、那位只会说"对"或"错"的严厉老师,到底有什么问题?

设想你正在教一个孩子做数学题。孩子做了十道题,你只告诉他"第一题对了"、"第二题错了"、"第三题错了"……然后就让他继续做下一批题目。你觉得这孩子能学得好吗?

这正是目前主流AI训练方法(比如最有名的GRPO算法)的工作方式。研究团队把这种方式叫做"奖励-压制"模式:做对的答案被鼓励,做错的答案被一刀切地打压,至于错在哪里、为什么错、离正确答案还差多远,AI完全不知道。

这种粗暴的方式带来了三个让人头疼的问题。第一个问题是"信号太模糊"。考虑这样一个场景:AI做错了一道题,但有时候是因为最后一步算错了小数点,有时候是因为一开始的思路就完全跑偏了。这两种错误的"严重程度"天差地别,但在传统训练方法眼里,它们都是"错",都要被同样地惩罚。这就好比一位老师对"差一分及格"和"零分"的学生给予同样的批评,显然不合理。

第二个问题是"宝贵的信息被浪费"。一份错误的答案里,往往有大部分推理过程是对的,只是某个环节出了岔子。这就像一份80分的考卷,里面有大量正确的解题思路,但因为最终结论错了,整份卷子的所有信息都被当作"反面教材"全盘否定。研究团队认为,这种做法实在太可惜了。

第三个问题是"训练效率低下"。当AI只能从"做对了"的样本中学习时,它很难突破自己当前的能力边界,因为它从来不知道自己错在哪里,也就无法针对性地改进。

之前也有研究者试图解决这个问题,他们的思路主要有两种。一种是请来"过程监督员",让另一个AI或人类专家来评判每一步推理是否正确。但这种方法成本高昂,需要大量标注,而且这个"监督员"自己也可能判断错误,反而引入新的噪声。另一种是利用环境反馈构造"教师模型",但这些方法对反馈信号的可靠性要求很高,对能力较弱的模型反而可能适得其反。

研究团队意识到,需要一种不依赖任何外部帮助、能够自给自足的解决方案。这就有了CIPO的诞生。

二、CIPO的核心妙招:让AI给自己的错题写"反思笔记"

CIPO的核心思想说起来很简单,却异常巧妙。当AI做错一道题时,传统方法只会说"这答案不对,下次别这样答了"。而CIPO会做一件不同的事:它把这道题和AI刚才那个错误答案一起摆在AI面前,然后说:"这是你之前的解答,请参考一下,再重新做一遍。"

这个看似简单的改变,背后蕴含着深刻的智慧。考虑两种不同的错误情况:一种是AI差一点就做对了(比如最后一步计算失误),另一种是AI从一开始就走错了方向。当我们让AI"参考自己的错误答案重做一遍"时,前一种情况下AI很有可能改对,而后一种情况则改对的概率很低。这就自然地把"差一点的错误"和"根本性的错误"区分开来了!

换句话说,CIPO让错误本身变成了一个有用的"路标"。原本只是一片混沌的"错误黑洞",现在变成了一个个有方向、有距离感的"近似目标"。AI不再只是简单地被告知"你错了",而是获得了"从这个错误位置出发,朝着正确方向再走一步"的具体指引。

更妙的是,CIPO还顺便训练了AI的另一项能力——纠错能力。在现实生活中,AI不仅需要从零开始解题,还经常需要审查已有的代码、检查别人的推理、修复存在缺陷的方案。传统训练方法完全没有教AI这些技能,而CIPO在训练过程中天然地包含了"看到一个错误答案,然后给出正确答案"的练习。这就像一个学生不仅会做题,还会改作业、当小老师,能力自然更全面。

三、把这套方法变成现实:CIPO的具体操作流程

理念虽好,落地却是另一回事。研究团队设计了一套完整的训练流程,整个过程就像一个精心编排的循环。

整个流程是这样运转的:每一轮训练时,AI先按常规方式做一批题目,产生一堆答案(有对有错)。这是第一条数据流,叫做"基础流"。然后,CIPO从这批答案中挑选一些样本,把它们和原题目拼接在一起,构造成新的提示(就像在题目后面加上一段"参考答案"),再让AI基于这个新提示重新作答。这第二批答案就是第二条数据流,叫做"纠正流"。最后,AI同时从这两条数据流中学习,一边练习独立解题,一边练习"看错改对"。

听起来很顺利对吧?但研究团队很快发现,事情没那么简单。如果不加任何控制,单纯地把错题塞回去让AI改,会出现一系列新麻烦。比如,AI可能因为过度关注错题,反而忘了原本掌握的正确解法;又或者,太简单或太难的题目反复练习只是浪费时间。为此,研究团队设计了三个关键的"调节装置"。

第一个调节装置叫做"自适应回放比例"。简单来说,CIPO不会固定地按某个比例混合"成功样本"和"失败样本",而是会根据AI的当前状态动态调整。如果AI最近表现不错,说明它已经掌握了基本能力,可以多让它练习错题;如果AI最近开始出现退化,比如以前会做的题现在反而做错了,那就要赶紧增加成功样本的比例,把基础打牢。这就像一位经验丰富的教练,根据学生的状态灵活调整训练强度。

具体的数学表达涉及一个比例参数,研究团队让它在0.2到0.8之间动态变化,根据当前的表现、相对上一步的变化趋势,以及连续表现不佳的次数三个信号来调整。这个机制确保了AI始终在一个既有挑战又不至于崩溃的"舒适学习区"里。

第二个调节装置叫做"风险规避型奖励塑造"。这个名字听起来很学术,但理念其实很朴素:要特别警惕"会做的题反而做错了"这种倒退情况。设想一下,如果AI看着一份正确的参考答案,结果还能做错,这是非常糟糕的信号——意味着AI不仅没学到东西,反而出现了能力退化。CIPO对这种情况会施加额外的惩罚,相当于告诉AI:"其他错误可以原谅,但这种'看着答案还做错'的事情绝对不能发生。"这种不对称的惩罚机制有效防止了AI在训练过程中出现能力倒退。

第三个调节装置叫做"难度感知偏好"。这个机制基于一个朴素的教育学原理:太简单的题目(AI每次都能做对)和太难的题目(AI每次都做不出来)对学习帮助都不大。真正高效的训练应该聚焦在"半懂不懂"的中等难度题目上。CIPO会优先选择那些AI通过率在37.5%到75%之间的题目进行重点练习,确保每一次训练都用在刀刃上。这正是教育心理学中著名的"最近发展区"理论——在学生能力边缘略有挑战的地方训练,效果最好。

把这三个调节装置组合起来,CIPO就形成了一个自我调节的学习系统:宏观上动态调整训练材料的难度和构成,微观上对每一次表现给予精准的反馈,从而既能充分利用失败样本中的信息,又不至于让AI走火入魔。

四、实战检验:CIPO到底有多厉害?

理论再漂亮,也得拿数据说话。研究团队在11个不同的测试基准上对CIPO进行了全面评估,涵盖数学推理和代码生成两大领域。结果可以说是相当亮眼。

在数学推理方面,他们使用了Qwen3-4B这个模型作为基础,在六个数学测试集上进行评估,包括AIME24、AIME25、AMC23、MATH500、Minerva和OlympiadBench等知名竞赛级数学题库。结果显示,原始模型的平均准确率是46.82%,使用传统GRPO方法训练后能提升到59.83%,而使用CIPO训练后达到了64.38%——比GRPO高出了4.55个百分点。在更具挑战性的AIME24和AIME25上,提升尤其明显。要知道,AIME(美国数学邀请赛)的题目难度堪比奥数,能在这种级别的测试上提升如此之多,意味着CIPO确实带来了实质性的能力提升。

在代码生成方面,研究团队用Seed-Coder-8B模型在LiveCodeBench v6和LeetCode两个测试集上进行评估。CIPO同样表现出色,平均得分54.27%,比GRPO的52.84%和52.63%都要高。更有趣的是,研究团队还观察了训练过程的动态变化——在代码生成任务上,传统GRPO的表现很快就达到瓶颈并开始波动,而CIPO则保持着稳定的上升趋势,就像一辆爬坡能力更强的汽车,能够持续向更高的水平攀升。

为了证明CIPO不只是简单地"在已有能力上做表面文章",研究团队还专门测试了一个叫做"pass@K"的指标。这个指标的含义是:给AI很多次尝试机会(比如32次),看它能否至少做对一次。如果一个训练方法只是把AI已有的正确答案重复输出,那么pass@K不会有太大变化。但如果训练真正扩展了AI的能力边界,pass@K就会显著提升。结果显示,在AIME24上,CIPO的pass@32达到了86.67%,远高于GRPO的76.67%;在三个数学竞赛任务上的平均pass@32达到85.56%,比GRPO高出6.12个百分点。这有力地证明了CIPO确实在拓展AI的"知识边疆",而不是简单地优化表面表现。

更让人惊喜的是CIPO在"纠错能力"上的表现。在CriticBench这个专门测试AI批评和纠错能力的基准上,使用CIPO训练的模型在数学纠错任务上的表现从基础的67.64%提升到了75.38%,提升幅度达到7.74个百分点,远超GRPO的3.07个百分点。在DebugBench代码调试基准上,CIPO训练的8B模型达到了64.99%的平均得分,不仅超过了720亿参数的Qwen2.5-72B-Instruct(61.35%),还达到了与Anthropic的Claude-Sonnet-4(65.58%)相当的水平。考虑到模型规模的巨大差异,这个结果可以说相当惊人。

还有一个特别值得关注的发现:CIPO训练出来的纠错能力具有很强的"举一反三"特性。研究团队在纯数学数据上训练的模型,居然能够把纠错能力迁移到完全不同的领域——比如常识推理、符号推理、算法推理等。这说明CIPO培养的不是"针对特定题型的纠错套路",而是一种通用的"反思和改正"能力。

五、拆解每个零件:消融实验告诉我们什么?

科学研究讲究"证伪",光说自己的方法好不够,还要证明方法中每个设计都是必要的。研究团队做了一系列消融实验,逐一移除CIPO的不同组件,看哪些是真正不可或缺的。

先看"在线回放"这个核心机制。CIPO的一个关键创新是在训练过程中实时利用当前模型的失败样本,而不是只用训练初期收集的固定数据集。研究团队对比了"完整CIPO"和"只用初始数据的离线变体",结果发现去掉在线机制后,性能从64.38%下降到60.47%,差距达到3.91个百分点。这证明了实时、动态地利用失败样本至关重要——AI在不同训练阶段会犯不同类型的错误,只有持续跟进才能精准对症下药。

接着看"自适应控制"。如果把动态调整比例改成固定的1:1比例,性能会下降4.19个百分点,跌至60.19%。这说明僵化的训练配方远不如灵活的策略来得有效。

最让人震惊的是去掉"风险规避奖励塑造"后的结果。失去这个机制后,性能暴跌6.97个百分点,跌至57.41%,是所有消融实验中下降最严重的。每个数据集上的降幅都在3.20%到10.73%之间。这清楚地表明,防止"能力倒退"对于稳定训练至关重要,否则AI很容易在追求新能力的过程中丢掉已有的本领。

最后是"难度感知偏好"。去掉这个机制后,性能降至60.98%,下降了3.40个百分点。这印证了那个朴素的道理:选择合适难度的练习题,对学习效率的影响远比想象中更大。

把这些结果放在一起看,CIPO的每个组件都不是装饰品,而是相互配合、缺一不可的有机整体。这种系统性的设计思维,正是研究的精妙之处。

六、这一切对我们意味着什么?

回过头来看,CIPO这项研究虽然听起来很技术,但它解决的问题其实非常贴近我们的日常理解:如何从失败中学习?

研究团队用一个简单而精妙的转变,把AI训练从"奖惩二元论"推进到了"反思成长论"。原本被丢弃的失败样本,现在成为了最宝贵的学习材料;原本只会做题的AI,现在还学会了改作业、当小老师。这种思维上的转变,可能比技术本身更值得我们玩味。

对于普通用户而言,这项研究的意义在于:未来我们使用的AI助手可能会变得更加"懂得反思"。当它给出一个答案后,如果你指出其中的问题,它能更准确地理解错在哪里并加以改正,而不是机械地重复或胡乱修改。在编程辅助、数学辅导、文档校对等需要"看错改对"能力的场景中,这种进步会带来显著的体验提升。

对于AI研究者而言,CIPO提供了一个重要的启示:在追求更复杂的训练方法之前,先想想我们是否充分利用了已有的数据。一个模型自己产生的失败样本,其实蕴含着关于这个模型当前能力边界的最精确信息——比任何外部数据集都更"贴身"。学会利用这些信息,可能比寻找新数据更有价值。

说到底,CIPO的故事讲的不仅是AI的学习方式,也是一种朴素的学习哲学:错误不是终点,而是通向更好的起点。如果你在做某件事时遇到了挫折,不妨借鉴一下AI的做法——回过头来仔细看看自己刚才的错误,从那个具体的失败位置出发,朝着目标再迈出一步。这或许就是这项研究留给我们最有趣的思考。

有兴趣进一步了解技术细节的读者,可以通过arXiv:2605.14539v1这个编号查询完整论文,里面有更详尽的算法描述、实验数据和理论分析等待你去探索。

Q&A

Q1:CIPO方法和传统的GRPO相比,最大的不同是什么?

A:最大的不同在于对"错误答案"的处理方式。GRPO遇到错误答案时只是简单地打压,告诉AI"这样不对",但不说明错在哪里。CIPO则把错误答案和原题目拼在一起再给AI,让AI"参考自己的错误答案重新作答"。这样AI不仅能从失败中学到具体的纠正方向,还能顺便培养出纠错能力。简单理解就是,GRPO是只打分的严厉老师,CIPO是会让学生反思错题的优秀老师。

Q2:CIPO在哪些任务上效果最明显?

A:CIPO在数学推理和代码生成两大领域都有显著提升。在数学方面,使用Qwen3-4B模型在六个数学测试集上的平均准确率比GRPO高出4.55个百分点,在AIME竞赛级题目上提升尤其明显。在代码方面,使用Seed-Coder-8B模型训练后,在DebugBench代码调试任务上达到64.99%,甚至超过了720亿参数的Qwen2.5-72B-Instruct,与Claude-Sonnet-4相当。在纠错任务上的提升幅度更是达到了7.74个百分点。

Q3:CIPO需要额外的人工标注或外部模型帮助吗?

A:完全不需要。这是CIPO的一大优势。它所有的训练材料都来自AI自己产生的失败样本,不需要请人类专家来标注每一步对错,也不需要额外训练一个"裁判"模型。整个过程是自给自足的:AI做题、判断对错、把错题拿来反思、再做题,形成一个闭环。这让CIPO的部署成本远低于那些需要过程奖励模型或LLM裁判的方法,更容易在实际应用中推广。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。