当前位置: 首页 » 资讯 » 科技头条 » 正文

港大和蚂蚁集团:AI如何让自己出题训练自己变聪明

IP属地 中国·北京 科技行者 时间:2025-10-20 22:11:29


这项由香港大学的赵学良和蚂蚁集团的吴伟等研究者合作完成的研究发表于2025年1月,论文编号为arXiv:2509.19894v1。有兴趣深入了解的读者可以通过该编号查询完整论文。研究团队提出了一种名为PromptCoT 2.0的全新方法,让人工智能能够自动生成更高质量的训练题目,从而实现自我提升。

想象一下这样的场景:一个学霸不仅能解答各种难题,还能根据学过的知识点自己编出更有挑战性的练习题来训练自己。这正是研究团队想要实现的目标——让AI模型具备自主出题和自我训练的能力。

当前的AI训练面临着一个巨大瓶颈:高质量训练数据的稀缺。就像一个想要提高数学水平的学生,如果只有简单的加减法练习题,永远无法掌握复杂的微积分。人工标注的高质量数据集不仅成本高昂,而且数量有限,而现有的合成数据往往过于简单或者覆盖面太窄,无法满足训练需求。

研究团队的解决方案非常巧妙。他们发现,如果让AI在出题时先构思"解题思路",然后根据这个思路来编写题目,就能大大提高题目的质量和难度。这就像一位经验丰富的老师,在设计考试题目时,会先想好"我要考查学生的哪些能力",然后围绕这个目标精心设计题目。

**一、从思路指导出题的创新理念**

传统的AI出题方法就像是让计算机随机组合一些数字和符号,希望能碰运气生成有意义的题目。这种方法的问题显而易见——大部分生成的题目要么过于简单,要么逻辑混乱。

PromptCoT 2.0采用了一种全新的"概念-思路-题目"三步走策略。首先,系统会确定要考查的核心概念,比如"指数运算"和"模运算"。然后,它会构思一个详细的解题思路,就像老师在备课时会想:"我要让学生先掌握指数的基本性质,然后理解模运算的规律,最后将这两个概念结合起来解决实际问题。"有了这个清晰的思路框架,系统再根据思路生成具体的题目。

这种方法的优势在于,生成的题目不再是随机拼凑,而是有明确逻辑结构的。就像一道精心设计的菜品,每个步骤都有其存在的意义,最终呈现出的是一个完整而和谐的整体。

研究团队还引入了一个关键的优化机制——期望最大化循环。这个听起来很技术化的名词,实际上就是让系统在出题过程中不断自我反思和改进。系统会评估自己生成的思路是否真的能指导出好题目,同时评估生成的题目是否真的体现了预设的思路。如果发现不匹配,系统就会调整策略,就像一个认真的老师会根据学生的反馈不断完善自己的教学方法。

**二、让AI自主学习的两种训练方式**

研究团队设计了两种不同的训练模式,分别适用于不同能力水平的AI模型。

第一种是"自我对弈"模式,适用于已经具备较强能力的AI模型。在这种模式下,AI系统就像一个武林高手,通过与自己过招来提升实力。系统会生成大量题目,然后尝试解答这些题目。如果答对了,就获得正反馈;如果答错了,就知道这类题目还需要加强练习。这种方式的最大优势是不需要依赖更强的外部"老师",完全靠自己就能实现能力提升。

研究团队用这种方法训练了Qwen3-30B模型,结果令人印象深刻。在数学竞赛AIME 2024上,模型的准确率从87.7%提升到92.1%;在AIME 2025上,从85.0%提升到89.8%;在编程竞赛LiveCodeBench上也取得了显著进步。这就像一个本来就很厉害的学生,通过自主练习进一步提高了成绩。

第二种是"有监督学习"模式,适用于能力相对较弱的AI模型。在这种模式下,系统会请一个"老师"(更强的AI模型)来示范解题过程,然后让学生模型观摩学习。这就像一个初学者跟着经验丰富的导师学习,通过观察导师的解题步骤来掌握方法。

令人惊讶的是,即使完全使用合成题目进行训练,这种方法也能取得出色效果。研究团队用7B参数的Qwen2.5模型进行实验,仅使用PromptCoT 2.0生成的题目进行训练,就让模型在AIME 2024上的准确率从12.8%飙升到73.1%,在编程任务上也有类似的巨大提升。这个结果甚至超过了使用人工标注数据训练的模型,证明了高质量合成数据的巨大潜力。

**三、题目质量的全面提升**

研究团队对生成题目的质量进行了深入分析,发现PromptCoT 2.0在多个维度都实现了显著改进。

从难度角度来看,新方法生成的题目明显更具挑战性。研究团队让一个强大的AI模型(Qwen2.5-72B)尝试解答不同方法生成的题目,发现PromptCoT 2.0生成的题目准确率最低,只有18.5%,而其他方法生成的题目准确率都在20%以上。这说明新方法确实能生成更有挑战性的题目。

更有趣的是,这些困难的题目也需要更复杂的解题过程。当研究团队让AI模型生成解题步骤时,发现PromptCoT 2.0的题目平均需要37,373个推理标记,远超其他方法。这就像是从简单的一步计算题升级到了需要多步推理的复杂应用题。

从多样性角度来看,新方法生成的题目也展现出了独特的特征。研究团队使用了一种叫做"多维标度"的分析方法,将不同数据集的特征投影到二维平面上进行比较。结果显示,现有的开源数据集在二维平面上聚集成紧密的团簇,说明它们彼此相似,缺乏多样性。而PromptCoT 2.0生成的题目则独占一个区域,与其他数据集明显分离,表明它具有独特的分布特征和更丰富的多样性。

**四、实验验证的全面性**

研究团队在六个不同的基准测试上验证了方法的有效性,涵盖了数学和编程两个重要领域。

在数学方面,他们选择了三个具有代表性的竞赛:AIME 2024和2025(美国数学竞赛的高级版本),以及HMMT 2025(哈佛-MIT数学竞赛)。这些竞赛题目通常需要高水平的数学推理能力,涉及代数、数论、几何和组合数学等多个分支。

在编程方面,他们选择了LiveCodeBench v5和v6(实时编程基准测试),以及Codeforces竞赛题目。这些测试涵盖了从算法设计到代码实现的完整编程能力评估。

实验结果一致显示,PromptCoT 2.0在所有测试中都取得了最佳表现。特别值得注意的是,在30B参数规模上,该方法在所有六个基准测试中都创造了新的最佳记录。这种全面的提升表明,方法的有效性不是偶然的,而是具有普遍适用性的。

研究团队还进行了扩展性分析,考察了在不同数据规模下方法的表现。结果显示,随着训练数据量的增加,PromptCoT 2.0能够持续受益,而传统的基于人工标注的方法很快就达到了性能天花板。这种良好的扩展性为未来的大规模应用提供了信心。

**五、技术实现的巧思**

PromptCoT 2.0的技术实现充满了巧妙的设计。整个系统分为两个阶段:冷启动初始化和期望最大化优化。

在冷启动阶段,系统需要建立基础的概念-思路-题目对应关系。研究团队收集了约15,000个来自数学和编程领域的现有题目,然后使用四个不同的大型语言模型来为每个题目标注相关概念和解题思路。这就像是给系统提供一批"示范案例",让它理解什么样的概念对应什么样的思路,什么样的思路又对应什么样的题目。

在优化阶段,系统会交替进行两个步骤。在E步骤中,系统会评估当前的思路生成质量,并根据评估结果调整思路生成策略。评估的标准是看生成的思路是否既符合给定概念,又能预测出合理的题目。在M步骤中,系统会根据当前的思路来优化题目生成过程,确保生成的题目与思路保持一致。

这种交替优化的过程就像是两个工匠相互配合:一个专门设计制作蓝图,另一个专门根据蓝图制作产品。通过不断的磨合和调整,两者最终能够完美协作,产出高质量的作品。

系统还引入了一个聪明的奖励机制。每当生成一个思路-题目对时,系统会计算这个组合的"联合似然性"——即这个思路和题目组合在一起的合理程度。似然性高的组合会得到正反馈,促使系统生成更多类似的高质量组合。

**六、实际应用的广阔前景**

PromptCoT 2.0的成功不仅仅是一个技术突破,更重要的是它为AI训练开辟了一条全新的道路。

在教育领域,这项技术可以帮助开发智能教学系统。系统可以根据学生的知识掌握情况,自动生成难度适宜的练习题。对于数学薄弱的学生,系统可以生成更多基础题目;对于已经掌握基础知识的学生,系统可以生成更有挑战性的综合应用题。这种个性化的题目生成能力将大大提高学习效率。

在AI开发领域,这项技术为解决训练数据稀缺问题提供了新思路。传统上,开发一个新的AI应用往往需要大量人工标注的训练数据,这不仅成本高昂,而且时间周期长。PromptCoT 2.0展示了通过高质量合成数据实现模型能力提升的可能性,这将大大降低AI应用的开发门槛。

在竞赛和评估领域,这项技术可以用于生成更多样化的测试题目。目前很多AI能力评估都依赖固定的基准测试,但这些测试可能已经被"记住"或者不够全面。动态生成的高质量测试题目可以提供更客观、更全面的能力评估。

研究团队还展望了向多模态扩展的可能性。目前的方法主要处理文本形式的数学和编程题目,未来可以扩展到包含图像、视频等多种媒体形式的题目生成。这将进一步扩大应用范围,比如生成包含几何图形的数学题或者需要视觉理解的编程任务。

**七、方法论的深层意义**

PromptCoT 2.0的成功背后体现了一个重要的方法论原则:结构化思维的力量。传统的数据生成方法往往是"拍脑门式"的随机组合,而这项研究强调的是先有清晰的思路框架,再据此生成具体内容。

这种思路在很多领域都有借鉴意义。比如在写作中,优秀的作者通常会先构思文章的逻辑框架,然后再填充具体内容,而不是想到哪写到哪。在产品设计中,成功的产品往往都有清晰的设计理念,然后围绕这个理念展开具体功能的实现。

从更广的角度来看,PromptCoT 2.0展示了"元学习"的巨大潜力。元学习简单来说就是"学会如何学习"。在这项研究中,AI不仅学会了解题,更重要的是学会了出题。这种能力的获得标志着AI向更高层次的智能迈进了一步。

研究团队的工作还揭示了一个有趣的现象:有时候合成数据的质量可以超越人工标注数据。这打破了长期以来"人工数据质量更高"的固有认知。当然,这需要足够巧妙的合成方法,而PromptCoT 2.0正是这样一种方法的成功示例。

**八、未来发展的无限可能**

展望未来,PromptCoT 2.0的影响可能远超当前的应用范围。

在科学研究领域,这种思路可能催生新的研究范式。科学家可以训练AI系统自动生成研究假设和实验设计,然后通过实际实验验证这些假设。这将大大加速科学发现的过程。

在创意产业中,类似的方法可以用于自动生成故事情节、游戏关卡、艺术作品等。AI系统可以先构思创作理念,然后据此生成具体的创意内容,为人类创作者提供灵感和助力。

在医疗诊断领域,这种方法可以用于生成多样化的病例场景,帮助训练更robust的诊断系统。通过模拟各种复杂和罕见的病例组合,可以提高AI诊断系统的准确性和可靠性。

研究团队也指出了一些需要进一步研究的方向。比如如何确保生成内容的伦理性和安全性,如何在更多领域验证方法的有效性,如何进一步提高计算效率等。

**九、对AI发展的启示**

PromptCoT 2.0的成功为AI发展提供了几个重要启示。

首先,它证明了"自我改进"在AI发展中的巨大潜力。与依赖外部数据或更强模型的传统方法不同,这种自我出题自我训练的方式展现了AI系统内在的成长能力。这为实现真正的通用人工智能提供了新的思路。

其次,它强调了结构化方法在复杂任务中的重要性。通过引入思路这个中间层,整个生成过程变得更加可控和高效。这提醒我们在设计AI系统时,应该更多考虑如何引入合适的结构化元素。

再次,它展示了合成数据的巨大潜力。随着AI能力的提升,高质量的合成数据可能成为训练更强AI系统的主要途径。这将减少对人工标注数据的依赖,降低AI开发的成本和门槛。

最后,它体现了评估反馈在AI学习中的关键作用。通过设计巧妙的奖励机制,系统能够自动识别高质量的内容并强化相应的生成策略。这为设计更智能的学习算法提供了参考。

说到底,PromptCoT 2.0不仅仅是一个技术方案,更是一种全新的AI训练哲学。它告诉我们,AI系统不应该只是被动地接受训练,而应该主动地参与到自己的学习过程中。通过让AI学会出题,我们实际上是在培养它的"思考能力"和"创造能力"。这种能力的培养可能是实现真正智能AI的关键一步。

研究团队已经将相关代码和数据集公开发布,为整个AI社区提供了宝贵的资源。相信在不久的将来,我们将看到更多基于这一思路的创新应用,推动人工智能向更高层次发展。归根结底,这项研究为我们展现了一个激动人心的未来:AI不仅能解决问题,更能提出问题,不仅能学习知识,更能创造知识。

Q&A

Q1:PromptCoT 2.0是什么?

A:PromptCoT 2.0是由香港大学和蚂蚁集团联合开发的AI训练方法,它能让人工智能自动生成高质量的训练题目。这种方法的核心思想是让AI先构思解题思路,再根据思路生成具体题目,就像老师备课时会先想好教学思路再设计习题一样。

Q2:PromptCoT 2.0比传统方法好在哪里?

A:传统方法生成的题目往往过于简单或逻辑混乱,而PromptCoT 2.0通过"概念-思路-题目"三步走策略,能生成更有挑战性和逻辑性的题目。实验显示,用这种方法训练的AI模型在数学竞赛AIME上准确率从87.7%提升到92.1%,在编程任务上也有显著提升。

Q3:普通人能用到PromptCoT 2.0技术吗?

A:虽然这项技术目前主要用于AI研究,但它的应用前景很广泛。未来可能会应用到智能教学系统中,根据学生水平自动生成合适难度的练习题,或者用于开发更智能的学习辅助工具。研究团队已经公开了相关代码,为进一步应用开发奠定了基础。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。