香港科技大学等发现：给AI"上课"，教材顺序比内容本身更重要？

IP属地中国·北京 科技行者 时间：2026-05-20 18:30:38

这项由香港科技大学、复旦大学和腾讯微信AI联合开展的研究，发表于2026年第43届国际机器学习会议（ICML 2026），论文编号为arXiv:2605.13511。有兴趣深入了解的读者可以通过该编号查询完整论文。
研究的核心问题听起来并不复杂：当你给一个大语言模型（也就是现在各种AI聊天工具背后的技术）提供越来越多的"例题"时，它的表现会越来越好吗？这个问题的答案，在过去几年里一直被默认为"是的"——直到这支研究团队发现，事情远比人们以为的要复杂得多。
一、为什么"多给例题"这件事值得认真研究？
要理解这项研究的意义，需要先了解一个AI领域的基础概念：上下文学习。通俗地说，现在的大语言模型不需要反复训练就能学会新任务，只需要在提问前放几个"示范例子"，它就能照葫芦画瓢。这就像你第一次学做饭，师傅在旁边演示几道菜，你就能依样画出来，而不需要去厨师学校上几个月课。
随着AI模型能处理的文字量越来越大（从几百字到几十万字），研究者们开始尝试放入几十甚至几百个示范例子，发现效果越来越好，甚至能赶上专门训练的模型。这个发现让人们产生了一个自然的想法：既然多放例子有效，那就多放呗。顺序乱一点也没关系，反正数量够多之后，效果就会趋于稳定。
然而，上面这套理论有一个巨大的盲区：它几乎全部建立在"非推理任务"上。所谓非推理任务，就是分类、情感判断这类不需要一步步推导的工作。而当AI需要解数学题、做几何证明、或者在侦探故事里推断凶手时，情况就完全不一样了。研究团队正是注意到了这个盲区，系统性地研究了"带有推理步骤的示范例子"在大量提供时究竟会发生什么。
这里需要解释一个关键概念——思维链（Chain-of-Thought，简称CoT）。当AI解答一道数学题时，它可以直接给出答案，也可以先写出一步步的推导过程，最后再给出答案。这个"一步步推导的过程"就叫做思维链。带有思维链的示范例子，自然就比普通示范例子长得多、复杂得多。研究团队研究的正是：大量提供这类带推理步骤的例子时，效果如何？
二、不同模型、不同任务，结果天差地别
研究团队设计了一套严谨的实验框架，横跨两个维度展开：一是任务类型，分为不需要推理的分类任务（比如判断银行客服问题属于哪类意图，或者问题分类）和需要推理的数学题（几何、数论、代数等）以及叙事推理（像侦探小说里的推断）；二是模型类型，分为普通指令型模型（如LLaMA、Qwen2.5系列）和专门强化过推理能力的模型（如Qwen3系列、QwQ和DeepSeek-R1）。
实验结果呈现出一幅泾渭分明的图景。对于不需要推理的分类任务，无论用哪种模型，给的示范例子越多，效果就越好，而且非常稳定。这和过去研究的结论完全吻合，可以认为是一条被验证过的规律。
然而，一旦任务切换到数学推理，普通指令型模型的表现就像坐上了一辆颠簸的过山车。给它16个带推理步骤的示范例子，效果还行；给它50个，可能反而变差；给到80个，又可能稍微好一点——完全没有规律可言。更令人意外的是，即便是参数规模高达700亿的LLaMA 3.3，也同样会因为加入更多推理示范例子而出现性能下滑。规模大并不能解决这个问题。
反观专门强化了推理能力的模型，情况却截然相反。QwQ（320亿参数）和DeepSeek-R1（6850亿参数），随着推理示范例子数量的增加，性能几乎单调上升，既稳定又可观。更小的Qwen3系列（80亿和140亿参数）也呈现出类似的正向增长趋势。
这说明什么？能不能从大量推理示范例子中受益，并不只是"例子够不够多"或者"模型够不够大"的问题，而是模型本身有没有一套"内化推理步骤"的机制。研究团队进一步做了一个对照实验来验证这一点：他们在给Qwen3系列模型提供128个示范例子时，比较了"开启思考模式"和"关闭思考模式"两种状态下的表现。结果显示，一旦关闭了模型生成中间推理过程的能力，在几何和数论任务上的准确率都明显下滑。更有趣的是，当开启思考模式并将示范例子从16个增加到128个时，Qwen3-14B的几何题准确率从66.18%提升到73.07%，与此同时，它在思考过程中生成的文字量减少了24%——这意味着更多的示范例子帮助模型把解题流程内化了，它不再需要那么多"思考时间"就能给出正确答案。就像一个熟练的厨师，做过几百次同类菜肴之后，已经不需要一边看食谱一边下厨了。
三、"找相似题目"这个直觉为什么在推理任务上失灵了？
普通ICL有一个广为人知的策略：找和当前问题最相似的示范例子，效果最好。这背后的逻辑很直观——如果你要学做宫保鸡丁，最好的示范当然是同类川菜，而不是法式甜点。
研究团队用一个完整的实验检验了这个策略是否在推理任务上同样有效。他们用一个先进的文本嵌入模型，把所有题目转化成向量，然后通过计算"语义距离"，对每道测试题都构建两组示范：一组是"最相似的K道题"，另一组是"最不相似的K道题"。
对于银行业务意图分类这类非推理任务，结果非常符合预期：最相似的示范组表现明显更好，越多越稳定，这印证了"找相似例子"策略的有效性。
然而，当同样的策略用于几何、数论和侦探推理任务时，结果完全颠倒了。在这些任务上，最相似的示范组不仅没有最好，反而持续比原始随机组和最不相似组的效果更差。这个结论在普通指令型模型和推理专用模型上都成立。
为什么会这样？研究团队给出了一个非常直观的解释，并附了一个具体例子：测试题是一道关于直角三角形中垂线长度的几何题，语义上最相似的示范例子是另一道涉及相同图形词汇的题，但那道题的解法依赖30-60-90度的特殊比例关系，而测试题的解法需要用面积相等的方法。两道题在题面上看起来很像，但解题的"内功路数"完全不同。当模型被"相似题"的解题方式带偏之后，反而更容易走错路。
用一个更生活化的比喻来说：表面上都是"烩菜"，但一道需要先炸后焖，另一道需要直接清炒——这两道菜的步骤不但不能互相帮助，照着对方的方法做反而会搞砸。"题目相似"不等于"解题流程相似"，而推理任务最关键的恰恰是流程，不是表面的题目形式。
四、示范例子的顺序，竟然越给越重要？
过去的研究告诉我们，在非推理任务中，随着示范例子增多，顺序的影响会逐渐消失。换句话说，例子足够多之后，不管怎么排列，效果都差不多。这个发现让很多研究者松了口气，觉得至少不用在排列顺序上费神了。
研究团队发现，推理任务的情况再次走向了反方向。他们的实验方法是：取同一组示范例子，随机打乱顺序五次，分别测试准确率，然后计算这五个结果的标准差（可以理解为"波动幅度"）。对于非推理任务，这个波动幅度随着示范例子增多而减小，符合既有规律。但对于推理任务，波动幅度随着示范例子增多而增大——例子给得越多，顺序对结果的影响反而越来越大。
这个规律在普通模型和推理专用模型上都存在。这意味着，当你用大量带推理步骤的示范例子来引导一个AI做推理任务时，这些例子的排列顺序不可忽视，而且随着规模增大，顺序的重要性只增不减。
这一发现让人想到一个场景：当老师只给学生做三道例题，顺序乱一点无所谓；但如果要系统地讲完一整本教材，章节安排不合理，学生就会越学越乱。推理任务中的AI，似乎也在经历类似的过程。
五、从"查字典"到"上课"：重新理解AI是怎么学的
把前面几个发现放在一起，研究团队提出了一个全新的理解框架：大量带推理步骤的示范例子，本质上不是让AI"查字典"——找到和当前问题最像的例子，照着格式抄答案——而是在让AI"上课"，通过一系列有序的示范，逐步构建起解决某类问题的内在程序和方法论。
为了更直接地验证模型确实在"吸收解题流程"而不仅仅是"记住答案格式"，研究团队做了一个精巧的破坏性实验。他们保留了所有示范例子的题目和最终答案，但把每道题的推理步骤全部替换成同一个固定的步骤（取自第一道题）。这样，题目和答案都是正确配对的，只是每道题的推理过程都被"污染"成了同一个不相关的过程。
实验结果清楚地表明：当示范例子只有16个时，"被污染版本"和"正常版本"的效果几乎没有差别，说明少量示范时模型更多依赖题目和答案的映射关系。但当示范例子增加到128个时，"被污染版本"的效果明显下降，说明此时模型确实在读取并内化那些推理步骤，而不只是记格式。这就如同：老师讲三道例题时，你可以靠"看老师写的答案"来模仿格式；但等老师讲了一整章，你就必须真正理解推导过程，否则根本跟不上。
基于这个理解框架，研究团队提炼出两条示范例子设计的核心原则。第一条是"易于理解"：示范例子必须落在模型当前能够理解和消化的范围内，太难或者风格不匹配的例子，反而会让模型无所适从。第二条是"流畅衔接"：示范例子之间的过渡应该尽量平滑，避免概念上的大幅跳跃，就像好的教材每章都自然衔接下一章，而不是突然跳到毫不相关的新主题。
六、让AI自己出的题，竟然比标准答案更好用？
第一条原则——"易于理解"——在实验中产生了一个相当反直觉的发现。研究团队比较了四种不同来源的示范例子：数据集提供的标准答案（相当于教材上的官方解法）、AI模型自己生成的带正确答案的解法、AI模型自己生成的带错误答案的解法，以及用更强大的模型生成的解法来给较弱的模型当示范。
结果出乎意料：模型自己生成的解法，无论答案对错，在作为示范例子时，效果往往优于数据集提供的标准解法。甚至更令人意外的是，让一个较弱的模型用自己偶尔生成的错误解法作为示范，有时候效果也比用标准解法更好。用一个强大模型生成的示范去引导弱模型，效果则往往不如弱模型的自我示范。
为什么会这样？答案在于"语言风格和思维方式的匹配度"。每个模型在生成文字时都有自己的习惯和偏好，自己生成的内容自然与自己的"解读方式"最为契合，即便偶尔包含错误，也能更顺畅地传递解题的逻辑结构。而标准解法或者强模型的解法，虽然内容质量更高，但风格上的"水土不服"会让弱模型难以从中提取有效信息。
这个规律也有一个值得关注的边界条件：随着模型能力的提升，这种"自我示范优势"会逐渐缩小。Qwen3-14B从自我示范中获得的额外收益，就明显小于Qwen3-8B。能力更强的模型能够更好地"读懂"并利用标准解法，就像高年级学生看专业教材，比低年级学生更能从中受益。
七、"弯道越少越好"：用曲率来衡量示范顺序的质量
第二条原则——"流畅衔接"——催生了研究团队最具创新性的方法论贡献。他们需要一种方法来量化"示范例子之间的过渡是否平滑"，为此引入了一个借自几何学的概念：曲率。
操作方式如下：把每一个示范例子（题目加推理步骤加答案，合为一体）用一个向量来表示，可以把它理解为在一个多维空间里的一个"位置点"。当你按照特定顺序排列所有示范例子时，这些位置点就连成了一条曲线。如果从一个点到下一个点的方向变化很小，曲线就比较平直；如果方向突然大幅改变，就说明这里出现了一个"急弯"。研究团队用所有位置点上"急弯程度"的总和来衡量一种排列顺序的"总曲率"。
研究团队对三类数学推理任务（几何、数论、计数与概率）进行了系统性验证，计算了多种随机排列顺序的总曲率，并与对应的模型准确率进行关联分析。结果发现，曲率越低（即顺序越平滑），模型准确率越高，整体相关系数达到了-0.547。其中，计数与概率任务的相关性最强，达到-0.628；几何任务为-0.545；数论任务为-0.468。这意味着，"怎么排列示范例子"对推理任务的影响是可以被量化、被优化的。
这一发现也为前面观察到的"顺序影响随规模增大"现象提供了一个清晰的解释：当示范例子很少时，不同随机排列的曲率差异不大；但当例子越来越多，随机排列出现"急弯"的概率越来越高，自然导致不同顺序之间的效果差距越来越大。
八、曲线排列法：一个简单有效的实践方案
基于曲率-准确率的关联，研究团队提出了一个名为"曲线示范选择"（CDS，Curvilinear Demonstration Selection）的方法。顾名思义，这个方法的目标是找出一种让总曲率尽可能低的示范排列顺序。
直接求最优排列在数学上等价于"旅行商问题"——要在几十或上百个点中找出总路程最短的访问顺序，穷举所有可能性几乎不可能完成。因此研究团队采用了一套实用的近似方案：首先构建一个完整图，图中每对示范例子之间的"距离"由两部分组成，一是向量空间中的实际距离（保证相关内容靠在一起），二是转弯幅度的惩罚项（避免急转弯）；然后用"最近邻启发式"算法快速找到一条较短的路径，再用"2-opt局部搜索"进一步优化。整个计算过程在普通笔记本电脑上处理128个示范例子，用不到一分钟。
研究团队还设计了一个严谨的对照实验来确认"曲率低本身是有效的"，而不仅仅是因为"把相似内容排在一起"。他们用完全相同的示范例子、相同的"相邻内容放在一起"的约束，构建了两种相反的排列：一种尽量减少急弯（CDS），另一种刻意制造急弯但同样保持相邻内容靠近（高曲率对照组）。如果只是"相似内容聚类"在起作用，两者的效果应该差不多；而如果"转弯平缓"本身有价值，CDS应该更好。实验结果支持了后者：CDS在几何和数论任务上持续优于高曲率对照组。
从最终的实验数据来看，CDS在几何任务上最多能带来5.42个百分点的准确率提升（在64个示范例子时），在侦探推理任务上也有稳定的收益。在数论任务上，提升幅度相对较小，主要是因为基准准确率已经相当高，提升空间有限。这些收益在替换为不同的文本嵌入模型后依然稳定，对商用闭源模型（研究中用了gpt-5.2）同样有效。
说到底，这项研究改变了我们看待"给AI提供示范例子"这件事的方式。在推理任务上，不是给越多越好，不是找越像越好，不是顺序随机就无所谓——这三条"以为可以偷懒"的直觉，全部被推翻了。真正有效的做法，更接近于给学生设计一套课程：示范内容要符合学生当前的理解水平，前后例子之间要自然衔接，而不是东拼西凑地堆材料。
当然，这项研究也留下了一些开放性的问题。CDS方法目前主要在数学和叙事推理任务上验证，是否在其他推理场景中同样有效，还有待进一步探索。自我生成示范例子的策略在实际使用中需要额外的计算资源，如何在效果和效率之间取得平衡，也是未来可以深入研究的方向。此外，为什么推理专用模型能够从示范中受益而普通模型不能，其内部机制尚未完全阐明。
对于有兴趣深入了解这些问题的读者，可以通过arXiv编号2605.13511找到完整论文，作者团队来自香港科技大学、复旦大学和腾讯微信AI，发表于2026年第43届国际机器学习会议。
Q&A
Q1：为什么给AI更多推理示范例子反而可能使效果变差？
A：在推理任务中，如果示范例子的排列顺序不合理，或者例子的思维方式与模型自身不匹配，大量示范反而会"带偏"模型的解题方向。研究发现，问题不在于数量，而在于顺序是否平滑过渡、内容是否与模型当前能力相符。普通指令型模型尤其容易受到这种负面影响，而专门强化推理能力的模型则能从更多例子中稳定获益。
Q2：曲线示范选择（CDS）方法是怎么工作的？
A：CDS的核心思路是把每个示范例子（题目加推理步骤加答案）转化为向量，然后寻找一种排列顺序，使得相邻例子之间的"概念跳跃幅度"尽可能小。研究发现，顺序越平滑（曲率越低），模型的推理准确率越高。实际操作中，CDS用一种类似"旅行商路径优化"的算法快速找到合理顺序，整个计算在普通电脑上处理128个例子只需不到一分钟，最多可带来5.42个百分点的准确率提升。
Q3：为什么用AI自己生成的示范例子（哪怕答案有错）有时比标准答案效果更好？
A：每个AI模型都有自己的"语言习惯和思维方式"，自己生成的内容与自身的解读风格天然契合，因此更容易被模型自身理解和内化。标准答案虽然内容正确，但书写风格可能与模型不匹配，造成"水土不服"。不过，随着模型能力增强，这种优势会逐渐减弱，能力更强的模型能够更好地从标准解法中提取有效信息。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

当AI改进自己：递归自我改进与AI监管

美国AI编程智能体Claude Code有“后门”，阿里内部全面禁用

平晓黎是百度的蒋凡吗？

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

全站最新

当AI改进自己：递归自我改进与AI监管

美国AI编程智能体Claude Code有“后门”，阿里内部全面禁用

平晓黎是百度的蒋凡吗？

宝马全新iX7谍照来袭！外观内饰亮点多，与BBA同级车再聚首

热门推荐

当AI改进自己：递归自我改进与AI监管

美国AI编程智能体Claude Code有“后门”，阿里内部全面禁用

平晓黎是百度的蒋凡吗？

浙江交投低空基础设施产业发展公司登记成立注册资本2亿

Momenta携“物理AI”赴港上市，智驾赛道角逐下能否突围？

车企涨价，一场关于定价权的试探

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

虐待学员戒网瘾机构成立仅1年

长城汽车代理要返点90%？博主和品牌被同一个中间商耍了？

《燕云十六声》与《逃离塔科夫》跨界联动，7月10日“渡尘墟”玩法全新上线

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”