![]()
这项由英伟达(NVIDIA)研究团队主导的研究发表于2026年6月,论文编号为arXiv:2606.18216,有兴趣深入了解的读者可以通过该编号查询完整论文。
**研究背景:小模型的困境与大模型的傲慢**
每个人口袋里的手机、戴在脸上的AR眼镜、甚至未来家里的机器人,都受到一个铁律的约束:算力有限,内存有限,不可能塞进去一个动辄拥有几百亿参数的超级大模型。然而现实是,几乎所有令人印象深刻的AI进步,都发生在那些庞然大物级别的模型身上。这就像一家餐厅里,只有主厨能做出米其林级别的菜肴,而负责给顾客端菜的小伙计永远只能炒个蛋炒饭——不是能力不够,而是根本没有那么大的灶台。
英伟达的研究团队发现,现有的两种主流"培训小伙计"的方法,都存在根本性的缺陷,而他们提出的新方法ZPPO(Zone of Proximal Policy Optimization,近端发展区策略优化),则找到了一条全新的路径。这项研究在最小的0.8B参数模型上,让视觉语言理解能力提升了9.3个百分点;在跨越10个纯语言测试、16个视觉语言测试和5个视频理解测试共计31个基准测试的综合评估中,全面超越了此前所有对比方法。
**一、现有方法为什么失灵?**
要理解ZPPO的价值,先得搞清楚原有方法的问题在哪里。现有培训小模型的方法主要分两大流派。
第一种叫"知识蒸馏",可以理解为让小学生照着大学教授的笔记抄作业。具体操作是:让大模型生成答案,然后要求小模型模仿大模型在每个词上的概率分布——不只是抄答案,而是连"我有80%的把握选这个词,10%的把握选那个词"这样的细节分布都要学。问题是,一个只有0.8亿或20亿参数的小模型,根本没有足够的"脑容量"来吸收这么精细的信息。就像让一个三岁小孩背诵博士论文,他不是在理解,而是在死记硬背。最终的结果是:小模型在训练数据的范围内表现还凑合,但一旦遇到训练数据之外的新题目,立刻原形毕露,甚至比什么都不训练还要差。研究数据显示,知识蒸馏方法在视觉语言测试之外的纯语言测试上,让小模型的表现下滑了1.8到2.5个百分点,这意味着所谓的"学习"反而是一种退步。
第二种方法叫"强化学习",更类似于让小学生自己做题,做对了给奖励,做错了让他反思。这种方法的优势在于不需要抄笔记,模型从自己的实际尝试中学习。然而它也有一个致命的盲点:当小模型遇到一道太难的题,八次尝试全部答错时,系统发现这道题没有任何有参考价值的对比信息,于是直接把这道题扔掉,不纳入训练。恰恰是那些小模型最需要帮助的题目,被系统悄无声息地抛弃了。有人想到了一个"简单"的修补方案:把大模型的正确答案直接塞进强化学习的计算过程,当作小模型自己答对的答案来处理。这等于是作弊,因为大模型的思维方式和表达风格与小模型相差太远,这种做法会让小模型的行为越来越偏离自身的真实水平,产生所谓的"策略漂移"。
**二、ZPPO的核心思想:老师住在题目里,而不是答案里**
英伟达团队从苏联著名心理学家维果茨基(Vygotsky)那里借来了一个概念,叫做"近端发展区"(Zone of Proximal Development)。这个概念说的是:孩子在没有帮助时能够独立完成的事,和在有人指导时能够完成的事,两者之间存在一个区间。真正有效的学习,发生在这个区间里——既不是简单到不需要帮助,也不是难到帮了也没用。
ZPPO的解决方案非常优雅:不要把大模型的答案放进计算梯度(即影响模型参数调整)的环节,而是把它放进题目的背景信息里。大模型依然提供指导,但这种指导是以"题目的一部分"出现的,小模型读完题目之后,仍然用自己的能力去生成答案。计算梯度时,参与计算的永远是小模型自己生成的回答,而不是大模型的答案。这就像是:老师在黑板上写了两种解题思路,但不告诉你哪个是对的,要求你自己判断哪种更合理,然后独立写出自己的解答。老师的帮助确实在那里,但答案是你自己写的,学到的是你自己的。
**三、BCQ和NCQ:两种精心设计的题目改造方式**
ZPPO识别出两类特别难的题目——那些小模型用普通方法尝试多次、正确率低于50%的题目——并对它们进行两种不同方式的改造。
第一种改造叫做"二元候选问题"(Binary Candidate-included Question,简称BCQ)。操作流程是这样的:系统先让大模型来尝试这道题,如果大模型答对了,就取一个大模型的正确推理过程;同时也取小模型之前答错时的一个错误推理过程;然后把这两段推理都压缩成简短的摘要,打乱顺序,贴上匿名标签"候选A"和"候选B",都放进题目里,附上说明:"这道题有两个候选回答,一个正确,一个错误,请判断哪个更合理,然后给出你自己的答案。"小模型读完改造后的题目,看到两个匿名的候选推理,必须靠自己的判断力去辨别哪个更合理,然后独立生成答案。关键在于两点:第一,候选是匿名的,没有任何标签告诉小模型"这个是老师的答案";第二,参与训练的是小模型自己写的答案,而不是大模型的答案。
第二种改造叫做"负面候选问题"(Negative Candidate-included Question,简称NCQ)。这种方法不需要大模型提供正确答案,而是把小模型自己在这道题上的所有错误尝试都收集起来,压缩后全部放进题目里,然后明确告诉小模型:"下面这些推理过程和答案全都是错的,请你分析这些错误,然后给出正确答案。"这有点像老师拿着学生之前的八份错误试卷,把它们全部摆在学生面前说:"这些你之前全答错了,仔细看看你犯了什么共同的毛病,然后重新做一遍。"NCQ的独特价值在于:在正常的训练过程中,小模型的每次尝试都是独立的,它根本不知道自己反复在犯同一类错误。NCQ是唯一一个让小模型能够"看见"自己集体失败模式的机会。
**四、提示词回放缓冲区:反复练习困难题目**
除了BCQ和NCQ这两种题目改造方式,ZPPO还设计了一个"提示词回放缓冲区"(prompt replay buffer)。这个缓冲区的运作逻辑非常直观:把那些小模型正确率低于50%的难题存起来,在后续的训练中反复拿出来练习,直到小模型在这道题上的正确率达到50%(称为"毕业"),才把它从缓冲区中移除。如果缓冲区满了,就按照先进先出的原则,把最老的题目踢出去。每次把存储的难题拿出来重新练习时,系统会重新生成新的BCQ和NCQ改造版本——不是固定使用上次的版本,而是根据小模型当前状态重新构建。这意味着每次重遇同一道难题,小模型面对的都是全新的候选组合,始终保持挑战性。
研究数据显示,单独使用回放缓冲区(没有BCQ和NCQ)的效果非常有限,在0.8B模型上只带来约1.6个百分点的提升;单独使用BCQ和NCQ(没有回放缓冲区)同样效果平平;但两者结合起来,效果却远超各自之和——这种超加性的组合效果,正是因为回放缓冲区让困难题目得以被多次练习,而每次练习都有全新的BCQ/NCQ候选内容注入新鲜的学习信号。
**五、训练配方中的两个关键细节**
在这三大核心组件之外,研究团队还发现了两个看似不起眼、实则影响巨大的训练细节。
第一个是"每步更新次数"。传统的GRPO强化学习方法默认在每批数据上进行16次梯度更新,而ZPPO选择了4次。研究团队发现,更新次数太多会导致模型参数偏离当前状态太远,产生所谓的"离策略漂移";但更新次数太少则训练效率低下。4次恰好处于最佳平衡点,在三个测试集上的表现都明显优于1次、8次或16次的设置。
第二个是"批次优势归一化"。在强化学习中,每道题的每次尝试都会被赋予一个"优势分数",用来衡量这次尝试比平均水平好多少或差多少。当一道题的所有尝试全部正确或全部错误时,所有尝试的优势分数都是零,这些"零优势组"对训练没有任何贡献。ZPPO的做法是:在计算用于归一化的统计量(均值和标准差)时,把这些零优势组排除在外。如果把零优势组也纳入统计,它们的大量零分会把标准差拉低,导致那些有意义的非零优势分被人为放大,反而扰乱了训练信号。这个只需改动一行代码的细节,对最终性能的影响却相当显著。
**六、实验结果:越小的模型,提升越大**
研究团队在Qwen3.5系列的四个规模(0.8亿、20亿、40亿、90亿参数)的学生模型上,以270亿参数的Qwen3.5作为教师模型,进行了全面测试。训练数据集是一个包含约77000道多模态题目的数据集(ZPPO-77K),测试则覆盖了16个视觉语言基准、10个纯语言基准和5个视频理解基准。
在视觉语言测试上,与基础模型相比,ZPPO为0.8B模型带来了9.3个百分点的提升,为2B带来5.2个百分点,为4B带来4.0个百分点,为9B带来2.8个百分点。这个趋势非常清晰:越小的模型,提升越大。这是意料之中的,因为小模型与大模型之间的能力差距最大,BCQ能提供的额外学习信号也最多。
在纯语言基准和视频理解基准上,ZPPO同样带来了显著提升,而知识蒸馏方法在这些测试上反而让模型变差了。这一点尤为重要:ZPPO的训练数据是视觉语言问题,但在完全没有训练过的纯语言测试上,ZPPO也能带来正向迁移。而知识蒸馏方法则相反——它在视觉语言测试上只有微弱改善,却在纯语言和视频测试上造成了明显退步。
在困难题目的"毕业"比较上,研究数据格外说明问题。对于那些初始正确率为零(小模型八次尝试全部答错)的最难题目,ZPPO能让28%的题目最终"毕业"(正确率提升到50%以上),而没有BCQ和NCQ的对比方法只能让4%的题目毕业。对于初始正确率为12.5%(八次中答对一次)的题目,ZPPO的毕业率是54%,对比方法仅为14%。
**七、不同组件的贡献分析**
研究团队还系统地测试了去掉各个组件后的影响,以确认每个设计的必要性。结果显示,BCQ、NCQ和回放缓冲区三者缺一不可——去掉任何一个,在所有规模上的表现都会下降。
一个有意思的规律是:在较小的模型(0.8B、2B)上,BCQ的贡献更大;而在较大的模型(4B、9B)上,NCQ的贡献逐渐超过BCQ。原因在于,当学生模型越来越强,留下的那些"难题"往往也是大模型教师做不出来的题目——此时BCQ无法提供正确的候选推理(因为教师也答不对),只能依赖NCQ来展示集体错误模式。这一发现揭示了ZPPO的一个根本性限制:如果教师模型也无法解答某道题,BCQ就失去了用武之地,只剩下NCQ在独撑局面。
研究团队还将BCQ与两种类似思路的方法进行了比较:一种是"提示词提示"(Hint),即把大模型解题的关键思路(不含答案)以提示形式放入题目;另一种是"前缀注入"(Prefix),即把大模型解答的前40%内容直接作为前缀,强制小模型从这里接续生成答案。测试结果表明,提示词提示在视觉语言测试上有一定帮助,但在纯语言和视频测试上几乎没有迁移效果;前缀注入的效果更差,因为大模型的前缀文字会引入离策略漂移问题。两者都不如完整的ZPPO方案。
**八、教师规模的影响**
研究团队还测试了当教师模型规模缩小时(从270亿缩减到90亿、再到40亿)会发生什么。结果很直观:教师越小,ZPPO的提升越少。这是因为BCQ需要教师能够在学生做不到的地方做对——如果教师和学生能力接近,教师提供的正确候选推理就越来越少,BCQ能带来的学习信号也随之枯竭。在0.8B学生模型配合40亿教师的组合中,BCQ带来的额外收益几乎消失,ZPPO退化到接近仅有NCQ的效果。
**九、一个有趣的验证:BCQ真的在"思考"吗?**
有人可能会担心:BCQ提供了正确和错误两个候选,小模型是否只是简单地"抄"了正确候选的答案,而不是真正学会了判断?研究团队为此进行了详细的审计。他们分析了训练接近尾声时1528个BCQ推理样本,检查每个样本的最终答案与哪个候选更接近。结果显示,BCQ的整体准确率在36%到69%之间,而不是接近100%——如果小模型只是在抄答案,准确率应该接近100%。进一步分析发现,在答对的样本中,有78%到91%与正确候选的答案匹配;在答错的样本中,有77%到97%与错误候选的答案匹配。这说明小模型确实在两个候选之间做出了选择,而不是盲目照抄,它答对时是因为成功识别了正确候选,答错时是因为被错误候选所误导——这正是真实的判断学习在发生。
对于NCQ的审计同样揭示了有趣的规律:在0.8B模型上,82.7%的NCQ推理结果仍然重复了被明确告知"全部错误"的答案——这个最小的学生模型根本没有足够的能力来对抗自己的集体错误认知。但随着规模扩大,这个比例急剧下降:2B模型只有2.2%重复错误答案,4B和9B模型更是降到不到1%。这完美解释了为什么NCQ在0.8B模型上效果有限,而在更大的模型上越来越有效。
说到底,这项研究的核心贡献在于找到了一个简单而有效的原则:让大模型的智慧以"题目背景"的形式存在,而不是以"正确答案"的形式出现在训练过程中。这个区别看似微小,实则根本——前者让小模型自己做判断,后者让小模型直接照抄。正如维果茨基的教育理论所揭示的,真正有效的学习发生在挑战与帮助之间的那个微妙区间。
ZPPO还有一个明确承认的局限性:当教师和学生都无法解答某道题时,BCQ就无从发挥,只剩NCQ在维持局面。如何让学生的学习能力超越当前教师所能覆盖的范围,是这项研究留给后人的重要开放问题。对于有兴趣深入了解技术细节的读者,包括完整的算法伪代码、所有31个基准测试的详细数据、以及各种消融实验的完整结果,均可通过arXiv编号2606.18216查阅原始论文。
Q&A
Q1:ZPPO和普通知识蒸馏方法有什么本质区别?
A:普通知识蒸馏让小模型直接模仿大模型每个词的概率分布,小模型必须把大模型的"思维方式"完整复制下来。ZPPO则完全不同:大模型的推理过程只是作为题目的背景参考信息出现,小模型读完题目后必须自己独立生成答案,参与训练计算的永远是小模型自己写的回答。知识蒸馏好比让学生照着老师的答案抄,ZPPO则是把正确答案和错误答案都匿名呈现给学生,让学生自己判断哪个更合理然后独立作答。
Q2:BCQ为什么要把候选答案匿名处理?
A:匿名处理是BCQ设计的核心。如果告诉小模型"候选A是老师的正确答案",小模型只需要无脑选A就能得分,根本不需要真正理解两个推理过程的差异。匿名处理后,小模型必须真正比较两段推理的质量和逻辑严密程度,才能做出判断。研究团队的审计数据也证实了这一点:BCQ的准确率在36%到69%之间,如果小模型只是照抄正确候选,准确率应该接近100%才对。
Q3:ZPPO在小模型上效果更好的原因是什么?
A:原因来自两个方面。首先,小模型与大模型之间的能力差距更大,BCQ能提供更多"教师做对而学生做错"的题目,学习信号更丰富。其次,小模型的"近端发展区"更宽,有更多原本完全不会、但在BCQ帮助下能够学会的题目。随着模型规模增大,剩余的困难题目越来越接近教师模型也无法解答的范围,BCQ的候选池逐渐枯竭,提升空间自然缩小。数据上的体现就是:0.8B模型提升9.3个百分点,而9B模型只提升2.8个百分点。





京公网安备 11011402013531号