![]()
当我们做一道复杂的数学题时,脑子里会先进行大量的推理和计算,但不一定要把每一步都说出来。我们可能先在心里想清楚,最后才告诉别人答案。这个来自北京航空航天大学和滴滴出行的研究团队最近做了一件有趣的事:他们让人工智能也学会了这种思考方式。
这项研究发表于2026年1月,论文编号为arXiv:2601.21358。研究团队由北京航空航天大学的王杰聪、彭浩和滴滴出行的刘春阳组成。他们提出了一个名叫PLaT(Planning with Latent Thoughts,潜在思想规划)的全新框架,这个框架的核心理念非常简洁优雅:把大模型的思考过程和表达过程彻底分开。
为了理解这个突破为什么重要,我们需要先了解目前AI处理复杂问题的主要方式。从2022年开始,所谓的"思维链"技术(Chain-of-Thought)彻底改变了大型语言模型解决复杂问题的方式。这个技术的基本逻辑是:与其让模型直接给出答案,不如让它一步步把推理过程写出来。这就像看着一个人在纸上慢慢推导数学题,最后才得出答案。
这个方法效果不错,但它有一个根本性的问题。每当模型产生一个词语时,它就在固定一个选择,这可能会无意中放弃其他正确的推理路径。想象你在走迷宫,如果每走一步就要决定最终的方向,一旦选错了某个转弯,之后就很难回头修正。这就是"推理路径崩溃"的含义。而且,这种逐字逐句生成推理步骤的方式计算成本极其昂贵,特别是对于长推理链来说。
为了解决这个问题,最近这两年出现了一些新的方法,试图把推理过程隐藏在模型的内部,用看不见的数值向量(称为"隐藏状态")来进行思考,而不是一直生成文字。这样理论上应该更高效,也不会因为逐字生成而陷入死胡同。但现有这些方法也有明显的不足:首先,内部推理过程完全是黑箱,人类无法看到或理解模型究竟在想什么;其次,这些方法通常要求模型在推理前就决定好要思考多少步,这显然不符合人类的思维方式。我们在做简单问题时只需要几秒思考,做难题时可能需要几分钟,而不是一直花同样的时间。
北航和滴滴的研究团队认识到,解决这个问题需要从根本上借鉴人类认知的运作方式。在人类的思维中,大脑和语言功能其实是分开的。你的大脑可以进行复杂的无声思考,而语言只是在需要与外界交流时才被启动。语言本质上是高维思想的一个低维投影——它只能传达思想的一部分,而真正的推理可能完全不需要言语化。正是基于这个观察,他们设计了PLaT这个框架。
PLaT的架构包含两个完全独立的部分:一个"规划者"(Planner)和一个"解码器"(Decoder)。规划者在一个持续进化的隐藏状态空间中工作,就像大脑在持续思考。这些隐藏状态形成了一条轨迹,一步步地接近问题的解答,但这一切都在数值空间中进行,没有任何文字产生。当需要与外部世界交互时——比如需要说出一个推理步骤或最终答案——解码器就会接手,把这些抽象的数值思想翻译成人类能理解的文字。这个翻译过程可以通过一个称为"重构目标"的机制来完成,基本逻辑是:给定一个内部思想,能否准确地产生对应的文字描述。
这个设计带来了几个重要的好处。第一,推理过程不再需要固定步数。当规划者判断它已经充分思考后,它可以自动决定停止,而不需要某个预先设定的"思考时间"。这种动态终止机制让系统能够根据问题的难度灵活调整自己的思考深度。第二,隐藏的思想状态现在是可解释的。虽然规划过程是在数值空间中进行的,但这些状态可以被解码器翻译成文字,让研究者能够理解和审视模型的中间推理步骤。这解决了之前黑箱问题的一部分。第三,这个框架自然地分离了推理的稳定性和探索的自由度。推理过程(规划者)可以保持确定性,而真正的多样性和探索则在解码阶段通过不同的语言表达方式产生。
实际实现中,研究团队使用了几个巧妙的技巧。规划者在每个推理步骤中产生多个微观的潜在状态(他们称之为"细粒度"状态),然后通过一个称为"指数移动平均"的机制将这些状态聚合起来。这个名字听起来复杂,但思想很简单:当你需要从一堆噪声数据中提取趋势时,指数移动平均就是让最近的数据点获得更多权重,而更久远的数据逐渐被淡化。这样既能保留整个推理过程的信息,又能降低噪声的影响。聚合后的状态就被输入到解码器,解码器把它们转换成文字。
为了让系统能够快速推理,研究团队还引入了一个叫"懒惰解码"的技巧。由于规划者在数值空间中工作而不产生文字,系统可以快速进行许多推理步骤而不需要实际生成完整的文字。只有当需要确定是否到达最终答案时,才需要真正的文字生成。这种方式大大加快了推理速度,减少了计算成本。
这项研究在数学推理任务上进行了全面的测试,主要在GSM8K数据集及其扩展版本上进行评估。这个数据集包含数学问题及其逐步求解过程。研究团队还在其他三个不同风格的数据集上测试了系统的泛化能力。与此同时,他们与几个主要的现有方法进行了比较,包括标准的思维链方法(CoT-SFT)、Coconut(一个逐步将显式推理步骤压缩为隐藏状态的方法)和CODI(一个通过蒸馏显式推理来学习隐藏状态的方法)。
有趣的是,实验结果显示了一个明确的权衡。在"贪心准确度"(即选择模型最有把握的答案的准确性)上,PLaT的表现低于现有的基线方法。但当研究团队观察"Pass@k"指标时——即从k个不同的采样尝试中至少得到一个正确答案的概率——PLaT显示出明显的优势。这意味着什么呢?这意味着PLaT学习到的不是一条狭窄的"金色路径"(最可能正确的推理方式),而是一个更广阔的解决方案空间,其中存在着许多不同的、都能导向正确答案的推理路径。
比如在GSM8K数据集上,标准模型在Pass@128(从128个样本中选择)的得分约为66.7%到70.1%,而PLaT达到了74.2%。这个看似不大的数字差异,其实反映了一个重要的特性:PLaT的内部表示包含了更多的语义多样性。它不仅仅是记住了一种做题方法,而是建立了对问题结构的更深层理解。这种多样性对于那些依赖于采样和搜索的推理方法特别有价值。如果你想通过尝试许多不同的推理路径来找到答案,你需要的正是这种宽广的解决方案空间。
为了进一步优化系统的表现,研究团队还使用了强化学习来改进解码策略。在这个阶段,他们冻结了规划者的所有参数,只优化解码器。这个选择很有意义:它确保了学习到的推理空间的稳定性不被破坏,同时允许模型学习更好的方式来将这些隐藏的思想转化为文字。他们使用了一个称为"组相对策略优化"的技术,基本思想是:在相同的隐藏状态下,比较不同的文字表达方式,那些导致正确答案的表达方式会被强化,而不能导致正确答案的方式会被削弱。
关于效率方面,PLaT在推理速度上的表现介于现有方法之间。与完整的思维链方法相比,它快了大约56%,因为它不需要生成所有的中间步骤。与最快的方法(Coconut)相比,它稍微慢一些,大约是100毫秒对比150毫秒。但这个速度差异的代价是换来了更多的可解释性。Coconut虽然更快,但它的内部状态是完全的黑箱,研究者和用户无法看到模型在想什么。PLaT允许按需查看中间思想,这对于理解和改进系统至关重要。
研究团队还进行了详细的分析来理解PLaT究竟是如何工作的。他们将同一个隐藏状态解码成多个文字版本,然后统计这些版本中有多少种语义上不同的推理步骤。他们发现,PLaT在推理过程的每个阶段都维持着比标准模型高得多的"分支因子"(即不同推理方向的数量),这验证了他们的假设:PLaT确实在维持一个更广阔的推理可能性空间。更重要的是,即使这些分支数量更多,它们中有效且正确的比例仍然与标准模型相当,这说明PLaT增加的多样性不是无意义的噪声,而是有实质内容的替代方案。
一篇论文如果没有局限,就不是真诚的学术工作。这项研究的作者坦诚地指出了几个值得注意的地方。首先,虽然PLaT在多样性上表现出色,但它的降低贪心准确度目前仍然是一个权衡。这可能与模型的规模有关——他们使用的是一个相对较小的GPT-2模型用于比较的公平性。扩大到更大的模型可能会改变这种权衡。其次,虽然理论上增加更多的潜在状态(比如NL参数)应该能提供更多信息容量,但实验显示性能在NL=2时达到最优,更多的状态反而导致性能下降。这可能反映了当前训练方法的局限,而不是根本的理论问题。第三,这项研究主要在数学推理任务上进行了评估,其他领域如创意写作或代码生成的有效性还有待验证。
这项研究的另一个有趣方面是它提供的可视化证据。研究团队展示了一个失败的例子,在这个例子中,贪心解码会产生错误的答案,但从同一个隐藏状态采样时,系统实际上能够生成多个正确的推理路径。这直观地展示了关键洞察:隐藏状态中编码的正确信息并未丢失,问题在于贪心解码方式没有找到它。这强烈表明,通过改进搜索策略,系统的性能可以进一步提升。
这项研究对AI开发的启示是深远的。它提示我们,也许我们不应该让AI模型像人类在课堂上一样被迫"思考出声"。相反,应该让它们在内部进行深度的、多面的思考,只在必要时才表达出来。这种方法不仅更接近人类的认知方式,也可能为未来更强大、更灵活的推理系统奠定基础。当我们需要通过采样和搜索从AI系统中获取多个候选答案时,PLaT框架提供的宽广解决方案空间尤其有价值。这对于那些需要高可靠性、需要多个选项用于人类审查或决策的应用场景特别重要。
从更广的视角看,这项研究触及了一个关键问题:思考和表达是否应该是分离的。在人类中,它们显然是分离的。你的大脑可以持续进行复杂推理,但你只在需要时才用语言表达。PLaT通过在AI系统中实现这种分离,打开了一扇新的大门,让我们重新思考如何设计和训练能够进行真实推理的智能系统。
Q&A
Q1:PLaT和传统思维链方法最大的区别是什么?
A:传统思维链方法让模型一步步说出推理过程的每个词语,这会导致推理路径崩溃(选错一个词就无法回头)。PLaT则让模型在内部进行完整思考而无需实时说出来,只在需要时才将思想翻译成文字,这样既保留了多种推理可能性,又避免了提前固定选择。
Q2:PLaT在实际应用中为什么比基础方法更慢?
A:PLaT比标准思维链快56%,但比最快的Coconut方法慢。这个速度差异是为了换取可解释性——Coconut虽然快但完全是黑箱,而PLaT允许研究者和用户查看模型的中间思想状态,理解它是如何推理的,这对实际应用中的可信度至关重要。
Q3:为什么PLaT在多个采样尝试中表现更好?
A:PLaT学到的不是单一"最正确"的推理方式,而是一个包含许多不同推理路径的宽广解决方案空间。当你从这个空间中多次采样时,你更有可能找到正确答案。这就像在不同的地图上寻找到达目的地的路线,而不是被迫走同一条路。





京公网安备 11011402013531号