当前位置: 首页 » 资讯 » 科技头条 » 正文

从显式CoT到隐式CoT:复旦让AI告别啰嗦,实现大模型高效沉默推理

IP属地 中国·北京 编辑:柳晴雪 算泥社区 时间:2026-02-02 17:40:24

复旦大学、上海AI实验室等机构的联合团队,一篇隐式推理(Supervised Implicit Chain-of-Thought,SIM-CoT)的论文刚刚被顶会ICLR 2026接收。

通过将思维过程内化为不可见的向量,试图在保持推理能力的同时大幅降低计算成本,但这种“沉默的思考”往往因为缺乏引导而走向混乱与崩塌。

SIM-CoT技术通过引入训练时的分步监督,成功让模型在不增加推理负担的前提下,拥有了稳定且可解释的高效逻辑能力。

隐式思维的致命崩塌

伽利略曾言,我们要测度一切可测之物,并把不可测变为可测。

大语言模型因为显式思维链(CoT)技术的出现,推理能力让人惊叹。

模型像人类一样,通过一步步写出中间过程来解决复杂问题。这种方法在数学和编程领域等领域效果显著。

但显式CoT有明显的短板。它必须使用固定的词汇表将思维外化。这限制了模型探索更多样化解题路径的可能性。生成冗长的中间步骤会显著增加推理成本。模型有时会出现过度思考或啰嗦的现象。

为了解决这些问题,隐式思维链(Implicit CoT)应运而生。

这种方法不再生成离散的文本token。它将推理过程压缩在连续的潜在空间中。

模型用内部的隐藏状态(hidden states)来代表思考过程。

每一个潜在状态能编码的信息远超单个文本token。

这使得少量的潜在token就能替代冗长的显式推理链。

Coconut等早期工作已经证明了这种方法的效率优势。

隐式CoT目前仍面临巨大的性能鸿沟。

它比显式方法更快、更省token,但准确率较低。这限制了它的广泛应用。

研究人员试图通过增加潜在token的数量来提升性能。

他们模仿显式CoT增加计算预算的策略。结果却发现了一个核心隐患:潜在不稳定性(Latent Instability)。

随着推理token数量的增加,训练变得极不稳定。模型甚至会发生完全的崩塌。

我们可以从图中清晰地看到这个现象。

当隐式token的数量从1增加到4时,准确率通常会提升。一旦增加到5个token,性能出现断崖式下跌。准确率直接跌至12.5%的最低点。

这种对token数量的极度敏感性揭示了隐式推理的脆弱。

为了通过表象看本质,研究者深入分析了模型的内部状态。他们将GSM8K数学数据集上的隐式token投影回词表。通过检查解码出的top-8 token,真相浮出水面。

图(b)展示了信息丢失(Information Loss)的严重性。失败的模型在捕捉数字信息上勉强及格。它在捕捉操作符(如加减乘除)信息上彻底失败。

没有操作符,复杂的数学推理就不复存在。模型变成了一个只会堆砌数字的机器。几何层面的分析进一步证实了这一点。

图(c)展示了偏移距离(Shifted Distance)的变化。在模型崩塌时,潜在向量之间的距离急剧缩小。这意味着所有的潜在状态变得几乎一模一样。

这种同质化让模型失去了区分不同推理步骤的能力。潜在向量与词表嵌入中心的距离在不断增加。这些向量正在漂移,脱离了模型原本的语义空间。它们不再接地气,不再与任何有意义的词汇相关联。

图(d)给出了语义同质化(Semantic Homogenization)的直观例子。

正常模型(上图)的潜在空间丰富多样,包含数字和符号。失败模型(下图)的潜在空间是一潭死水。所有的状态都解码出相似的数字。

缺乏明确的指导,自由度极高的潜在空间走向了无序。模型在黑暗中迷失了方向,无法建立有效的推理逻辑。这就是当前隐式CoT面临的最大困境。

它试图让模型默想,但模型却在沉默中睡着了。单纯的端到端训练不足以维持复杂的内部推理结构。我们需要一种机制来规范这种内在的思考过程。

这种机制必须足够强力,能防止空间坍缩。它又必须足够轻量,不能拖累推理速度。这正是SIM-CoT诞生的背景。

给思维装上导航仪

为了解决上述问题,研究团队提出了SIM-CoT。全称为Supervised Implicit Chain-of-Thought(受监督隐式思维链)。

这是一个即插即用的训练模块。它的核心理念是引入步骤级隐式监督(Step-level Implicit Supervision)。

现有的方法如Coconut只监督最终答案。CODI等方法虽然引入了轨迹蒸馏,但依然粒度较粗。这些方法没有告诉模型哪一个潜在向量对应哪一步推理。

SIM-CoT通过一个辅助解码器(Decoder)来打破这种模糊。

在训练阶段,这个辅助解码器与主模型协同工作。

它的任务是将每一个隐式潜在向量对齐到具体的显式推理步骤。这就好比老师要求学生在练习时必须写出解题步骤。

尽管在最终推理时允许学生心算。这种强制性的对齐确保了潜在状态必须包含有意义的内容。

我们可以从图中看到这一架构的精妙之处。Coconut直接跳过中间过程监督答案。CODI尝试模仿整个轨迹的分布。SIM-CoT则在每一个隐式步骤上都施加了约束。

具体来说,在隐式推理阶段,LLM运行K个推理步骤。每一步k,模型取最后一个隐藏状态作为隐式潜在向量追加到序列中,作为下一个步骤的输入。

训练时,辅助解码器接收隐式潜在向量作为条件信号。它自回归地生成对应的文本推理步骤。

与此同时,主模型继续完成它的任务。在K个隐式步骤后,它切换回显式解码模式。利用之前的潜在序列生成最终答案。

这种设计最大的亮点在于它的“用完即弃”特性。辅助解码器仅在训练期间存在。

在推理阶段,解码器被完全移除。模型只需要生成潜在向量,然后直接输出答案。

这使得SIM-CoT几乎没有任何额外的推理计算开销。它完美保留了隐式CoT的高效性。同时,它又拥有了显式CoT的逻辑严密性。

除了提升性能,辅助解码器还带来了一个意外之喜。它赋予了隐式推理可解释性。

在以往,隐式向量是黑盒,没人知道模型在想什么。现在,我们可以利用训练好的解码器作为翻译机。

将推理阶段产生的潜在向量投射回词汇表。我们可以逐步可视化模型的思考过程。这对于错误诊断和模型验证具有巨大价值。

从方法论角度看,SIM-CoT平衡了多样性与稳定性。它允许潜在空间保持连续表征的丰富性,又通过监督信号防止了表征的同质化坍缩。

潜在向量之间的距离被拉开了。向量与词表空间的联系被重新建立。操作符和逻辑关系被重新编码进潜在状态。

模型不再是在黑暗中摸索。它在导航仪的指引下,精准地穿越思维的迷宫。

这种方法还可以轻松集成到现有的隐式CoT框架中。无论是基于Coconut还是CODI,SIM-CoT都能作为增强模块。它不挑剔骨干模型,展现了极强的通用性。

沉默推理的全新境界

实验数据有力地证明了SIM-CoT的有效性。

研究团队在GSM8K-Aug数据集上进行了广泛的测试。

SIM-CoT展现出了超越现有最强基线的实力。

在以Coconut为基础时,SIM-CoT带来了惊人的8.2%的提升。这是一个相对涨幅高达22.4%的飞跃。

更令人振奋的是,它超越了显式CoT(SFT-CoT)的表现。

在效率上,它实现了2.3倍的token节省。这是隐式推理首次在小模型上如此彻底地战胜显式推理。

它证明了沉默思考不仅更快,而且可以更准。

在以SOTA方法CODI为基础时,SIM-CoT依然能带来提升。这说明它能挖掘出连蒸馏方法都忽略的细微逻辑信号。

不仅仅是GPT-2,这种优势延续到了更大的LLaMA系列模型上。

在1B参数规模下,SIM-CoT将Coconut的性能提升了9.0%。

它帮助CODI在域内测试集上达到了56.1%的准确率。这已经非常接近显式CoT的58.4%。

考虑到隐式方法带来的推理速度优势,这个差距完全可以接受。

以往的研究表明,在更大的模型中,课程学习容易导致灾难性遗忘。SIM-CoT通过强有力的步骤级监督缓解了这一问题。

它不仅在熟悉的题目上表现出色,在陌生领域也游刃有余。

为了验证泛化能力,研究者测试了三个域外(OOD)基准。包括SVAMP、GSM-Hard和MultiArith。

这些数据集包含更复杂的算术问题或数字变化。SIM-CoT在这些任务上一致性地优于SFT-CoT。

以Coconut为骨干时,平均提升达4.3个点。这说明模型没有死记硬背训练数据。它真正学会了通用的数学推理逻辑。

相比之下,SFT-CoT往往过度拟合于特定的文本格式。

隐式推理由于其连续表征的特性,反而展现出更好的鲁棒性。

研究者还进行了一项关于潜在token数量的消融研究。

Coconut在token数量增加到一定程度后迅速崩溃。SIM-CoT则展现出极强的稳定性。随着潜在token数量增加到8个,性能稳步上升。

我们终于可以利用更多的计算预算来换取更好的推理。这一发现打破了隐式CoT无法扩展深度的魔咒。

它为未来构建更深、更复杂的隐式思维模型铺平了道路。

关于可解释性的实验更是让人眼前一亮。

问题涉及西瓜的收成计算。模型直接输出了答案“21”。

通过辅助解码器,我们看到了模型内部的思维过程。模型确实在进行严密的逻辑推导。

这种透明度对于建立用户对AI的信任至关重要。我们可以查阅它的“草稿纸”,确认它的思路是否正确。

SIM-CoT在更大的模型上也展现了良好的扩展性。在LLaMA-3.2 3B和LLaMA-3.1 8B上,结论依然成立。

它在保持推理效率的同时,不断缩小与显式CoT的差距。在域外任务上,它甚至经常超越显式CoT。

这再次印证了步骤级监督在构建鲁棒特征上的优势。

研究还探讨了不同解码器尺寸的影响。

有趣的是,并不是解码器越大越好。1B参数的解码器足以提供良好的监督信号。过大的解码器(如8B)反而可能导致性能轻微下降。

这可能是因为过强的解码器导致了优化目标的冲突。或者是因为它在训练中占据了过多的计算资源分配。

这提示我们,监督信号的强度需要适中。只要能从向量中恢复出语义信息,就达到了目的。

SIM-CoT还展示了与软思维(Soft Thinking)技术的兼容性。这种灵活性使其成为未来隐式推理研究的一个通用基座。

SIM-CoT通过强制潜在向量“言之有物”,它稳定了训练。通过保留连续空间的自由度,它提升了泛化。通过可插拔的解码器,它兼顾了效率与可解释性。

它让大模型在沉默中学会了真正的思考。

随着SIM-CoT的提出,隐式CoT技术迈出了走向实用化的关键一步。

参考资料:

https://arxiv.org/pdf/2509.20317

https://github.com/InternLM/SIM-CoT

https://openreview.net/forum?id=6YRJ4jmVQl

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。