从显式CoT到隐式CoT：复旦让AI告别啰嗦，实现大模型高效沉默推理

IP属地中国·北京 编辑：柳晴雪算泥社区 时间：2026-02-02 17:40:24

复旦大学、上海AI实验室等机构的联合团队，一篇隐式推理（Supervised Implicit Chain-of-Thought，SIM-CoT）的论文刚刚被顶会ICLR 2026接收。
通过将思维过程内化为不可见的向量，试图在保持推理能力的同时大幅降低计算成本，但这种“沉默的思考”往往因为缺乏引导而走向混乱与崩塌。
SIM-CoT技术通过引入训练时的分步监督，成功让模型在不增加推理负担的前提下，拥有了稳定且可解释的高效逻辑能力。
隐式思维的致命崩塌
伽利略曾言，我们要测度一切可测之物，并把不可测变为可测。
大语言模型因为显式思维链（CoT）技术的出现，推理能力让人惊叹。
模型像人类一样，通过一步步写出中间过程来解决复杂问题。这种方法在数学和编程领域等领域效果显著。
但显式CoT有明显的短板。它必须使用固定的词汇表将思维外化。这限制了模型探索更多样化解题路径的可能性。生成冗长的中间步骤会显著增加推理成本。模型有时会出现过度思考或啰嗦的现象。
为了解决这些问题，隐式思维链（Implicit CoT）应运而生。
这种方法不再生成离散的文本token。它将推理过程压缩在连续的潜在空间中。
模型用内部的隐藏状态（hidden states）来代表思考过程。
每一个潜在状态能编码的信息远超单个文本token。
这使得少量的潜在token就能替代冗长的显式推理链。
Coconut等早期工作已经证明了这种方法的效率优势。
隐式CoT目前仍面临巨大的性能鸿沟。
它比显式方法更快、更省token，但准确率较低。这限制了它的广泛应用。
研究人员试图通过增加潜在token的数量来提升性能。
他们模仿显式CoT增加计算预算的策略。结果却发现了一个核心隐患：潜在不稳定性（Latent Instability）。
随着推理token数量的增加，训练变得极不稳定。模型甚至会发生完全的崩塌。
我们可以从图中清晰地看到这个现象。
当隐式token的数量从1增加到4时，准确率通常会提升。一旦增加到5个token，性能出现断崖式下跌。准确率直接跌至12.5%的最低点。
这种对token数量的极度敏感性揭示了隐式推理的脆弱。
为了通过表象看本质，研究者深入分析了模型的内部状态。他们将GSM8K数学数据集上的隐式token投影回词表。通过检查解码出的top-8 token，真相浮出水面。
图(b)展示了信息丢失（Information Loss）的严重性。失败的模型在捕捉数字信息上勉强及格。它在捕捉操作符（如加减乘除）信息上彻底失败。
没有操作符，复杂的数学推理就不复存在。模型变成了一个只会堆砌数字的机器。几何层面的分析进一步证实了这一点。
图(c)展示了偏移距离（Shifted Distance）的变化。在模型崩塌时，潜在向量之间的距离急剧缩小。这意味着所有的潜在状态变得几乎一模一样。
这种同质化让模型失去了区分不同推理步骤的能力。潜在向量与词表嵌入中心的距离在不断增加。这些向量正在漂移，脱离了模型原本的语义空间。它们不再接地气，不再与任何有意义的词汇相关联。
图(d)给出了语义同质化（Semantic Homogenization）的直观例子。
正常模型（上图）的潜在空间丰富多样，包含数字和符号。失败模型（下图）的潜在空间是一潭死水。所有的状态都解码出相似的数字。
缺乏明确的指导，自由度极高的潜在空间走向了无序。模型在黑暗中迷失了方向，无法建立有效的推理逻辑。这就是当前隐式CoT面临的最大困境。
它试图让模型默想，但模型却在沉默中睡着了。单纯的端到端训练不足以维持复杂的内部推理结构。我们需要一种机制来规范这种内在的思考过程。
这种机制必须足够强力，能防止空间坍缩。它又必须足够轻量，不能拖累推理速度。这正是SIM-CoT诞生的背景。
给思维装上导航仪
为了解决上述问题，研究团队提出了SIM-CoT。全称为Supervised Implicit Chain-of-Thought（受监督隐式思维链）。
这是一个即插即用的训练模块。它的核心理念是引入步骤级隐式监督（Step-level Implicit Supervision）。
现有的方法如Coconut只监督最终答案。CODI等方法虽然引入了轨迹蒸馏，但依然粒度较粗。这些方法没有告诉模型哪一个潜在向量对应哪一步推理。
SIM-CoT通过一个辅助解码器（Decoder）来打破这种模糊。
在训练阶段，这个辅助解码器与主模型协同工作。
它的任务是将每一个隐式潜在向量对齐到具体的显式推理步骤。这就好比老师要求学生在练习时必须写出解题步骤。
尽管在最终推理时允许学生心算。这种强制性的对齐确保了潜在状态必须包含有意义的内容。
我们可以从图中看到这一架构的精妙之处。Coconut直接跳过中间过程监督答案。CODI尝试模仿整个轨迹的分布。SIM-CoT则在每一个隐式步骤上都施加了约束。
具体来说，在隐式推理阶段，LLM运行K个推理步骤。每一步k，模型取最后一个隐藏状态作为隐式潜在向量追加到序列中，作为下一个步骤的输入。
训练时，辅助解码器接收隐式潜在向量作为条件信号。它自回归地生成对应的文本推理步骤。
与此同时，主模型继续完成它的任务。在K个隐式步骤后，它切换回显式解码模式。利用之前的潜在序列生成最终答案。
这种设计最大的亮点在于它的“用完即弃”特性。辅助解码器仅在训练期间存在。
在推理阶段，解码器被完全移除。模型只需要生成潜在向量，然后直接输出答案。
这使得SIM-CoT几乎没有任何额外的推理计算开销。它完美保留了隐式CoT的高效性。同时，它又拥有了显式CoT的逻辑严密性。
除了提升性能，辅助解码器还带来了一个意外之喜。它赋予了隐式推理可解释性。
在以往，隐式向量是黑盒，没人知道模型在想什么。现在，我们可以利用训练好的解码器作为翻译机。
将推理阶段产生的潜在向量投射回词汇表。我们可以逐步可视化模型的思考过程。这对于错误诊断和模型验证具有巨大价值。
从方法论角度看，SIM-CoT平衡了多样性与稳定性。它允许潜在空间保持连续表征的丰富性，又通过监督信号防止了表征的同质化坍缩。
潜在向量之间的距离被拉开了。向量与词表空间的联系被重新建立。操作符和逻辑关系被重新编码进潜在状态。
模型不再是在黑暗中摸索。它在导航仪的指引下，精准地穿越思维的迷宫。
这种方法还可以轻松集成到现有的隐式CoT框架中。无论是基于Coconut还是CODI，SIM-CoT都能作为增强模块。它不挑剔骨干模型，展现了极强的通用性。
沉默推理的全新境界
实验数据有力地证明了SIM-CoT的有效性。
研究团队在GSM8K-Aug数据集上进行了广泛的测试。
SIM-CoT展现出了超越现有最强基线的实力。
在以Coconut为基础时，SIM-CoT带来了惊人的8.2%的提升。这是一个相对涨幅高达22.4%的飞跃。
更令人振奋的是，它超越了显式CoT（SFT-CoT）的表现。
在效率上，它实现了2.3倍的token节省。这是隐式推理首次在小模型上如此彻底地战胜显式推理。
它证明了沉默思考不仅更快，而且可以更准。
在以SOTA方法CODI为基础时，SIM-CoT依然能带来提升。这说明它能挖掘出连蒸馏方法都忽略的细微逻辑信号。
不仅仅是GPT-2，这种优势延续到了更大的LLaMA系列模型上。
在1B参数规模下，SIM-CoT将Coconut的性能提升了9.0%。
它帮助CODI在域内测试集上达到了56.1%的准确率。这已经非常接近显式CoT的58.4%。
考虑到隐式方法带来的推理速度优势，这个差距完全可以接受。
以往的研究表明，在更大的模型中，课程学习容易导致灾难性遗忘。SIM-CoT通过强有力的步骤级监督缓解了这一问题。
它不仅在熟悉的题目上表现出色，在陌生领域也游刃有余。
为了验证泛化能力，研究者测试了三个域外（OOD）基准。包括SVAMP、GSM-Hard和MultiArith。
这些数据集包含更复杂的算术问题或数字变化。SIM-CoT在这些任务上一致性地优于SFT-CoT。
以Coconut为骨干时，平均提升达4.3个点。这说明模型没有死记硬背训练数据。它真正学会了通用的数学推理逻辑。
相比之下，SFT-CoT往往过度拟合于特定的文本格式。
隐式推理由于其连续表征的特性，反而展现出更好的鲁棒性。
研究者还进行了一项关于潜在token数量的消融研究。
Coconut在token数量增加到一定程度后迅速崩溃。SIM-CoT则展现出极强的稳定性。随着潜在token数量增加到8个，性能稳步上升。
我们终于可以利用更多的计算预算来换取更好的推理。这一发现打破了隐式CoT无法扩展深度的魔咒。
它为未来构建更深、更复杂的隐式思维模型铺平了道路。
关于可解释性的实验更是让人眼前一亮。
问题涉及西瓜的收成计算。模型直接输出了答案“21”。
通过辅助解码器，我们看到了模型内部的思维过程。模型确实在进行严密的逻辑推导。
这种透明度对于建立用户对AI的信任至关重要。我们可以查阅它的“草稿纸”，确认它的思路是否正确。
SIM-CoT在更大的模型上也展现了良好的扩展性。在LLaMA-3.2 3B和LLaMA-3.1 8B上，结论依然成立。
它在保持推理效率的同时，不断缩小与显式CoT的差距。在域外任务上，它甚至经常超越显式CoT。
这再次印证了步骤级监督在构建鲁棒特征上的优势。
研究还探讨了不同解码器尺寸的影响。
有趣的是，并不是解码器越大越好。1B参数的解码器足以提供良好的监督信号。过大的解码器（如8B）反而可能导致性能轻微下降。
这可能是因为过强的解码器导致了优化目标的冲突。或者是因为它在训练中占据了过多的计算资源分配。
这提示我们，监督信号的强度需要适中。只要能从向量中恢复出语义信息，就达到了目的。
SIM-CoT还展示了与软思维（Soft Thinking）技术的兼容性。这种灵活性使其成为未来隐式推理研究的一个通用基座。
SIM-CoT通过强制潜在向量“言之有物”，它稳定了训练。通过保留连续空间的自由度，它提升了泛化。通过可插拔的解码器，它兼顾了效率与可解释性。
它让大模型在沉默中学会了真正的思考。
随着SIM-CoT的提出，隐式CoT技术迈出了走向实用化的关键一步。
参考资料：
https://arxiv.org/pdf/2509.20317
https://github.com/InternLM/SIM-CoT
https://openreview.net/forum?id=6YRJ4jmVQl

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里多业务春节前赶工，要到千问App上“包饺子”

阿驴表情包第二弹来袭！申请成为你的聊天搭子~

2026，产业带商家盯上了“国货严选”

苹果计划在 macOS 26.3 发布的同时推出新 MacBook Pro

苹果首款折叠屏手机将配备史上容量最大的 iPhone 电池

45亿！春节红包大战，烧出AI心智？

全站最新

阿里多业务春节前赶工，要到千问App上“包饺子”

阿驴表情包第二弹来袭！申请成为你的聊天搭子~

2026，产业带商家盯上了“国货严选”

苹果计划在 macOS 26.3 发布的同时推出新 MacBook Pro

热门推荐

阿里多业务春节前赶工，要到千问App上“包饺子”

阿驴表情包第二弹来袭！申请成为你的聊天搭子~

2026，产业带商家盯上了“国货严选”

苹果计划在 macOS 26.3 发布的同时推出新 MacBook Pro

苹果首款折叠屏手机将配备史上容量最大的 iPhone 电池

阿里李立恒与王明峰任分别出任擎天租联席总裁与首席战略官

45亿！春节红包大战，烧出AI心智？

阶跃星辰发布下一代最强开源基座模型，多家头部芯片厂商已完成适配

龙门实验室入选国家级试点

海康睿影毫米波安检门批量落地天山机场

壁仞科技、燧原科技完成阶跃星辰Step 3.5 Flash模型适配

重金砸向春节档，阿里腾讯AI贴身肉搏

等等党赢了！苹果史上最强更新：折叠屏iPhone和新Mac轮流上场

上春晚，字节跳动的AI“成人礼”

上海基模+1！阶跃星辰开源最新模型，华为、沐曦、壁仞等国产芯片已适配