微软发布首个测试时扩展大规模研究，还给出了终极指南

IP属地中国·北京 机器之心Pro 时间：2025-12-10 20:14:12

机器之心报道
编辑：Panda
如果说大模型的预训练（Pre-training）是一场拼算力、拼数据的「军备竞赛」，那么测试时扩展（Test-time scaling, TTS）更像是一场在推理阶段进行的「即时战略游戏」。
现在的共识是：让模型在回答问题前「多想一会儿」，往往能得到更好的结果。这听起来像是一个完美的免费午餐：只要能在推理时动态分配更多计算资源，就能让模型的智商原地起飞。
但问题来了：我们该怎么让 LLM「多想」？
好比让一群学生做题：是让一个学生反复修改答案（序列策略）？还是让一百个学生同时做题然后投票（并行策略）？亦或是让他们开个会讨论一下（混合策略）？
更重要的是，有些「学生」（模型）虽然聪明，但想得越多反而越容易钻牛角尖；而另一些则必须深思熟虑才能解出难题。
究竟哪个 TTS 策略才是那个「天选之子」？
为了结束这场盲人摸象般的争论，微软终于出手了。
他们进行了一项针对 TTS 的系统性研究：涵盖了从 7B 到 235B 参数量的 8 个开源 LLM，在 4 个推理数据集上疯狂生成了超过 300 亿个 token。

论文标题：The Art of Scaling Test-Time Compute for Large Language Models论文地址：https://arxiv.org/abs/2512.02008
这项研究不仅打破了「一种策略通吃」的幻想，还发现了一个颠覆认知的现象：模型之间存在着明显的性格差异，分化为「短视界」和「长视界」两大阵营。
基于这些洞见，微软团队更是直接甩出了一套综合了问题难度、模型类型和计算预算的「实用配方」。下面，让我们一起走进这项揭示了 LLM 推理本质的重磅研究。
测试时扩展方法简介
LLM 的测试时扩展策略多种多样，通常分为并行、序列、混合 / 元方法（meta）以及内部计算机制（图 2）。虽然每类方法在特定设置下都显示出潜力，但没有单一策略是普遍最佳的

并行扩展策略
通过聚合多个独立采样的推理路径的答案来提升性能。Self-consistency 对多样的推理路径进行采样并选择出现频率最高的最终答案，显著提升了算术和符号任务的性能。Best-of-n 采样作为一种简单的并行方法被广泛使用，不过最近也有人提出了更具原则性的投票策略，如加权多数投票和多智能体验证（MAV）。Short-m@k 利用了早停机制：它并行运行 k 条推理链，并根据完成路径的比例提前终止。
序列扩展策略
通过迭代式的修正、重启或回溯来扩展推理深度。思维链（CoT）提示是一个基础理念，随后的工作如 STaR 和 Reflexion 探索了通过试错或语言自我反思进行修正。思维树（ToT）和思维图（GoT）通过结构化的广度优先或 DAG 风格搜索进一步扩展了这一点。AlphaGeometry 将符号证明搜索与 LLM 结合，以实现步骤级的序列控制。S1 微调模型以教授自我修正策略，利用了更高的测试时计算量。
混合扩展策略
该策略融合了以上两个维度。Meta-Reasoner 使用上下文多臂老虎机根据感知的任务难度动态选择 TTS 策略。AgentTTS 和 START 部署智能体（具有工具调用能力的 LLM）在直接生成或更复杂的推理之间进行切换。PEARL 交替进行草稿生成与修正，模拟自我改进循环。这些元调度器（meta-schedulers）认识到仅靠深度或并行扩展是不够的，旨在根据模型行为和提示动态调整策略。相比之下，内部扩展策略修改模型在推理过程中的内部计算量，而不显式调整外部样本数或推理步骤数。HALT-CoT 和 SoftCoT++ 的方法是估计答案的不确定性，如果置信度高则提前终止。
没有哪种策略是普遍最佳的。多项实证研究加强了这一观点，即没有 TTS 策略能持续占据主导地位。
微软这项研究分析的算法包括最先完成搜索（First Finish Search, FFS，算法 1）、最后完成搜索（Last Finish Search, LFS，算法 2）和束搜索（Beam Search），前两者由变量 k 和 N 参数化，而后者仅由 N 参数化。

FFS-k@N 意味着采样 N 个输出并在最短的 k 个样本中执行多数投票（MV）以确定结果；而 LFS-k@N 仅仅涉及选择最长的 k 个样本而非最短的，随后对这些样本进行多数投票。
束搜索涉及维护一组高概率的部分假设（partial hypotheses），并在解码过程中不断更新这些前缀。
研究结果
束搜索显示出逆扩展或无扩展
研究的第一个爆点来自于对经典算法束搜索（Beam Search）的宣判。
在实验中，研究人员观察到了一个极其反直觉的现象：在「短视界」和「非推理」这两个模型家族中，束搜索表现出了一致的逆扩展（inverse-scaling）模式：随着束大小 N 的增加，性能单调下降（图 1）。

看图便知，对于像 R1 和 QwQ-32B 这样的模型，一旦束大小（Beam Size, N）超过 2，准确率不仅没有提升，反而像坐过山车一样急剧下降。
即便是 GPT-OSS-120B 和 Qwen3-32B 这样的「长视界」模型，增加 N 也未能带来收益，准确率曲线要么躺平，要么缓慢下滑。
这意味着什么？意味着在束搜索上投入更多的计算量（增加 N 会消耗更多 token），不仅是浪费，甚至是有害的。简直是花钱买罪受。
推理路径长度与质量的相关性
这项研究最核心的贡献，在于揭示了推理路径长度与质量之间复杂的相关性。这对于深入理解像 FFS 和 LFS 这样基于长度的过滤策略至关重要。
FFS 和 LFS 基于两个截然相反的观点：越短越好和越长越好。
为了调查哪种假设（或哪些假设）适用于特定模型，该团队报告了给定推理路径长度区间和问题难度下的准确率（表 1）。

请注意，问题难度是通过所有模型和路径的平均准确率来衡量的，而报告的准确率是通过特定模型的所有输出来衡量的。一个关键的考量是，问题难度与推理路径长度存在混淆（confounded，图 3）：短路径通常源于较容易的问题，而长路径往往对应较难的问题。

为缓解这种混淆效应，他们将分析限制在同时具有短路径和长路径的任务上。对于每个此类数据集，他们分别计算短路径和长路径的单一准确率值，然后在数据集之间平均这些值，从而防止数据集大小的差异不成比例地影响聚合结果。
结果，他们将六个推理模型清晰地划分为两大阵营：
1. 短视界模型
代表成员：R1, QwQ-32B, DAPO-32B行为特征：对于给定的问题难度，更短的推理路径比更长的路径更可能是正确的。
这意味着这些模型在推理时往往「直击要害」，如果它们开始长篇大论，很可能是在「胡言乱语」或者陷入了无效循环。
有趣的是，DAPO-32B 尽管使用了 GRPO 等技术，依然表现出与 R1 相似的长度偏置，说明目前的后训练技术在缓解长度偏置方面可能还很有限。
2. 长视界模型
代表成员：Qwen3-32B, GPT-OSS-120B行为特征：它们的表现更为复杂且「世故」。
在简单问题上，它们倾向于较短的路径。但在困难问题上，它们则偏好较长的路径。
这类模型展现出了更强的适应性：遇到难题时，它们确实在利用额外的计算步骤进行有效推理，而非无效空转。
深度分析：预算与策略的博弈
既然模型性格迥异，那么在给定的计算预算（Token 消耗量）下，我们该如何选择最佳的 k 和 N？

研究团队通过分析 FFS-k@N 和 LFS-k@N 的性能曲线，发现了几个关键趋势：
LFS 的奥义在于「全员投票」
对于 LFS 系列方法，给定总计算量下的最大性能总是当 k 很大时（即 k=N）实现。注意，当 k=N 时，LFS 实际上就退化成了多数投票（MV-N）。
结论非常简单粗暴：在消耗相同 token 的情况下，直接做多数投票（MV@N）总是优于刻意筛选最长路径的 LFS-k@N。
FFS 的微妙权衡
对于短视界模型：较大的 N 值总是最好的。这意味着你应该采样很多样本，然后从中选出最短的那一批进行投票。
对于长视界模型：存在权衡。如果你想用高计算量换取高性能，你必须选择较小的 N（本质上是执行简单解码）；而在非推理模型上则相反。
这一分析告诉我们，最佳 TTS 策略是随着预算的增加而动态扩展的
终极配方：如何为你的模型选择 TTS 策略？
基于上述海量实验数据，微软团队总结出了一套极具操作性的「决策矩阵」。这不仅是理论分析，更是给算法工程师们的实战手册。

让我们来拆解这个配方的内在逻辑：
场景一：如果你使用的是「短视界模型」（如 R1, QwQ）
这类模型有个特点：无论题目难易，它们总是觉得「长话短说」的答案更靠谱。
低计算预算时：使用 FFS，且设定 k=1。即：采样 N 个答案，直接挑最短的那个作为最终答案。简单、快速、有效。
高计算预算时：使用 FFS，且设定 k=N（等同于 MV@N）。即：采样 N 个答案，因为 N 个最短路径就是所有路径，所以这实际上就是标准的多数投票。
核心逻辑：对于短视界模型，性能随 N 的增大而提升。因此，只要预算允许，把 N 拉满，做多数投票即可。
场景二：如果你使用的是「长视界模型」（如 Qwen3）
这类模型比较「纠结」，策略选择稍微复杂一些。
面对高难度问题（High Difficulty）：模型倾向于长路径。由于 LFS@N 随 N 增加而提升：
高计算预算：使用大 N 的 MV@N。低计算预算：使用小 N（理想情况下 N=1）的简单解码（SD）。
这里有一个有趣的结论：在保持 k=N 的情况下（即 MV），性能随 k 增大而提升。
面对低难度问题（Low Difficulty）：此时模型偏好短路径（杀鸡焉用牛刀）。
高计算预算：使用大 k 的 FFS。低计算预算：使用小 k 的 FFS。
在这种设置下，设定 N=k（即 MV@N）依然是稳健的选择。
总结来看，尽管模型类型和任务难度千差万别，但最终的「配方」却表现出了惊人的殊途同归：对于绝大多数情况，多数投票（MV@N）或者是其变体（如 FFS 中的 k=N）往往是性价比最高的选择。特别是对于「短视界」模型，不要试图通过让它「多想」来强行提升效果，更多时候，从大量的快速回答中通过投票筛选出共识，才是正确的打开方式。
微软的这项研究，实际上是在为 LLM 的推理能力「祛魅」。它告诉我们，测试时扩展并不是简单地堆砌算力，更不是盲目地追求更长的思维链。
理解模型的「视界」属性是设计高效推理系统的第一步。而在算力昂贵的今天，这份基于 300 亿 token 实测得出的决策配方，无疑为我们节省了大量的试错成本。
下一次，当你准备让你的模型「再想一下」时，不妨先查查这份配方，看看你是否正在为一个「短视界」的模型，强加它并不擅长的长考重担

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

曝谷歌再失两员大将，Gemini核心AI研究员要跳槽Anthropic

如何利用企业微信优化私域管理的客户转化效果？

17年只做一件事，为什么B站越活越扎实？

募资超50亿元！Momenta将于7月8日上市，奔驰比亚迪为基石投资人

字节开始跟你算账了

200亿，大湾区最大具身独角兽诞生

全站最新

2027款揽胜谍照来袭！纽北赛道测试，纯电版与多动力升级齐亮相

比亚迪全新品牌领汇汽车发力出行市场 M9商务旗舰MPV今日上市 18.88万元起售

加油误区大揭秘！夏天加油、汽油保质期、标号选择真相在此

新款欧蓝德PHEV官图来袭，熏黑中网黑武士版吸睛，配置升级值不值？

热门推荐

松下电器中国公司发生法定代表人变更

AI智能体小程序选型指南：从技术到场景，如何找到最适合的解决方案

链博会“数智”升级首设AI专区，中国AI企业超532万家蓬勃发展

图灵奖得主JosephSifakis出任曹操出行首席科学顾问

周六福在上海成立新珠宝公司

格力在法国的制冷家电终端销量今年前6个月同比增长50%

大众汽车计划终止与博世的自动驾驶合作

曝谷歌再失两员大将，Gemini核心AI研究员要跳槽Anthropic

如何利用企业微信优化私域管理的客户转化效果？

17年只做一件事，为什么B站越活越扎实？

半数用户解放双手：Anthropic调查显示AI已能承担过半工作

募资超50亿元！Momenta将于7月8日上市，奔驰比亚迪为基石投资人

百度昆仑芯赴港IPO：目标估值500亿美元，认购需采购芯片

字节开始跟你算账了

200亿，大湾区最大具身独角兽诞生