首个测试时共进化合成框架TTCS：在「左右互搏」中突破推理瓶颈

IP属地中国·北京 机器之心Pro 时间：2026-02-10 18:20:36

在 DeepSeek-R1 和 OpenAI o1 引领的「后训练（Post-Training）」与「测试时扩展」（Test-Time Scaling）」时代，如何利用测试时的算力进行有效训练成为焦点。
然而，面对极难的测试题，现有的测试时训练（Test-Time Training, TTT）往往因伪标签噪声大而陷入「瞎猜」的困境。
厦门大学 DeepLIT 课题组提出了一种全新的测试时课程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。该框架不依赖任何外部人工标注，通过生成器（Synthesizer）与求解器（Solver）的共进化博弈，自动合成处于模型「能力边界」的课程数据，解决了测试样本过难导致的训练坍塌问题。
实验显示，在 Qwen2.5-Math-1.5B 上，TTCS 将数学推理平均分从 17.30 暴涨至 41.49，在极具挑战的 AIME 竞赛题上更是显著超越了 TTRL 等强基线。

论文标题：TTCS: Test-Time Curriculum Synthesis for Self-Evolving论文链接：https://arxiv.org/abs/2601.22628项目代码：https://github.com/XMUDeepLIT/TTCSHuggingFace 主页：https://huggingface.co/papers/2601.22628
01. 核心动机：当「题海战术」遇到「超纲难题」
随着大语言模型（LLM）的发展，业界共识已从单纯的「预训练扩大参数」转向挖掘测试时扩展（Test-Time Scaling）的潜力。
DeepSeek-R1 等模型的成功证明了强化学习（RL）在推理任务上的巨大威力。然而，目前的 RL 范式（如 RLVR）通常依赖大量高质量的 Ground Truth 标签，这限制了其扩展性。
为了摆脱对标签的依赖，测试时训练（Test-Time Training, TTT）应运而生。其核心思想是：在测试阶段，利用模型对测试题生成的伪标签（Pseudo-labels）进行即时更新。
但在面对高难度推理任务（如 AIME 数学竞赛）时，TTT 遭遇了致命的「能力错配」悖论：
伪标签不可靠（Noisy Rewards）：面对 AIME 这种难题，由于模型本身能力不足，即使进行多次采样（Majority Voting），大部分答案也是错的。基于错误的共识进行训练，只会让模型「越学越偏」。（如 Intro 中 Figure 1 (a) 所示）缺乏中间阶梯（Steep Learning Curve）：就像让小学生直接做微积分，缺乏中间难度的过渡题目，模型无法跨越巨大的难度鸿沟，导致优化失败。
团队思考：如果没有老师，模型能否像人类自学者一样，通过自己给自己出题，把一道难题拆解变为一组成梯度、可解决的练习题，从而实现螺旋上升？

基于此，团队提出了TTCS—— 一个基于共进化（Co-evolution）的测试时课程合成框架。
02. 方法论：Synthesizer 与 Solver 的双重共进化
TTCS 的核心在于构建了一个闭环的生态系统，包含两个共享初始权重的 Agent，它们通过迭代式的GRPO (Group Relative Policy Optimization)进行训练：
角色分工

关键机制：如何寻找「能力边界」？
为了防止生成的题目太简单（无效训练）或太难（无效反馈），团队设计了一套精密的能力自适应奖励（Capability-Adaptive Reward）机制：

闭环效应：
Solver 能力提升后，其「能力边界」会向更难的区域移动，感知到这一变化的 Synthesizer 为了获得高奖励会自动生成难度更高的问题，Solver 继续攻克新难题。二者相互追赶，在测试时实现了动态的 Curriculum Learning。
03. 硬核实验结果：推理能力提升
团队在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多个权威数学基准上进行了广泛验证。基础模型涵盖 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。
1. 主流基准上的碾压式提升
TTCS 在所有尺寸的模型上均取得了显著优于基线的成绩（详见 Table 1）：
Qwen2.5-Math-1.5B：TTCS 的平均分达到，相比预训练模型（17.30）提升了+24.19 分！即使对比测试时微调的强基线 TTRL（36.56），依然有大幅优势。Qwen2.5-Math-7B：TTCS 平均分达到，相比广泛使用的 Self-Consistency（32.15）提升了+20.39 分，再次证明了主动的测试时训练远胜于被动的多路采样。

2. 攻克高难度竞赛题 (AIME)
在最能体现推理上限的 AIME 竞赛题上，TTCS 展现了极强的攻坚能力：
AIME 2024：在 1.5B 模型上，TTRL 仅得 13.23 分，而 TTCS 跃升至分，提升幅度达AIME 2025：在 7B 模型上，TTCS 达到了分，显著优于 TTRL 的 14.06 分。这有力地证明了：当测试题太难导致 TTRL 的伪标签失效时，TTCS 通过合成中间难度的课程，成功架起了通往高难度推理的桥梁。
3. 为什么 TTCS 有效？（深度分析）
为了探究性能提升的来源，团队进行了多维度的分析：
不仅仅是数学（泛化性）
实验 Q1 显示，在 AIME 上进行测试时训练的 TTCS 模型，在MMLU-Pro和SuperGPQA等通用领域推理任务上也实现了性能跃升（Figure 3a）。这说明模型学到的是通用的推理逻辑，而非简单的过拟合。

动态老师 > 静态名师
团队尝试用一个更强但固定的Qwen2.5-14B-Instruct模型作为 Synthesizer（实验 Q3）。结果令人惊讶：共进化的 1.5B Synthesizer (TTCS) 带来的提升 (+5.34) 竟然是静态 14B Synthesizer (+2.66) 的两倍！
这揭示了一个深刻的道理：适应学生当前水平的老师，比单纯水平高但不懂因材施教的老师更重要。

数据效率惊人
即使只使用 10% 的测试数据（仅 3 道题），TTCS 在 AIME24 上的准确率就能达到13.33，远超同等数据量下 TTRL 的表现（Figure 4）。这表明 TTCS 能够高效地榨取每一个测试样本的信息量。

04. 总结与展望
TTCS 框架的提出，是对「测试时计算」范式的一次重构。团队证明了：在测试时，模型不应是被动的解题者，而应是主动的课程设计者。
通过 Synthesizer 和 Solver 的共进化，TTCS 完美解决了测试时训练中「数据稀缺」和「难度断层」的两大痛点。
这不仅为提升大模型在复杂数学、代码推理任务上的表现提供了新思路，也为未来自进化智能体（Self-Evolving Agents）—— 即模型能够在完全未知的环境中通过自我博弈实现持续进化 —— 奠定了坚实基础。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

字节暂停Seedance2.0真人人脸上传

从“项目合作”迈步“生态共建” 无锡与京东携手解锁机器人产业发展新范式

阿里达摩院开源具身大脑基模RynnBrain，首次让机器人拥有时空记忆

千问爆发，证明阿里AI战略进击的成功

独家丨2026李彦宏OKR：AI进入兑现期

字节跳动成立阅安科技公司

全站最新

字节暂停Seedance2.0真人人脸上传

从“项目合作”迈步“生态共建” 无锡与京东携手解锁机器人产业发展新范式

阿里达摩院开源具身大脑基模RynnBrain，首次让机器人拥有时空记忆

千问爆发，证明阿里AI战略进击的成功

热门推荐

字节暂停Seedance2.0真人人脸上传

从“项目合作”迈步“生态共建” 无锡与京东携手解锁机器人产业发展新范式

阿里达摩院开源具身大脑基模RynnBrain，首次让机器人拥有时空记忆

千问爆发，证明阿里AI战略进击的成功

独家丨2026李彦宏OKR：AI进入兑现期

字节跳动成立阅安科技公司

马年启新程、科技向未来——第21届北京东莞大学生灯光节盛大举行

全国最大华为智能生活馆在古城启幕

刚刚，又一位xAI华人离职！曾和马斯克并排坐发Grok 3

大算力+大模型，光合组织启动联合攻关

字节Seedance2.0小范围内测，限制真人人脸上传

中国车企首个！比亚迪起诉美国政府：要求退还2025年4月来已缴税款

中芯国际2025年Q4营收178.13亿元增长11.9%，2026机遇与挑战并存

抖音电商宣布严打虚假价格宣传，严禁制造低价错觉

李斌：蔚来今年再建1000座换电站加电比加油更方便成为现实