单纯延长模型内部推理轨迹的时代将过去,未来的主导将是在与环境交互中持续迭代的智能体思考。
思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step bystep」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。 作者…
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能
04/01 16:41
10/31 16:58
10/31 16:56