以前看起来优秀的标准,现在看已经不及预期了。
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能
07/09 12:23
07/09 12:22
07/09 12:21
07/09 12:20