RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

IP属地中国·北京 新智元 时间：2025-10-16 18:14:12

新智元报道
编辑：KingHZ
大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。
让大模型按照人类意图行事，一直是AI领域的核心挑战。目前主流的强化学习微调（RFT）方法虽然有效，但存在一个致命弱点：奖励过度优化（reward over-optimization）。
奖励过度优化是大模型对齐的「阿喀琉斯之踵」。
简单来说，就是模型学会了「钻空子」——它们不是真正变得更好，而是学会了如何在奖励模型上刷高分，实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师，而不是真正理解知识。
Scale AI的最新研究直击这一痛点，从理论层面揭示了问题的根源，并提出了创新的解决方案。

论文链接：https://arxiv.org/abs/2509.21500
代码开源：https://github.com/Jun-Kai-Zhang/rubrics
数据开源：https://huggingface.co/datasets/JunkaiZ/Rubrics
理论突破
高分区才是关键战场
来自Scale AI、UCLA和芝加哥大学的研究团队，首次从理论上给出了明确答案：
奖励过度优化的根源，在于奖励模型在高分区的不准确性。
高奖励区域的准确性决定一切：当代理奖励在高分区域出现偏差时，模型性能会随着训练进程急剧崩溃；而低分区域的误差影响微乎其微。
只需要准确识别Top 2响应：即使只能正确排序前10%的优质回答，模型性能就能接近最优，效果几乎与完美奖励模型相当。
这意味着：我们不需要在所有回复上都准确，只需要准确区分「优秀」和「卓越」!

方法创新
用评分准则捕捉「卓越」
理论清晰了,但新问题来了：如何获得高质量样本来训练奖励模型？这里存在一个悖论：
从基础模型采样？太低效了——高分样本本来就稀少。
用更强模型生成？又会引入分布偏移——奖励模型可能学到的是表面特征而非真实能力。
研究团队提出了基于评分准则（rubric）的解决方案。评分准则是一组衡量回答好坏的明确准则，每个准则都有相应权重。比如对于医疗诊断问题，可能包括：
高权重准则：「正确识别疾病」「标明紧急程度」
低权重准则：「提及治疗方案」
Rubric的核心优势在于：
将评分分解为多个可验证的具体标准
每个标准都是二元判断（满足/不满足）
最终得分是满足标准的加权平均
更重要的是,Rubric天然具有分布不变性——它关注的是回复本身的质量特征,而非生成来源。

两大原则：如何构建有效的Rubric
为了让Rubric真正捕捉高分区的差异，研究团队提出两大关键原则：
原则1：区分「优秀」与「卓越」。通过对比两个都很好的回答，识别它们的细微差异，将这些差异编码为新的评分准则。
原则2：在多样化的优质回答中寻找差异。扩大候选池，从16个顶尖模型中采样，确保覆盖不同的优秀回答模式。

实验验证
全面碾压基线方法
研究在通用和医疗两个领域进行了大规模实验：
性能提升明显
使用优质样本改进的评分准则，胜率从31.3%提升至39.7%
医疗领域的HealthBench得分从0.3004提升至0.3513
有效缓解奖励过度优化
初始评分准则训练的模型在60步后性能急剧下降
改进后的评分准则将崩溃点推迟到160步，延长了近3倍

高奖励区域准确率大幅提升
评分准则改进后，在高奖励区域的准确率提升显著，而低奖励区域的准确率基本不变，完美验证了理论预测。
质的飞跃：优秀样本带来更深层的改进
研究团队还分析了不同质量样本带来的Rubric改进类型：
优秀样本驱动的改进：
添加惩罚项，避免明显错误
放宽过于严格的标准
纠正错误或对齐预期标准
卓越样本驱动的改进：
将复杂标准分解为子标准
增强验证和证据标准
明确范围、边界和约束
纳入风险分析和安全约束
以医疗案例为例：
初始Rubric只要求「提到正确诊断」和「说明紧急性」——两个优秀回复都满足。
精炼后的Rubric新增标准：「明确指出需要紧急影像学检查（如增强CT或MRI/MRV）来确认诊断」，成功区分出了更好的那个。
这就是质的飞跃：从表面判断到深层验证标准。
产业意义与展望
这项研究为大模型对齐提供了全新视角：
理论指导实践：明确了奖励建模的优化方向——聚焦高奖励区域
方法可操作性强：基于评分准则的方法易于实施和解释
领域适应性好：在医疗等专业领域表现尤其出色
当然，研究也指出了当前的局限：
简单的加权平均可能不是最优的分数聚合方式
对于大模型从业者来说，这项工作提供了一个清晰的方向：
不要试图在所有地方都完美，专注于准确区分顶尖回复，这才是对齐的关键。
参考资料：
https://arxiv.org/abs/2509.21500

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

黄仁勋谈中国AI：非常优秀，就该用

华为黄健：在算力、存力和运力三者中，运力是目前最突出的瓶颈

突发事件！ OpenAI 大模型失控，中方救场

开了这盏小蓝灯，“我就成了马路鄙视链最底端”

冯骥看DeepSeek创始人发言盛赞！荡气回肠的中国故事

Uber客户服务部门裁员10%：简化员工队伍，拥抱人工智能

全站最新

黄仁勋谈中国AI：非常优秀，就该用

华为黄健：在算力、存力和运力三者中，运力是目前最突出的瓶颈

突发事件！ OpenAI 大模型失控，中方救场

开了这盏小蓝灯，“我就成了马路鄙视链最底端”

热门推荐

黄仁勋谈中国AI：非常优秀，就该用

华为黄健：在算力、存力和运力三者中，运力是目前最突出的瓶颈

突发事件！ OpenAI 大模型失控，中方救场

真联手难！日本七大车企欲在零部件标准化全面合作：阻止中国车企全球扩张

开了这盏小蓝灯，“我就成了马路鄙视链最底端”

冯骥看DeepSeek创始人发言盛赞！荡气回肠的中国故事

Uber客户服务部门裁员10%：简化员工队伍，拥抱人工智能

腾讯市值4万亿港元“徘徊”：游戏收入产分歧，AI回报待考

三星最小可穿戴设备：Galaxy Ring2智能戒指已在路上

一目科技E轮融资超10亿：触觉传感器正在成为具身智能的最难的环节

Kimi K3太强惹麻烦！美国指控月之暗面违规用GB300芯片训练

消息称索尼/微软有望效仿苹果，为PS6/XBOX Helix推游戏主机月租计划

紧追ChatGPT，谷歌Gemini应用已拥有9.5亿月活跃用户

纠缠保真度超过94%，量子互联网首次走出实验室

梁文锋融资会议实录：揭秘DeepSeek算力困局与AGI路线图