当前位置: 首页 » 资讯 » 科技头条 » 正文

小模型训练效率狂飙100倍!Thinking Machine推“在线策略蒸馏”,OpenAI前CTO亲自点赞

IP属地 中国·北京 编辑:杨凌霄 Chinaz 时间:2025-10-28 12:22:18

近日,AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏(On-Policy Distillation),让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公布,即获前OpenAI首席技术官Mira Murati亲自转发,引发学界与工业界高度关注。

融合强化学习与监督学习,打造“AI教练”新模式

传统AI训练长期面临两难:强化学习让模型在试错中自主探索,灵活但低效;监督微调直接提供标准答案,高效却僵化。而在线策略蒸馏巧妙融合二者——如同为学生模型配备一位“实时教练”:学生在自主生成内容的同时,由强大教师模型对其每一步输出进行动态评分与引导,通过最小化两者之间的KL散度,实现精准、稳定的知识迁移。

这一机制不仅避免了传统蒸馏中“只学结果、不学过程”的弊端,还有效防止模型“走捷径”或过拟合,显著提升泛化能力。

实测效果惊人:7-10倍步骤缩减,100倍效率跃升

在数学推理任务中,研究团队仅用原强化学习方法1/7到1/10的训练步数,就让8B小模型达到接近32B大模型的性能水平,整体计算成本降低高达两个数量级。这意味着,资源有限的中小企业或研究团队,也能高效训练出媲美巨头的专业模型。

更关键的是,该方法成功破解了企业AI落地中的“灾难性遗忘”难题。在一项企业助理实验中,模型在学习新业务知识的同时,完整保留了原有对话与工具调用能力——这为持续迭代的行业AI系统提供了可行路径。

核心团队背景深厚,技术源自OpenAI实战经验

该研究由Kevin Lu主导,他曾在OpenAI领导多个关键项目,如今作为Thinking Machine核心成员,将大模型训练的前沿经验反哺于高效小模型生态。其团队认为,在AI走向垂直化、场景化的今天,“小而专”的模型才是商业落地的主力,而在线策略蒸馏正是打通这一路径的关键引擎。

随着算力瓶颈日益凸显,行业正从“唯大模型论”转向“高效智能”新范式。Thinking Machine的这项突破,不仅大幅降低AI开发门槛,更预示着一个属于高性价比专业模型的时代正在加速到来。

论文:https://thinkingmachines.ai/blog/on-policy-distillation/

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新