伯克利神作背刺OpenAI：持续学习才是真神！

IP属地中国·北京 新智元 时间：2026-05-19 08:24:15

新智元报道

伯克利等发布FST框架：通过快慢分层解决大模型持续学习死局。
AI工程师Dan McAteer大胆预言，2026年持续学习（continual learning）即将爆发！
通过记忆/上下文快速适应+权重缓慢调整的分层机制，模型保留可塑性避免灾难性遗忘，这一突破远超推理变革1000倍。

这是最近的伯克利等机构的AI实验给他的勇气。
他们让同一个大语言模型连续学三个任务：
先学需要多跳检索的事实核验HoVer；再学代码推理CodeIO；最后学物理题Physics。
每个任务训200步就切换，模拟真实世界里「任务在不断变化」的学习场景。
用主流的强化学习(RL)范式训练，模型在第一关HoVer上学会了。到了第二关CodeIO完全卡住。学不动。
换上他们提出的新框架FST（Learning，Fast and Slow），同一个模型，三关都能学会。

这是AI行业过去两年集体押注的某个方向，第一次显露出它的天花板。

标题：Learning, Fast and Slow: Towards LLMs That Adapt Continually
预印本：https://arxiv.org/abs/2605.12484
项目主页：https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/
如果我们集体押注的那条路，正在让模型变成「会做题但学不会新东西的天才」，那我们押的到底是AI，还是一只越来越精致的鹦鹉？
「推理」成了AI圈的全部叙事
过去两年，几乎所有头部实验室都在做同一件事：让模型想得更深。
OpenAI的o系列、DeepSeek的R1、Claude的思考模式这些产品形态各异，但内核都是一个共识：推理能力是AI的下一关。

这个共识强到什么程度？
强到你今天去一线投资人那里，如果不能讲清楚自己怎么「做推理」（reasoning），连第一轮的门都进不去。
强到我们已经忘了去问：推理，到底是什么？
打一个比方，一个学生能把任何一道高考题想得无比深，推理链条无懈可击，逻辑结构滴水不漏。
但有一个前提，他从初中毕业那天起，就没再学过任何新知识。所有的知识储备，都停留在他16岁那年的状态。
你愿意把他的能力，称为「智能」吗？
这个比方可不是修辞。这是当前最先进LLM的真实处境。
GPT-5、Claude、Gemini等所有这些你今天能用上的模型，它们在每一次新对话开始时，都是一个昨天毕业、今天醒来、忘了一切的天才。
它们可以在一道题上推理得越来越深，但只要对话框一关，记忆就会清空，回到出厂设置般的「天才状态」。
它们是在推理的巨石上反复攀爬的数字西西弗斯——爬得越来越高，起点却永远是山脚。
问题是，为什么我们一直没察觉？
在AI历史上失败了30年，大家不敢再期待
为什么GPT不会从你和它的对话里学到任何东西？为什么你昨天教它的东西，今天打开一个新对话，它就完全不记得？
这是一堵30年没人推倒的墙。
AI领域的「持续学习」(Continual Learning)，研究怎么让模型像人一样，不断「温故知新，吐故纳新」。
这个问题从1990年代就在被研究，然后在三个老对手面前反复失败：
第一个对手叫「首因偏差」（primacy bias），早期数据会主导模型最终的策略。
模型学会的第一件事，会顽固地塑造它后面学所有事情的方式。
第二个对手叫「损失函数弹性」（loss of plasticity），即模型每多学一个任务，可塑性就降低一分。
到某个临界点，它就再也学不会任何新东西了。
第三个对手最有名，叫「灾难性遗忘」(catastrophic forgetting)——你教模型学新任务，它的旧能力「啪」地一下塌掉。
教它做数学题，它就忘了怎么写代码。教它写代码，它就忘了怎么对话。

这三个问题，在小模型时代就存在。
到了大模型时代，它们没有变小，只是变得不那么醒目。
因为我们干脆放弃了让模型「持续学习」，只在训练时灌一次知识，部署后就冻结。
我们今天用的所有LLM，本质上都是冻结的天才。
聪明，但不能再聪明。强大，但活在一个永恒的当下。
这就是为什么大模型时代，持续学习一直是个「听上去很美但谁也不敢碰」的话题。
试过的人都被这堵墙撞回来过。

但最近，这堵墙被一组研究者推了一道缝——他们没有发明新算法，他们做了一件更根本的事：重新分工。
让模型像大脑一样，快慢分层
这是Databricks工程力+伯克利系统派+经典ML学派绑在一起的项目。
作者豪华，值得一看：Matei Zaharia(Databricks联合创始人，Apache Spark作者)、Joseph Gonzalez(伯克利，vLLM作者之一)、Inderjit Dhillon(UT Austin与Google，ML领域元老级人物)——以及一群伯克利的博士。

当这三股力量同时押注一个方向，你就该认真看一眼。
他们提出的框架叫FST(Fast-Slow Training，快慢训练)。核心思想极其朴素：
不要让一组参数同时承担两个矛盾职能。
传统RL训练里，模型只有一组参数。
它既要「快速适应当前任务的特殊性」，又要「保留通用的推理能力」。
这两件事天然冲突：前者要漂移，后者要稳定。
FST的做法是：把这两件事分到两套「权重」上。
两者交替更新——每隔一段时间用RL调一下慢权重，同时用一个叫GEPA的prompt优化器自动演化快权重。
你的大脑，正是这样运作的。

在博客里，GEPA团队直接引用了「互补学习系统」理论(Complementary Learning Systems)：
你的海马体，是大脑的「快权重」，它在几分钟内就能记住今天下午开会时同事说的那句话；
你的新皮层，是「慢权重」，它用几个月甚至几年的时间，慢慢把这些细节里真正值得纳入长期结构的东西沉淀下来。

新记忆，从来没有直接写进大脑长期结构。
它先在海马体里「暂存」，在睡眠中被反复回放，最终只有极小一部分被慢慢渗透进新皮层——剩下的，你忘了。
FST第一次让大模型拥有了这种分层结构。
数字也很漂亮。

FST在CodeIO任务上达到RL同等性能，只用了1/3的训练步数——数据效率3倍。
在匹配准确率的情况下，FST训出来的模型与基础模型的KL散度(衡量分布偏移)比RL低70%——遗忘减少70%。
最关键的是可塑性测试：训完Math任务后，再训HoVer-hard，RL训过的模型几乎完全学不动新任务(可塑性塌缩到近0)，FST训过的模型，几乎恢复到基础模型水平继续学。

这是数量级跃迁。
当然，FST不是一个完美的算法。GEPA和CISPO可以被任何其他的prompt优化器和RL算法替换，它的工程实现还很初步。
重要的不是FST这个具体方法能不能跑通——重要的是它提出的"快慢分工"作为一种范式语言，第一次让持续学习从空想变成可工程化的方向。
还没形成的共识
共识正在形成，但还没形成。
这才是真实状态。
业界给的时间表是另一套。
Ilya Sutskever认为：超级智能应被重新定义为持续学习器，而非已完成的AGI。
他估算continual learning还要5到20年。
Ilya一向比业界共识慢，但每次保守判断都比业界更精准。5到20年的区间意味着，即使是 Ilya 也承认这件事会被解决，分歧只在节奏。
Karpathy更微妙。
在他看来，continual learning是真问题，用现有路径解决还不够。他的怀疑停在执行层面，方向层面没有反对。
但事情已经动了。
推理时代是2024年开局、2026 年收尾。
持续学习时代是2026年开局，下一轮博弈不会等到2027年。
参考资料：
https://arxiv.org/pdf/2605.12484
https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/
https://x.com/daniel_mac8/status/2055975372345274519
编辑：KingHZ David

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

特斯拉Model Y L电动汽车在美国上市，6.2万美元

腾讯游戏暑期未保行动：每周限玩3小时，升级「AI双引擎防沉迷」模式

苹果折叠屏iPhone备货目标大幅上调，福蓉科技直线涨停

谷歌Snapseed 4.0.8修图应用发布帮你对齐拍摄画面

大疆国内诉影石，新案即将开庭

特斯拉Model Y L电动汽车在美国上市，6.2万美元

全站最新

特斯拉Model Y L电动汽车在美国上市，6.2万美元

腾讯游戏暑期未保行动：每周限玩3小时，升级「AI双引擎防沉迷」模式

苹果折叠屏iPhone备货目标大幅上调，福蓉科技直线涨停

谷歌Snapseed 4.0.8修图应用发布帮你对齐拍摄画面

热门推荐

特斯拉Model Y L电动汽车在美国上市，6.2万美元

腾讯游戏暑期未保行动：每周限玩3小时，升级「AI双引擎防沉迷」模式

苹果折叠屏iPhone备货目标大幅上调，福蓉科技直线涨停

谷歌Snapseed 4.0.8修图应用发布帮你对齐拍摄画面

大疆国内诉影石，新案即将开庭

特斯拉Model Y L电动汽车在美国上市，6.2万美元

从敌人到盟友揭秘贝佐斯与特朗普关系转变：蓝色起源受益

独家内幕：美团如何用5万张国产卡训出“龙猫”万亿级模型？

Meta扎克伯格坦承AI智能体发展不及预期，超级智能仍需时间

“一听到就想吐”，他们开始集体抵制AI，画师开直播自证

何小鹏：明年大部分国家和区域逐步开通 VLA

操作系统迎来大洗牌！微软纯网页版 Aion 系统首度曝光

AI 成本失控警报：大厂相继祭出“限流令”，旗舰模型成了“奢侈品”

起猛了，外星人被AI害惨了…

中国智能驾驶领先全球！何小鹏放话：L4、L5技术会在3-5年内落地