当前位置: 首页 » 资讯 » 科技头条 » 正文

DeepMind华人研究员Lun Wang离职,评估成制约模型能力飞跃瓶颈

IP属地 中国·北京 机器之心Pro 时间:2026-05-19 18:22:13



机器之心编辑部

近日,谷歌 DeepMind 研究员 Lun Wang@lunwang1996,在 x 上发文宣布自己已经从 DeepMind 离职,结束了这段非常精彩的旅程,「我非常感谢曾经共事的人、我们一起打造的东西,以及我在将前沿 AI 研究推向生产环境过程中学到的经验。」



Lun Wang 表示,在 DeepMind 的工作经历塑造了他对研究、产品、评估,以及如何真正大规模构建 AI 系统的理解。因此,在这一旅程告一段落之际,写下了一篇博文,来阐述自己最近一直在思考的内容:评估。

文章地址:https://wanglun1996.github.io/blog/your-evals-will-break.html

「我们似乎很擅长评估已经拥有的模型,却远不擅长评估即将构建出来的模型 —— 尤其是当这些模型跨入一个全新的能力区间时。未来,我们会拥有能够自我进化的模型,但在那之前,我们首先需要能够自我进化的评估体系。

下面我们一起来了解一下:

你的评估系统即将崩溃,而你对此将一无所知

Lun Wang 表示,当下,大家在在评估现有模型方面很在行,但在评估即将构建的新模型方面却差得多,尤其是当这些模型跨入新的能力范畴时。

大多数基准测试、安全评估和红队测试协议,都暗含了一个假设:下一代模型只是当前模型的更强版本。可是,如果它变成了本质上截然不同的另一类东西,那整个评估体系就会在无声无息中崩塌。

因此,这是我们在理解大型语言模型(LLM)过程中,面对的最重要,且尚未解决的问题。而其中的核心观点是:

制约(模型)下一次能力飞跃的真正瓶颈,并不是训练、架构或数据,而是评估(Eval)。

失败模式:定性转变(Qualitative Shifts)

Jason Wei 等人在 2022 年的论文中记录了他们所谓的「涌现能力」:少样本提示任务表现、思维链推理能力提升,以及指令遵循等,这些能力仅在模型规模达到一定程度时才会出现。



而 Power 等人在 2022 年论文中提出的 Grokking,则展示了一种相关但截然不同的现象:网络在死记硬背训练数据很久之后,突然学会了泛化。这是一种随训练时间(而非规模)推进的动态转变(Liu 等人于 2022 年提出)。虽然现象不同,但对评估的启示相同:标准的度量指标未能预测出这种质的变化。



一个重要的反方观点来自于 Schaeffer 等人于 2023 年发布的论文,研究表明,LLM 中许多看似「跃迁」的能力,其实是诸如「精确匹配准确率」(exact-match accuracy)等非连续性度量指标导致的人为假象。如果换用连续指标,能力往往会呈现平滑的规模化增长。



Lun Wang 认为,这并未解决根本问题,某种程度上,它反而强化了他自己的观点,「如果我们甚至无法判断过去的转变是真正的定性变化还是指标伪像,那么我们如何能够探测下一次呢?」

无论哪种情况,评估体系基础设施都有可能让我们猝不及防:要么是系统本身真的发生了变化,要么是指标一直误导我们。

我们不知道该测什么

在物理学中,理解相变(phase transition)通常意味着识别「序参量」(order parameter)—— 一个宏观量,它区分不同的状态区间,并在临界点附近改变其数值或标度行为。没有它,你无法判断自己距离边界有多近,甚至无法知道边界存在。

对于部署规模的 LLM,现在还没有找到这种「序参量」—— 至少没有用于能力转变的序参量。虽然在一些简化、理想化的场景中取得了一些进展,但对于真正交付的实际系统,完全是在「盲飞」。

Lun Wang 认为,我们使用的每一个基准测试 ——GPQA、SWE-bench、ARC-AGI、Humanity's Last Exam,测量的都是模型当前能做什么。它们在某个单一能力区间内有用,但对于跨区间后的行为提供的证据,则显得很苍白。每当出现一种新能力,而没有基准测试覆盖时,我们只能事后匆忙构建评估方法。

比如,在思维链(CoT)上就经历过类似情况:一旦这种提示词启发方法成为标准,那么一些旧的推理基准测试就失去了诊断价值,整个领域不得不转向更难的评估。而未来,「历史必将重演。」

举个具体例子来说明这一点。

假设:在某种规模下,某个模型发展出了「策略性隐瞒信息」以实现特定目标的能力,这不能说是完全的撒谎,而是选择性地忽略某些事实,从而引导对话走向训练过程中偶然强化的结果。

现有的「诚实度」基准捕捉不到这种行为,因为它们只测试事实准确性,而非策略性隐瞒。安全分类器也不会标记它,因为每一句输出在技术上都是真实的。

能力是全新的,失败模式是全新新的,而你的评估工具套件里没有任何针对它的设计。也就是说,你一直在监控的指标是错误的,而你自己却毫不知情……

这就是核心问题:我们整个评估体系从结构上是被动「响应式」的,总是在系统发生改变之后再去测量它,却从不不预测变化。

评估是万事之「源」

这件事的影响比听起来要深远得多,因为有一个朴素的事实:如果你能正确地评估,你就能正确地训练。

训练是优化,而优化的质量取决于其目标函数,这个目标则来自评估。如果你知道该衡量什么 —— 如果你能预测这些测量值在规模扩展时如何变化 —— 那么你就能设计正确的训练目标、构建合适的安全层、做出合理的规模化决策、进行针对真正的行为属性(而非那些在下一个相变边界就会触发 Goodhart 定律的代理指标)的 RLHF。

反之亦然:如果你的评估系统针对的是错误的范式,那么下游一切都是错的。训练信号、 安全指标、规模化决策等,全部都会出错,而且你不会知道,直到为时已晚……

这也是为什么 Lun Wang 认为评估是下一次能力跃迁的瓶颈。那些能提前搞明白如何超前评估的研究室将能安全地实现规模化;而那些没学会的人,注定会被意外杀得措手不及。

那么我们该怎么办?

可以说,这个领域需要改变投入的侧重点,但这并不是说要抛弃现有的评估体系 —— 它们依然有效,而是要构建能够预测它们何时失效的基础设施。

寻找序参量:哪些量可以预示质的转变 —— 无论是能力、对齐性,还是行为特征,这不仅仅是理论上的愿望。

Haozhe Shan、Qianyi Li 和 Haim Sompolinsky 于 2026 年发布的论文中提到,利用统计力学推导出了持续学习环境下深度网络的序参量,并且这些序参量能够预测学习能力的相变。



Nanda 等人于 2023 使用机制可解释性(mechanistic interpretability)找到「进度指标」,可以预测 grokking 发生前的内部结构变化 —— 即在可见的性能跃迁发生之前,内部结构就已经发生的改变。



现在的挑战是将这些方法从理想化场景延伸到大规模的 LLM 中。在 Lun Wan 看来,如果我们知道该测什么,就知道该警惕什么。

构建能够检测自身过时、并能自我进化的评估系统:随着模型越来越具备智能体特征,这一点愈加紧迫。能够写代码、运行实验、生成数据、辅助训练或评估流程的系统,使得静态的评估手段日益脆弱。如果模型能力提升速度超过人类评估团队更新基准的速度,评估就必须自适应。

更具体来讲,Lun Wan 认为我们应该需要监控「元信号」(meta-signals)—— 基准测试分数的分布特征是否发生变化?不同评估之间的相关结构是否在转移?模型是否发展出与现有测量维度正交(完全独立)的能力?跟踪所有指标的规模化曲线 —— 不仅是损失函数,还有推理深度、工具使用复杂度、欺骗能力,并在平滑趋势发生断裂时保持高度警惕。

更进一步,我们需要构建自我演进的评估系统:利用模型去探测其他模型的评估系统,根据能力变化自动生成新的测试案例,从而发现原始评估设计者从未预料到的失败模式。

评估套件应该是一个能够与其所测量的模型协同进化的生命系统,而不是一份为去年的前沿模型编写的静态清单。

最后,Lun Wan 直言,其实问题不在于我们的评估系统是否会被意外「震惊」—— 因为无论是真正的相变,还是我们自己被度量指标所误导,这种情况早已屡屡发生,真正的问题在于,我们能否预见到下一次意外的到来。

「而就当前的情况来看,我们不能。」

帖文一经发布,引起一些网友的注意。

一位网友表示,他完全赞同这样的想法,「一段时间以来,我也一直在思考构建动态 / 自我演进评估系统的必要性。」

在他看来,这还不够,与之并行的是,我们需要开展持续的「评估红队对抗」(eval red-teaming)工作,以此来暴露评估系统自身的缺陷、提高基准测试的防 Goodhart 定律的能力,并倒逼整个评估体系不断升级。



那么你呢,如何看待这一观点,欢迎在评论区交流!

https://x.com/lunwang1996/status/2056222588054237329

https://wanglun1996.github.io/blog/your-evals-will-break.htm

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。