当前位置: 首页 » 资讯 » 科技头条 » 正文

继Ilya之后,KAN一作再发檄文:Scaling终将撞铁壁!

IP属地 中国·北京 新智元 时间:2026-01-02 14:15:12


新智元报道

编辑:KingHZ

KAN网络作者刘子鸣新作直击痛点:Scaling Law虽然能通过「穷举」达成目标,但其本质是用无限资源换取伪智能。而真正的AGI应大道至简。

继Ilya之后,柯尔莫哥洛夫-阿诺德网络KAN一作向Scaling Law发出最新檄文!

2025年圣诞节,斯坦福大学博士后、清华大学赴任助理教授刘子鸣把矛头对准了Scaling Law。

在他看来,如今的大模型,更像是在用无限算力和数据做穷举,换来的却只是看起来聪明的假智能

而真正的AGI应当像物理学定律一样,用最简洁的「结构」驾驭无限的世界。

刘子鸣话说很直白:

要想聪明地造出AGI,我们缺的不是规模,而是结构


在他看来,结构主义AI并不是为了「否定」 Scaling Law。

问题在于,Scaling终究会撞上两堵墙:能源和数据。

当这两样东西耗尽时,Scaling的路,也就到头了。

Scaling Law

用战术上的勤奋掩盖战略上的懒惰

在过去数年中,Scaling Law几乎成为AI的「黄金法则」。

它的地位,就像AI界的「元素周期表」——

一旦被发现,整个方向都被统一了。


这一经验规律揭示了模型性能与模型规模、数据量、计算量之间的幂律关系:当模型参数、训练数据和算力不断增加时,模型性能会持续提升

然而,Scaling Law背后的逻辑却出奇简单:由于在分布外任务上,AI表现不佳,最直接的解决方案就是收集更多数据、训练更大模型,直到一切任务都变得「分布内」。

换句话说,这就是AI版的「大力出奇迹」。

因此,Scaling Law提供了一个可靠但低效的未来。


其实,刘子鸣的立场非常明确:

如果大家完全忽略能源与数据的限制,我毫不怀疑仅靠Scaling Law最终能够实现通用人工智能。

我从未怀疑过这一点。

如果算力无限、数据无穷,大模型原则上可以覆盖一切。


问题恰恰在于——现实世界并不是这样。算力有限。能源有限。高质量数据,同样有限。

于是,真正的问题浮出水面:

有没有一条更明智的路,在资源有限的前提下,走向AGI?

资源有限

AGI需要「智能」而非「蛮力」

刘子鸣认为有:

答案不是更大的规模,而是更多的结构。

注意:这里是结构而非符号。他有意区分了这一点。

为什么我们需要的是结构?

因为结构能带来压缩。而压缩正是智能的核心。正如Ilya曾经说过的那样:压缩就是智能(Compression is intelligence)

举个简单例子。

如果允许分形结构,那么雪花的内在复杂度极低——它是高度可压缩的。如果不允许结构、必须逐点描述它,那么雪花的表观复杂度几乎是无限的。


今天的Scaling Law更像后者:用越来越多的参数和计算去拟合巨大的表观复杂度。

一个更深的例子来自天体力学。

对行星运动建模最直接的方法,是把行星在每一个时刻的位置都存下来——一个成本极其高昂的查找表。

随后,发生了两次关键的「结构化压缩」:

开普勒意识到行星轨道是椭圆,从而第一次实现了真正的压缩:他找到了一个贯穿时间的全局结构,复杂度立刻大幅下降。

牛顿则发现了局部的动力学定律,实现了第二次压缩:用更少的参数解释了更多现象。

那么,现代AI大致站在什么位置?

Keyon Vafa和合作者的研究表明,Transformer并不会自然地学出牛顿式的世界模型。


这意味着:正确的物理结构并不会因为你把模型做得更大,就可靠地自动涌现。

如果我们把「结构终将涌现」当作默认信条,很多时候就像原始人的祈祷。

区别只是:我们的祭品(数据与算力)确实在一定程度上有效。也正因为它有效,我们反而缺少动力去追问更科学、更明智的路径。

自然科学之所以成立,是因为结构是显式的,而且无处不在。没有结构,就不会有自然科学。

沿着「第谷–开普勒–牛顿」的轨迹做类比:

在很大程度上,今天的AI仍像「第谷时代」:实验驱动、数据驱动;

只是刚刚进入「开普勒式阶段」:出现了像Scaling Law这样的经验规律。


但问题在于:我们把经验规律变成了信条。

大家选择了激进Scaling、围绕经验规律做工程化系统,而不是把它们当作通往更深理论的线索——一种属于AI的「牛顿力学」。

从思想层面看,这并不是进步,反而可能是一种退步

到这里你可能会反问:这不就是「批评Scaling、批评基础模型」的老生常谈吗?刘子鸣不就是年轻版Yann LeCun吗?

不。并非如此。

刘子鸣选择了另一条路。

另一条路,

在联结主义x符号主义之外

刘子鸣的立场更中性:按照「无免费午餐」(No Free Lunch)的视角,每一种模型都有适用范围和局限。

直白一点:所有模型都是错的,但有些是有用的。

关键问题不在「用不用基础模型」,而在我们是否真正理解:不同任务,具有本质不同的结构与可压缩性。

从「压缩」的角度,并借鉴自然科学的类比,任务大致可分为三类:

类物理任务:高度可压缩,符号公式可能从连续数据中涌现出来。

类化学任务:可压缩性强、结构清晰,但符号往往不完整或只能近似。

类生物任务:只能弱压缩,更多依赖经验规律与统计归纳。

纯噪声当然存在,但任何模型都处理不了,可先忽略。

一个理想的智能系统,应该能判断自己面对的是哪一类任务,并施加恰到好处的压缩。


符号模型擅长类物理任务,却在类化学与类生物任务上失败。

联结主义模型因其通用性,原则上可处理所有类型——但恰恰因其缺乏结构,在类物理与类化学问题上极其低效。

这便是他主张结构主义的原因。

结构主义既不是Thinking Machines青睐的联结主义,也不看好一度洛阳纸贵的符号主义,也不是两者简单杂交出的「双头怪兽」。


符号主义从类物理任务出发,联结主义从类生物任务出发。

一个自然而然的问题是:我们能否从类化学任务出发构建AI?

结构主义的设计初衷,正是要捕捉这一中间状态。

符号是一种更严格、更离散的结构,而经验规律是一种更松散的结构。

我们期望符号能从结构中涌现;也期望经验规律能通过从数据中松弛结构而习得。

在监督学习里,这种区分已经相当具体。

线性回归是符号主义的。

多层感知机(MLP)是联结主义的。

方程学习器(EQL,equation learner)则是神经–符号混合。

相比之下,Kolmogorov–Arnold Networks(KANs)是结构主义的。

KAN背后的表示理论可以紧凑地捕捉多变量函数的组合结构。因此,KAN既不像MLP那样无结构,也不像线性模型那样过度约束,也不会因为神经–符号不匹配而充满不稳定性。

结构主义不是一种妥协。它是一种统一。


但真实世界远不止监督学习。

我们不只是从数据里学习结构,我们还会比较结构、复用结构,并构建「结构的结构」。

这就是抽象。


范畴论研究「结构的结构」

刘子鸣把话说得更明确:抽象可能是AGI最核心的瓶颈之一。

这一点也与Rich Sutton在OaK架构里对抽象的强调相呼应:

持续学习,本质是在跨任务保留抽象不变性;

适应性与流动性(例如ARC-AGI语境)体现为在上下文中即时做抽象;

许多ARC-AGI任务,本质上是「直观物理」的简化形式,而直观物理恰恰是世界模型的关键组成。


未来之路

如何让抽象发生?

刘子鸣坦言:还没有完整解法。

刘子鸣有一个洞见是:抽象来自对结构的比较与复用

注意力(Attention)当然也是一种比较机制,但它隐含了两个强假设:

结构可以嵌入向量空间;

相似性可以用点积来度量。

现实中,很多结构并不与向量空间同构。

这种表示方式之所以被广泛采用,很大程度上不是因为它在认知上或科学上更正确,而是因为它更适配GPU计算范式。

他认为,当下AI的发展其实「暗地里」已经很结构主义,但更多是外在意义上的结构主义

推理过程是结构化的;

AI智能体框架是结构化的;

但底层模型依然是联结主义的。

这带来一个直接后果:系统高度依赖Chain-of-Thought(思维链,CoT)数据,通过显式监督把结构「贴」在模型外面。

他更愿意押注:下一波关键进展会来自内在结构主义——

把通用结构注入模型,或让结构在模型内部自行涌现,而不是持续依赖显式CoT监督来「外置结构」。

从应用角度看,我们真正需要的通用人工智能,必须同时满足:

可适应

可泛化

具备物理基础

结构对这四点都至关重要。因为物理世界本身就是高度结构化、也高度可压缩的:可组合性、稀疏性和时间局部性。

如果这些结构无法在模型里出现,「世界模型」就仍遥不可及。

总结一下:结构主义AI代表了一条与Scaling根本不同的道路。

它可能更难,但也更有趣、机会更多,而且长远看来看更有前途。

到了2026年,是时候把筹码押在不一样的方向上并身体力行:

结构,而不是规模

参考资料:

https://kindxiaoming.github.io/blog/2025/structuralism-ai/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。