![]()
新智元报道
编辑:KingHZ Aeneas
炸裂!就在刚刚,一位MIT博士,在Transformer里造出个计算机。现在,模型一举洗刷「9.11与9.9哪个大」的耻辱,几秒内运行数百万步程序,世界最难数独准确率100%!大模型的能力边界,从此彻底改变。
就在刚刚,AI圈被一项暴力美学般的突破,彻底震碎了三观。
一位MIT博士,在Transformer里,直接造出了个计算机!
注意,不是外挂插件,不是调用工具(Tool Use),而是通过一种近乎疯狂的硬编码方式,将一个WebAssembly (WASM) 解释器无损地(Losslessly)嵌入到了Transformer模型的权重之中。
![]()
这位博士老哥,是真的把LLM玩出硬件感了
这意味着,从此LLM不再是靠概率预测下一个智元(Token)的文字游戏机,而是进化成了一台真正的数字计算机。
如果你以为,LLM现在还算不清「9.11与9.9哪个大」,现在,你的认知将被彻底粉碎!
现在,这篇帖子已经在X上热转,引来众多开发者大神的疯狂点赞。
可以说,它一举洗刷了大模型3年以来的「耻辱」。
「Vibe Coding」之父、大神Karpathy直接惊呼:这项研究太棒了,实在是令人深受启发!
![]()
LLM终极弱点,被彻底攻破
作为一种新类型的智能,大模型能解研究级难题,但不借助外部工具,却几乎不可能完成两个数相乘或解个小数独。
那么,如何让LLM本身变得像计算机一样可靠高效?
答案是:在Transformer内部实实在在地构建一台计算机。
雅典大学副教授、MIT博士Christos Tzamos及其Percepta团队将任意C代码转化为智元(Token),让模型自己能可靠执行,在几秒内运行数百万步。
![]()
链接:https://www.percepta.ai/blog/can-llms-be-computers
通过匈牙利算法,它解决了一个多步优化问题,即求解最小成本完美匹配,运作方式如下。
![]()
在这个过程中,AI并不调用外部工具。
所有计算都是在Transformer内部以自回归的方式完成的!
这里的难点在于,对于任何实际计算来说,LLM的标准注意力机制太慢了。
为了绕过这一限制,他们发明了一种新的解码路径,实现了指数级加速的注意力机制,让每智元(Token)生成所需的几乎所有计算量智元(Token),并在CPU上以超过每秒3万个智元(Token)的速度流式输出结果。
![]()
![]()
要知道MacBook M2 Pro的解码速度才每秒27个智元(token),每秒33000个智元(Token)堪称火箭般的速度,让人难以想象!
![]()
当然,用LLM的计算速度无法与CPU相比,这项研究的关键意义在于赋予LLM内在计算能力,真正教会AI算数,让它更聪明。
![]()
而这项能力与自动研究相结合,未来探索空间更是远超想象。
![]()
网友赞叹:这才是真正的原生智能!
![]()
传统attention
可以退出历史舞台?
注意,这项工作,并不是让模型更会算,而是让模型在内部真正执行程序!
不靠外挂,不调用Python,所有计算,都发生在Transformer里。
更离谱的是,这台「计算机」几秒就能跑完百万步的程序。连做最难的数独,正确率都是100%。
![]()
在3分钟内,它就实现了100%的精确求解
这种方法不仅可用于速度,它可以用于执行任意代码——就像在AI脑子中塞入了一台电脑。
![]()
按照大V「Rainier」的说法,这个思路有点类似于TI的dsp芯片:ARM负责逻辑思维,dsp专门负责高速数据计算,各取所长。
![]()
这也意味着,一种Hybrid LLM架构的全新范式开始出现,其中神经网络负责推理和理解,嵌入式解释器/计算引擎负责高精度计算。
于是可以同时兼顾推理能力和确定性计算精度,彻底解决「9.11和9.9哪个大」这个问题。
这个方向走通的话,数值计算、物理模拟、金融建模、密码学运算,都会发生极大变革。
传统Attention太慢,根本不适合做计算,而这项研究,直接引爆了Transformer的范式跃迁!
![]()
AI最大的耻辱,如今被终结了
三年了。
![]()
三年来,每个顶级AI经历过同一个社死时刻:当你在台上信心满满地演示大模型的超强推理能力,台下忽然有人举手提问:「那请问,9.11和9.9哪个大?」
模型回答「9.11 > 9.9」,全场哄堂大笑。
这不是段子,这是真实发生过无数次的事。
![]()
2024年,在记者Matt Barnum测试中,基于ChatGPT的学习辅导工具Khanmigo,有时连算术题的答案都拿不准
原因不难理解:Transformer本为理解语言设计的,并非为精确计算设计。
让大模型做算术,就像让莎士比亚做会计——他能把财报写成十四行诗,但数字八成对不上。
AI行业的补丁方案是「外挂工具」:算不了?那就调Python。
![]()
这相当于给莎士比亚旁边放了个计算器。虽然能用,但并不优雅,而且每次调用都打断推理链、增加延迟、引入安全风险。
现在,MIT博士说:别给莎士比亚放计算器了,直接让他天生就会算数!
他们把一台完整的WebAssembly虚拟机,硬编码进了Transformer的权重里。
也就是说,神经网络的前向传播过程本身,就等价于执行一台计算机。
过去AI的耻辱,如今终结了。
不过,但就数独问题而言,这不是LLM第一次突破。
工程师Aviraj认为Percepta的方法很酷,但他们采取了不同的、更面向具体问题的路径。
核心区别在于:不将通用编译产物(如C->WASM)作为模型的学习目标,而是为特定任务设计一个极简的、领域专用的指令集(PSVM)。
![]()
![]()
不过,这次看看Christos Tzamos团队如何在Transformer内部跑起来一台电脑的。
这个过程的关键,就是找到一种方法,来编码一台可工作的计算机。
计算:一条只增不减的轨迹
要理解Transformer如何在内部执行程序,不妨用一种稍微不同的方式来思考计算。
想象一个笔记本,计算的每一步都写在下一行。一旦写下,前面的行就不能更改;笔记本只会越来越厚。
这惊人地接近自回归Transformer的工作方式:提示词是输入,生成的智元形成不断增长的轨迹,每个新智元都是通过注意力机制回看少量位置后产生的。
比如,给定一个句子,统计其中动词的数量是奇数还是偶数。每个轨迹智元恰好关注两个位置:对应的输入词(检查它是否是动词)和前一个轨迹智元(读取当前的奇偶状态)。
![]()
请注意,无论句子有多长,每一步都只需要两次回看(一次看提示词,一次看轨迹)。
这正是其中的核心洞察:许多算法都可以表示成这种只增不减的轨迹,每一步只需读取少量、固定数量的先前位置。
那么,计算能否被表示成一条只增不减的轨迹,且每一步只需回看少量次数呢?
答案是肯定的。
在Christos Tzamos的系统中,AI模型明确地生成了这样的轨迹。
它生成的智元代表了一个虚拟机的动态状态:指令指针、内存和栈操作、算术运算、控制流以及输出。
AI只需通过回看相关的先前步骤,就能重构出当前状态。
这几乎就是图灵机!
![]()
图灵机是一种抽象的计算机模型,它通过在一个无限长的纸带上进行读写操作来执行计算。
但即使Transformer能表示这种执行轨迹,随着轨迹变长,标准的解码过程仍然会付出越来越高的成本。
然而,Christos Tzamos等提出了快速解码路径,消除了这一障碍,而二维注意力头限制,正是实现这一快速路径的关键。
![]()
总的来说,这件事真正有价值的地方,不在于「模型更会算了」,而有些能力,可以直接以「系统」的形式嵌入进去。
当Transformer内部开始运行真正的程序,LLM就不再只是一个概率模型,而更像一个由推理系统和计算引擎组成的混合体。
AI,正在变成一整套可以执行、可以组合、可以扩展的系统。
这,可能就是下一代AI的真正方向。
参考资料:
https://x.com/mtrainier2020/status/2033640996337291482
https://www.percepta.ai/blog/can-llms-be-computers





京公网安备 11011402013531号