当前位置: 首页 » 资讯 » 科技头条 » 正文

Transformer作者重磅预言:AI无寒冬,推理革命引爆万亿市场!

IP属地 中国·北京 编辑:郑浩 新智元 时间:2025-11-14 20:06:05

导读:LLM逼近上限?图灵奖得主Yann LeCun和Richard Sutton联手唱衰,却被Transformer之父Kaiser回击!

AI没有寒冬,只有资本与算力的热浪!

Transformer的火种已燃烧七年。如今,推理模型(Reasoning Models)正点燃第二轮革命。

Transformer共同作者、OpenAI研究员Łukasz Kaiser预判:

未来一两年,AI会极速跃升——瓶颈不在算法,而在GPU与能源。

推理模型正改写规则,钱与电,才是决定胜负的「硬通货」。

2017年,Transformer架构横空出世,八位共同作者载入AI史册

值得关注的是,在ChatGPT问世前加盟OpenAI,Łukasz Kaiser此后一直专注研究推理模型——他认为这是继2017年Transformer之后最重大的突破。

最近,他公开表示「推理模型」只是开端,还远未到定义AI的终局时刻。但这也许正是最值得兴奋的地方。

我们终于有了一种能思考的机器。现在该让它少些花哨,多去把事情做完。

万亿美元的AI路线之争

这是一场价值万亿美元的AI观念之争。

「通用人工智能」,已成为业界多数人追逐的目标——真正具备人类认知水平的通用智能体。

OpenAI一路烧钱烧资源,不断Scaling,让硅谷陷入「AGI狂热」:LLM+数据+GPU+能源就是AGI!

OpenAI发布o3之时,经济学家Tyler Cowen认为AGI已诞生,2025年4月16日就是AGI日。

即便是Karpathy表示「AGI还需再等10年」,在美国湾区都会被认为对AI的前途太过悲观。

但不是没人唱反调:

叫它沉没成本也行,叫它包袱偏见也行,千万别叫它智能。

硅谷的10万亿美元幻觉

强化学习之父、2024年图灵奖得主、《苦涩的教训》的作者Richard Sutton断言,大语言模型已走入死胡同。

在他看来,语言大模型并没有吸取任何「苦涩的教训」。

换言之,他指出大语言模型存在关键缺陷:其改进能力存在极限,而这个极限远比众所周知的要近得多。

图灵奖得主Yann LeCun多年来支持类似的观点。

Ndea人工智能实验室联创、开源深度学习框架Keras之父François Chollet也这样认为。

LLM是对AGI而言是断头路,所以他联合他人发起百万美元AI奖项ARC Prize,只为让大家重新回到通向AGI的正确道路。

最近,Łukasz Kaiser公开反驳了「LLM是死胡同」这一观点。

他虽不确定Sutton是否针对的推理型LLM,但推理模型存在着根本性突破:它们所需训练数据量比传统模型少几个数量级。

这类模型能真正加速科研进程,本可以并行开展更多实验,只是我们目前缺乏足够的算力支撑。

归根结底是算力瓶颈,关键在于GPU和能源。这才是根本性制约,目前所有实验室都面临同样处境。这就是为何奥特曼为何疯狂融资的原因。

推理革命

LLM推理正引起AI领域重大的范式转移。

普通用户很可能从未接触过真正的推理型大语言模型。

即便使用过,也是通过GPT-5的路由系统间接调用,而他们对此并不知情。

推理模型具备以下能力:

能够自我反思并发现自身思维链输出中的错误,从而及时调整推理路径;

当接收到解决复杂问题的指令时,可通过「深度思考」动态分配更多计算资源;

在推理过程中,直接调用外部工具执行操作;

生成多条备选推理路径,并自主筛选最优解。

这已完全不同于GPT-4这类纯自回归大语言模型的时代。

而且推理模型(Reasoning Models)问世尚不足一年,远未达到潜力上限。

在绝大多数推理密集型任务中,OpenAI的首个推理模型o1显著优于当时最强的通用模型GPT-4o。

它们不急着开口,会先在脑中「打个草稿」——推理、检索、调用工具,像人类在回答问题前的那几秒犹豫。

在这种模式下,AI不仅能接上对话,还能「搞定一件事」:写完一份报告、排查一段代码、核对数据库。

Łukasz Kaiser把这看作一次静悄悄的范式更替。「这就像从对话生成器,变成真正的思考者,」他说。

更让他兴奋的是,推理模型对数据的渴求小得多,却能解决更难的问题

在数学、程序分析这类结构化任务上,效果尤其明显。

16岁遇见AGI之父,AI日新月异

说来有趣,16岁时,Łukasz Kaiser的第一份有偿工作就是为Ben Goertzel编程。

在2001年前后,Ben Goertzel正式使用并普及了「Artificial General Intelligence」(通用人工智能)这一术语,用以区别于当时的「Narrow AI」(狭义人工智能)。

而现在AGI却被理解为完成人类能做的所有任务。

但现实是,AI与人类智能存在本质差异。

它在某些领域(如游戏、数学题解答)已超越大多数人,但在物理世界相关事务上仍无能为力——

现在的机器人,依旧笨拙不堪。

这种差异化发展或许才是技术演进的常态。

因此,Łukasz Kaiser认为未来发展路径将是:

AI能力会持续增强。但至少短期内,在物理世界相关领域仍将存在人类不可替代的工作,无论是技术上还是经济成本上。

比起概念争论,现阶段更值得关注的是推理模型带来的变革。

过去一年最大的突破在于,AI已能真正胜任职场中的某些工作任务,并且完成得相当出色——

不仅是秒级响应,更能持续工作数小时产出有价值成果。

这意味着我们可以将待办事项交由AI处理,从而提升整体效率。无论是否称之为AGI,AI正在变得越来越强大是不争的事实。

编程领域就是最佳例证:自从AI开发者开始聚焦这个方向,进展令人震惊。

无论是Anthropic的Claude还是OpenAI的Codex,现在都能根据需求生成完整程序,耗时仅数小时。

它们擅长理解大型代码库、进行代码审查、发现漏洞甚至安全威胁——这些能力在一年前还难以想象。

回想Claude 3.5约一年前发布时已是划时代突破,当时SWE-Bench基准测试通过率约30%,如今已达75%。

三个月前,代码模型还只是辅助工具,但现在却能真正处理复杂代码库。这种指数级进步意味着什么,不言而喻。

AI发展如此之快,但有些人开始担心我们正在进入另一个AI冬天。

Łukasz Kaiser却相对乐观。

AI的新范式:推理刚刚开始

过去,确实存在过Transformer范式,当时靠Transformer+Scaling,创造了ChatGPT。

当然,这种自回归范式,即预测下一个词,并在越来越多数据上训练越来越大的模型,这样已持续多年了。

通用的互联网数据,基本上已经被使用完了。它已经在所有这些数据上训练过了。谁也无法轻易获得比这多得多的(数据)。

但新的推理范式,才刚刚开始。

Łukasz Kaiser觉得这个范式如此年轻,以至于它仅仅处在一个非常陡峭的上升路径的起点。

就它未来的能力而言,我们已经走了一小段路。所以,我们知道它已经能做惊人的事情。

但我们还没有真正地充分利用它。我们把它扩大了一点规模,但还可以有更多的扩展。有更多的研究方法可以让它变得更好。所以,在这个新范式中,我们正处在一个陡峭的上升路径上。

我们正见证新范式的上升趋势,但它需要进一步深入研究:有些研究效果很好,有些则一般,你永远不知道——这就是研究令人兴奋的部分。

如果你把新旧范式两者结合起来,那么你就需要开始准备——

AI冬天不会即将来临,甚至在未来一两年内改进可能非常猛烈。

之后,世界将翻天覆地——这几乎有点让人害怕。

推理的突破真的非常大。

这不是偶然。GPT-4之前,OpenAI就开始研究推理模型,因为人们清楚地看到,仅仅纯粹的Scaling在经济上不可行,我们需要一个新的范式。

Łukasz Kaiser认为现在的推理模型有点像早期的「RNN」,思考仍然是一步一步的

未来,它们需要「多线并行思考」——

GPT-5 Pro已经初步实现了这一点:同时运行多个思维链(chains of thought),然后让它们「讨论」并选出最佳答案。

这种方法可能带来更快、更强的推理能力。

当前的重点:从任意数据中学习

当前推理模型最值得关注的突破点,Łukasz Kaiser认为是「从任意数据中学习」的能力。这是他最近研究的重点。

现行训练方法需要标注数据正确与否,但现实世界的数据大多不像考试题目那样非对即错。

阅读书籍时,人们不会纠结下一段文字是否正确,而是直接理解吸收。这种自然的学习方式才是更理想的范式。

GPT模型主要使用的是文字信息训练。但OpenAI多模态训练现在进展如何?

目前,ChatGPT确实已经在进行多模态模型训练了。

神经网络把音频编码成离散的音频token(audio tokens),图像也被编码成图像token(image tokens)——不是整张图变成一个token,而是分成多个图像块。

然后模型通过预测下一个token来进行训练。通过这种方式,它就能生成音频、生成图像。

而且这套方法有效到让人惊讶。

总体来看,多模态训练确实取得了成功。

早期,生成的图片人物总是有六根手指,图像文字更是惨不忍睹。

后来,大家增加了训练数据、调整了编码器结构。虽然核心的Transformer序列模型架构没变,但AI生成效果已经突飞猛进。

现在,AI不仅能生成报纸版面的完整文字,音频也能唱歌、耳语、模仿各国口音。虽然偶尔还有瑕疵,但整体效果已经令人惊叹。

如果转向音频和视频训练,数据集规模将实现数量级增长——毕竟视频包含的信息量极其庞大。

但Łukasz Kaiser提醒,视频虽然数据量巨大,但大部分只是颜色、纹理等细节,对推理和理解世界帮助有限

AI需要学会「挑重点」,只提取有意义的部分(例如运动、因果、变化)。

文字让模型理解「抽象世界」(逻辑、语言、思维),视频训练则让它理解「现实世界」(物体、空间、动作、物理规律)。

语言模型已经掌握了对抽象世界的建模,反而最欠缺的是人类最熟悉的物理世界的理解。

填补这个空白至关重要——这不仅能解决许多潜在问题,更是实现实用机器人的关键突破。

谷歌的Gemini 1.5 Robotics,已开始结合推理与视觉。

机器人会有「快反应系统」(动作)+「慢思考系统」(推理)。

随着视频理解成熟,机器人有大脑」 将真正成真。

OpenAI唯一的Transformer发明者

Łukasz Kaiser是OpenAI 研究员、Transformer 架构创始人之一,此前曾任职于谷歌大脑团队。

他专注于深度学习与自然语言处理的基础研究,共同发明了Transformer架构、推理模型及其他神经序列模型,并参与开发了TensorFlow系统、Tensor2Tensor与Trax库。

在投身机器学习领域之前,他曾任法国国家科学研究中心(CNRS)终身教职研究员,致力于逻辑学与自动机理论的研究。

他曾运用可满足性求解器及其他符号化方法开发游戏对战系统,并从事程序综合研究。在理论探索方面,他完成了复杂性、博弈论和自动机领域的定理证明,解决了多个长期悬而未决的学术难题。

他于2008年获得德国亚琛工业大学博士学位,本科及硕士阶段毕业于波兰弗罗茨瓦夫大学。

标签: 模型 推理模型 数据 世界 领域 范式 语言 人类 代码 物理 效果 文字 音频 实验室 作者 智能 算力 自动机 图像 游戏 架构 重点 技术 小时 成本 人工智能 整体 程序 序列 理论 大学

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新