作者|Yara
Arm Everywhere大会在旧金山 Fort Mason 举行,Fort Mason 是个很有戏剧感的地点,Arm首席执行官Rene Haas 一上台就先开了个场地的玩笑,他说这里曾是内战时期的官方防御据点,甚至“阿拉巴马、乔治亚和加州之间曾在这里打过一场著名战役”,然后说其实根本没有打起来,所以这地方今天看上去才这么“完好如初”。
这种轻松开场,很快被更硬核的话题接管:Arm 正式发布自己的首款面向数据中心、并将直接对外销售的 CPU,名字就叫 Arm AGI CPU。
如果只把这场发布会理解为“Arm 终于自己下场做芯片了”,其实低估了它的分量。更准确一点说,这是一场把 Arm 的公司发展、AI 时代的系统瓶颈、CPU 在 Agentic AI 中的新角色,以及 Arm 自己商业模式变化,全部串起来讲明白的发布会。
![]()
Rene Haas 的核心论点是:过去几年大家谈 AI,GPU抢走了几乎所有聚光灯,很多人因此得出判断,觉得CPU在AI时代已经退居二线。但随着AI走向Agentic AI,也就是从“生成几个 token”升级为“调用工具、执行工作流、持续编排任务”,CPU反而重新变成系统里的关键角色。换句话说,GPU这类AI计算芯片负责生成 token,但真正把这些 token 组织成可执行系统,把Agent跑起来,把容器、脚本、调度、内存和 I/O 串起来的,仍然是CPU。
这也是为什么这场活动值得看。你会在其中看到 Arm 如何重新解释自己的历史:从一颗“为电池而生”的低功耗芯片起家,到智能手机时代的底层标准,再到 Neoverse 打进云数据中心,最后走到今天亲自卖数据中心芯片。你也会看到 Meta、OpenAI、Cloudflare、SAP、SK Telecom 等公司为这件事站台。一个行业里正在发生但还没被所有人完全消化的事情是:AI竞争不再只是模型竞争,也不再只是 GPU 竞争,而是基础设施全栈竞争。
![]()
一、回顾Arm发展史
发布会开始,CEO Rene Haas走上台前,迅速切到正题:这场活动为什么叫 Arm Everywhere?
在Rene看来,这个名字是对Arm当前位置的概括,因为Arm有时也会忘记,自己到底有多大、渗透有多深、规模有多惊人。于是他没有先讲产品,而是先讲数字。
他给出三组数字。
第一组是 1170 亿,这是按人类学估算,从人类出现至今,地球上曾经活过的总人数。第二组是 3500 亿+,这是迄今为止全球累计出货的 Arm 芯片数量。Rene 特意强调,这不是“一人一颗”,而是“历史上每一个活过的人,平均对应三颗 Arm 芯片”。第三组是160,按全球家庭数均摊,平均每个家庭大约拥有 160 颗 Arm 芯片,他还补了一句,自己家里可能不止160颗。
![]()
除此之外,他还给了一个更具对比意味的数字:Arm芯片累计出货量,大约是所有非Arm架构CPU累计出货总和的7倍。这个说法本质上是在提醒所有人,Arm的“无处不在”,是真正建立在长期规模积累上的事实。
![]()
而这组数字之所以重要,是因为它们构成了后面所有故事的起点。
二、Arm的DNA从一开始就写着“低功耗”,而这条线今天被重新激活了
回到公司的起点,Rene说,Arm 的 DNA 从一开始就是“为功耗而生”。
Arm 诞生于 1990 年代初,是英国电脑公司 Acorn 分拆出来的产物,当时这家公司要做一颗芯片,而那颗芯片有两个非常明确的要求:
第一,必须能放在塑料封装里。以今天的视角看,这似乎不算特别稀奇,但在当时,塑料封装意味着散热和热设计都得非常克制;第二,也是更关键的一点,它必须极度低功耗,因为这颗芯片要被装进世界上第一代 PDA。
Rene 讲了一个很经典、也很 Arm 的故事。第一块搭载 ARM1 芯片的开发板通电后,屏幕出现了那句后来很有名的 “Hello World, I am ARM”。工程师们在示波器上看到信号工作正常,后来他们把 AC 电源拔掉了,结果芯片还在继续运行,原因竟然是因为电路板上其他逻辑电路和I/O接口泄漏出来的电流,居然就足够让 ARM1 继续运行,第二天晚上,工程师回来看到示波器还在出信号。这段故事某种程度上已经成为 Arm 低功耗神话的一部分。
这套低功耗基因很快把 Arm 带进了移动时代。从最早的GSM 手机(也就是很多人印象里那块厚重的诺基亚“砖头机”),再往后是黑莓手机BlackBerry,再到后来的Android 和 iPhone。也就是说,Arm 最早真正大规模改变行业的地方,不是在云,不是在AI,而是在移动设备里通过功耗优势完成了代际替换。
![]()
不过,如果只讲“我们曾经统治过手机”,那并不足以解释今天的Arm,所以Rene又把时间往后推了十年,讲到2016年SoftBank收购Arm那件事。
在他看来,那件事给Arm的真正价值,是让Arm获得了在公开市场压力之外做中长期投入的机会。孙正义,给了Arm一个此前做不到的空间:去投入那些当时还不一定马上变现,但会构成未来平台的方向。于是Arm开始把自己在智能手机时代积累的东西,往更多垂直领域外扩。
这包括三条非常重要的线。
第一条,是进入云数据中心,推出Neoverse,拿到数据中心设计胜利。第二条,是自动驾驶和汽车计算。第三条,是 Arm 口中的物理AI(Physical AI),也就是与机器人、自动化、现实世界感知相关的计算平台。Rene 直说,没有2016年这个时点,没有软银的支持,这些事情做不成。
![]()
这一段故事很关键,因为它回答了一个隐含问题:为什么今天Arm能讨论AI数据中心,答案不是AI让它突然获得新机会,而是它在2016年后已经沿着云、车、物理AI这些方向,把平台能力提前铺开了。
三、真正让 Arm 与众不同的,不是某个单点产品,而是“生态的生态”
Rene 讲到这里,话题开始从产品演进转向Arm的核心壁垒,他指出,Arm最独特的地方,不只是功耗、也不只是CPU架构,而是他所谓的ecosystem of ecosystems,也就是“生态”。
他的意思是,Arm 在每一个垂直行业里都不是孤立存在的。比如移动平台,并不是有了CPU就自动成功,真正让这套平台成立的,是软件层和应用层一起跟上来。在手机上,对应的是iOS、Android、Windows、macOS 这样的操作系统,以及数不清、而且针对 Arm 做了深度优化的应用,正是这些应用,让生态伙伴能用 Arm 构建出真正有竞争力的终端产品。
而这套模式,并不只适用于移动时代。
在云里,对应的是 Linux、OpenAI、Anthropic,以及围绕这些模型和平台建立起来的软件生态;在汽车和物理AI平台也是同样的逻辑。Rene特别提到,在物理AI这类垂直领域,软件开发者规模已经达到2200 万+,他们中的很多人首先是某个垂直行业的开发者,但同时又可以复用 Arm 生态里的其他工具和能力,从而把经验迁移到其他领域。
这就是他强调“生态的生态”的原因。它是一种跨垂直复制的配方:底层是Arm计算平台,中间是系统软件和开发工具,上面是具体行业应用。
![]()
在Rene看来,这也构成了Arm最难被复制的地方。因为全球几乎没有第二家公司,能像 Arm 这样,从边缘到云,把如此多不同垂直行业通过一套统一的计算平台串起来,Arm 的优势是从边缘端到云端的连续性,是开发者和合作伙伴能在一套共同架构上迁移经验,而不是每做一个新市场就从零开始。
这一点也解释了为什么 Arm 会反复强调“我们并不是一家单纯做芯片的公司”,它要表达的是,CPU 核心本身只是入口,真正支撑它扩张的是广度极大的生态网络。
四、从卖IP,到卖CSS,再到今天自己卖芯片,Arm的商业模式在一层层往前推
Rene 接着讲到了Arm自身策略的变化。他说,过去几年,Arm一直在调整自己的供给方式,因为市场需求已经变了。
问题首先来自芯片本身越来越复杂。工艺从 5nm 往 3nm、2nm 走,意味着晶圆厂周期更长、封装周期更长,客户需要在更复杂的技术条件下更快做出产品。Arm 传统的模式,是提供相对独立的 IP 模块:CPU、GPU、系统 IP 等,让客户自己整合。这套模式在公司前 30 多年运行得很好,但在今天,越来越多客户希望 更快、更完整、更少集成负担 的交付形式。
于是 Arm 在三四年前推出了 Compute Subsystems,简称 CSS。
CSS 的思路是把原本分散的 IP 模块,预先拼装成一个完成度更高、经过验证、具备性能和可测试性的子系统。客户不需要从零把所有块拼起来,而是可以在更成熟的基础上直接推进设计。Rene 说,在某些项目里,这能把从设计启动到量产的时间缩短一年,有时甚至接近 18 个月。
这对 Arm 来说,是一笔非常大的工程投入,但回报也已经很明显。Arm 的商业模式一直是 license + royalty,也就是先收授权费,再随着客户量产收版税。版税天然滞后,通常在授权两三年后才体现出来。即便如此,CSS 推出不过三四年,今天已经占到了 Arm 总版税收入的接近 20%,而且还在继续增长。
这一段其实很像是在给后面“我们开始卖芯片”做铺垫,因为如果把 Arm 的演进放在一条线上看,就会发现它不是突然从纯授权模式跳到芯片模式,而是一步步推进的。第一阶段,是单独卖IP。第二阶段,是卖集成好的CSS。第三阶段,是今天正式进入“卖 芯片”的阶段。
![]()
Rene 后面专门重申了这件事:Arm 现在同时提供 IP、CSS 和芯片。 他甚至开玩笑说,联系你们当地的销售代表就行。这句玩笑其实信息量在于, Arm 的收入模型和客户触点都在变化,甚至连销售组织都在跟着变。
五、AI 并不是突然冒出来的,但 Agentic AI 让 CPU 的角色发生了根本变化
讲完公司背景和策略演进后,Rene才真正进入当天最关键的一部分:AI 时代,为什么CPU重新变成核心角色。
他先澄清了一个误解。他说,很多分析师和媒体都会问,AI 是不是突然袭来,让行业措手不及。Rene 的答案是否定的。他提到自己一年半前去过 Bletchley Park,也就是图灵和同伴在二战时期进行密码分析工作的地方。在那里的博物馆里,他看到了图灵1940年代关于“机器能否思考”的论文。也就是说,关于 AI 的问题,并不是今天才出现。
如果你喜欢科幻,这种感觉会更强。Rene 说自己年轻时很喜欢 Arthur Clarke,尤其是《2001 太空漫游》。他一直觉得,书里描绘的那些事情终究会发生,只是没想到会在自己有生之年、而且以这么快的速度发生。至于有人说 AI 是泡沫,他的表述很克制也很明确:投资意义上的泡沫当然可能存在,估值会波动,资本热度会变化,但如果有人觉得这件事会消失,那就是“鸵鸟心态”。AI 已经在这里了,而且正在永久改变人们对计算的理解方式。
接下来,Rene 开始拆解AI数据中心里的 CPU 角色。
他先描述了AI时代之前的云。在那个时代,云数据中心的典型任务是搜索、数据库、SaaS、Web 服务,你输入一个请求,比如“勇士队比赛还有没有票”,云端返回一个答案。这个过程中,CPU 是主要工作承担者。AWS、Azure、GCP 的扩张,本质上也是 CPU 驱动的扩张。
而进入 AI 时代后,表面上看,重心似乎转向了GPU。你在手机或PC上输入prompt,请求被送到云端,数据中心里的GPU生成 token,再通过 CPU 协调把这些 token 回传给你。也就是说,哪怕在 AI 数据中心里,CPU 仍然在工作,只是方式从“直接执行大多数任务”,变成了“协调与编排系统”。
Arm 的估算是,在目前这类 AI 数据中心里,每 1 吉瓦大约需要 3000 万个 CPU 核心,这里的“数据中心”既包括直接围绕 AI 集群的节点,比如 head node,也包括加速器机架旁边的 CPU 资源。总之,数量远比很多人想象的要大。
但事情到这里还不是重点。真正的变化出现在过去几个月里,随着智能体Agent的爆发。
Rene 把 Agent 定义为一种能围绕请求执行完整工作流的工具,比如跑工资单、做调度、调用工具链、执行分析,再给你返回一个可直接使用的结果。他专门提到最近两周讨论度很高的 OpenClaw,当然也强调它不是唯一例子。
为什么 Agent 重要?因为它改变了 token 消费模式。Rene 的判断是,一旦从普通人类提问,进入 Agent 发起工作流,每个人对应的 token 消耗会增加 15 倍,甚至更多。原因并不复杂:人是慢的,Agent 是快的;人会休息,Agent 不睡觉,24×7 持续发请求。
于是,系统结构变了。大量 Agent 持续把请求打进云端,数据中心里的加速器不断生成 token,然后这些 token 要被送回去、被编排、被调度、被接入具体工作流。这时候,瓶颈不再只是“有没有足够多的 GPU”,而是有没有足够多、足够高效的 CPU 来驱动整个流水线。
Rene 用了一个比喻:GPU负责生成 token,就像翻斗车把土推起来,但总得有人把这些土运走,CPU 就是那台负责把土从现场搬走的工程设备。Agentic AI 不是削弱这个角色,而是成倍放大它。
![]()
所以,Arm 的结论是:同样一个 1 吉瓦的数据中心,如果从传统 AI 云演进到 Agentic AI 云,CPU 核心需求会从 3000 万 上升到大约 1.2 亿,也就是 4 倍。而问题在于,大家并没有多出来 4 倍电力和 4 倍空间。电力珍贵,资本开支珍贵,数据中心已经被GPU和原有的CPU塞得很满。在相同功耗包络内塞进 4 倍 CPU,这就是他们要解决的问题。
这也是整场发布会真正的支点:Arm 不是为了“也做一颗 AI 芯片”而做 AGI CPU,而是因为 Agentic AI 时代的数据中心,已经开始重新定义 CPU 的价值。
六、Arm AGI CPU 的发布,本质上是在回答一个问题:怎样在同样功耗里塞进更多 CPU,而且不丢性能
讲到这里,Rene 话锋一转,说每个棘手问题都需要一个好解法,然后正式宣布:Arm 将推出第一颗真正以芯片形式、直接销售给客户并产生收入的芯片,名字就是 Arm AGI CPU。
这被他定义为一个“非常非常大的变化”,因为这意味着 Arm 进入了一个全新的业务模式:不只是提供 IP,不只是提供 CSS,而是直接卖成品芯片。Rene 很坦白地说,做这件事最重要的原因之一,就是客户要求他们这么做。尤其是 Meta。
随后,Meta 基础设施负责人 Santosh Janardhan 上台,来解释 Meta 为什么会做出这个选择。
Santosh负责 Meta 的基础设施,这意味着如果 Instagram 不工作、WhatsApp 消息到不了、Meta 的某项服务挂掉,他就是那个该被怪罪的人。Meta 不是传统意义上的云厂商,却是一个超级规模的基础设施公司。它要自己设计和建造数据中心、自己设计服务器、GPU、CPU、网络以及将它们绑定在一起的软件。
Meta 每天有30 多亿用户使用产品,差不多相当于全球一半人口每天至少会登录一次其应用,这种规模意味着它运行着互联网里相当大的一部分。
Santosh 接着展示了Meta的AI集群(AI cluster)增长的速度。他说,真正意义上的AI集群其实很新,大致是从 ChatGPT 之后、也就是 2022 到 2023 年开始爆发的。最初,Meta 的集群非常小,2023 年的早期集群大概只有 128 块 GPU。但很快,规模就一路向上,到今天已经是把数万块 GPU 拼成一个集群的量级。更重要的是,他完全看不到放缓迹象,需求不是线性增长,而是几乎接近指数增长。
接着他给出了 Meta 内部两个关键集群的例子。
一个叫 Prometheus,到今年年底会超过 1 吉瓦。这已经是非常夸张的规模。另一个更惊人,叫 Hyperion,未来几年要做到 5 吉瓦。Santosh 说,大多数人连 1 吉瓦是什么概念都没有,于是他给了一个更直观的比喻:1 吉瓦大概相当于 10 个 Palo Alto 的用电量,而 5 吉瓦就是 50 个 Palo Alto。
为什么 Meta 要建到这么大?因为它的愿景是给每个用户提供 personal super intelligence,也就是“个人超级智能”。不只是更精准推荐,更相关体验,而是每个人都拥有一个个人助理。问题在于,如果要把“个人超级智能”发给几十亿用户,系统会变得异常庞大:需要大量电力、土地、硬件、软件,最重要的是大量的芯片。
而这正是 Arm 之所以成为自然合作伙伴的原因。Meta 要的是一个既能跟上其野心和迭代速度,又对功耗和效率极其敏感的合作方。Santosh 说,当他们和 Arm 坐下来讨论时,发现 Arm 跟他们一样“hungry”,一样想把这件事做出来,而且尤其重要的是,Arm 和他们一样在意 power efficiency(能效)。
他还特别强调,这颗 CPU 不是只为 Meta 做的“Meta CPU”,也不只是 Arm 自己的一颗 CPU,而是有机会成为整个生态的基础 CPU。因为数据中心的核心矛盾已经越来越明确:需求呈指数增长,但电力曲线不是。你要在功耗固定的情况下,把更多 CPU 塞进去,同时不能牺牲性能。Meta 两年多前曾全面评估市场,结果是:能达到性能目标的 CPU,达不到功耗目标;能达到功耗目标的 CPU,又达不到性能目标。Arm 最终成了那个平衡点。
Santosh 也说得很清楚,这不是一次性合作,而是一个多代产品的合作起点。第一代设计点偏保守,目的是把首颗 CPU 稳稳做对,但后续版本已经在规划中。换言之,Meta 不是来帮 Arm 站台,而是已经把这条产品线纳入自己的长期基础设施路线图。
七、OpenAI 给出的角度更直接:AI 性能已经是系统性能,CPU 是智能变强路上的“隐形上限”
Meta 讲完基础设施规模之后,Rene 又请上了OpenAI科学部门副总裁Kevin Weil。
Kevin 先从一个判断开始:今天的 AI 性能,本质上已经是系统性能。 GPU 拿走了大部分头条,但 CPU 在系统里扮演的角色依旧极其关键。它既是 orchestration 的核心,又在 Agentic AI 到来后承担了大量具体任务。Agent 调用工具时会在容器里执行,这需要 CPU;Agent 运行 Python 脚本、调用技能、执行工作流,这同样是 CPU 的工作。
Rene 接着把话题引到 OpenAI 内部最常见的诉求:“我需要更多算力。”Kevin 很坦率地说,这几乎就是 OpenAI 内部的“通行货币”,是最常听到的一句话。原因也很简单:客户需求在增长,内部想尝试的想法更多,而整个行业能提供的计算资源,跟不上他们想做的事。
他把问题拆得很现实。更多算力当然和芯片有关,但更底层的是能耗。如果一颗 CPU 能在保持性能的同时少用一些电,那你就给系统里其他部分腾出了更多电力,意味着可以做更多推理、更多计算,也就意味着更多智能。Kevin 说,自己在 OpenAI 这几年里学到的核心事实之一,就是更多智能会直接转化成更好的产品。
随后他给出了当天最容易被传播的一句话:“你今天用到的模型,将是你余生中用过的最差的一代 AI 模型。”
他的意思不是今天的模型差,而是进步速度太快。再过一年,你很可能会觉得今天的模型已经落后到难以回去使用。既然模型会持续变好,用户和业务对智能的需求几乎可以视作“无限的”。这就意味着,对算力的渴求也不会停。
谈到自己当前的新角色时,Kevin 重点提到了数学、科学这类今天仍然相对未被充分打开的方向。他的判断是,AI 正在从“聊天”走向“解决更难的问题”,而解决更难的问题,和人类一样,需要花更长时间思考,需要更长 rollout,需要更多推理,尤其当目标变成企业级AGI、科学研究这些更复杂的场景后,算力只会更紧张。
他举了几个例子,说明这种变化已经在现实中发生。比如,过去有人会说大模型只是“随机鹦鹉”,只能从训练语料里采样,做不出真正新颖的东西。但现在,AI 已经在每天解决科学、数学、物理、生物里的开放问题。更具体一点,AI 可以连续工作数周,通过机器人实验室完成 3.6 万次实验,去优化新蛋白质的合成路径,而且比任何人工流程都更快更优。
Kevin 的这段发言,某种意义上是对 Rene 论证的进一步加强。Meta 讲的是超大规模基础设施,OpenAI 讲的是前沿模型和科学场景,但两者最终指向的是同一个结论:AI 系统的能力边界,不只由 GPU 或模型参数决定,而由整套基础设施的协同效率决定。CPU 在其中不是配角,而是决定系统能否充分释放智能的一道硬约束。
八、Arm AGI CPU:136 核、3.7GHz、300W TDP、专为Agentic数据中心设计
到了活动后半段,Arm云与AI业务执行副总裁Muhammad Awad上台,开始详细讲产品本身。
他的开场非常直接。他说,Arm 设计 AGI CPU 的时候围绕三条原则,而且这三条不是口号,而是“拒绝妥协”的设计准则:性能、规模、效率。
为什么性能排第一?因为在 Agentic AI 数据中心里,同时运行着大量线程、大量工作流、持续不断的调度和编排。CPU 一旦慢下来,整个依赖它的基础设施都会被拖住。
为什么强调规模?因为今天讨论的数据中心单位已经不是过去那种几十台服务器的小集群,而是 CPU 级、板级、机架级、数据中心级、甚至“仓库级”的扩张。
为什么效率同样关键?因为如果不能在高效功耗包络里做到前两者,再好的性能和规模也落不了地。
接着他开始拆解产品规格。
![]()
Arm AGI CPU 的底座,是 Neoverse V3 Compute Subsystem。Muhammad 特别强调,这不是 Arm 为自己偷偷保留的一套架构,而是同样面向整个生态开放的那套 Neoverse V3 CSS,其他合作伙伴也可以基于它做自己的产品。Arm 在这上面塞入了 136 个 V 系列高性能核心。V 系列是 Arm 最强调绝对性能的产品线,过去已经在多个超大规模云厂商和系统公司实现过性能纪录。每个核心配有 2MB L2 缓存,频率最高支持到 3.7GHz。
但 Muhammad 一再强调,这不是一颗“只看 CPU core”的芯片,而是围绕整个系统重新设计的。I/O 部分,它提供 96 条 PCIe Gen6 通道,并支持 CXL 3。这意味着它既可以连接各种加速器,也支持内存扩展。内存部分,它支持 DDR5,并且最关键的数字是:每个核心都可以持续获得最高 6GB/s 的内存带宽。Muhammad 认为,这在同类性能点和功耗包络下是独一无二的。
更重要的是延迟。Arm 把整套系统做成了低时延设计,目标是内存访问延迟低于 100ns。为此,他们坚持使用 双 chiplet 设计,并且让每个 chiplet 都直接挂载自己的内存和 I/O,而不是走更复杂的 NUMA 结构,避免跨芯片多跳带来的延迟惩罚。
最终结果,是一颗基于 TSMC 3nm 工艺 制造、TDP 只有 300W 的数据中心 CPU。Muhammad 甚至特意停顿了一下,重复了一遍:300W。这在他的语境里几乎是整场发布会最值得骄傲的数字之一。
随后他展示了机架级部署形态。
![]()
首先是标准 OCP 风冷机架,功耗 36kW。在这样一台完全遵循 OCP 标准、并不“花哨”的风冷机架里,Arm 可以塞进 8000 多个高性能 CPU 核心。具体做法是采用 双节点 1U 服务器,每个机架装 30 台。Muhammad 说,很多别的系统做不到这一点,不是因为不能堆,而是功耗太高。
如果换成液冷,规模还能更大。在一台标准 OCP 200kW 液冷机架 中,Arm 可以塞进 超过 4.5 万个 CPU 核心,配上超过 1PB 的内存。更有意思的是,Muhammad 还现场补了一句“趣闻”:虽然这是 200kW 机架,但实际上他们只用掉了差不多一半功耗,之所以没继续往里塞,不是因为电不够,而是空间先不够了。
这句玩笑背后,其实就是他想强调的结论:Arm AGI CPU 的目标不是单点 benchmark 漂亮,而是在机架密度、功耗可控、内存与 I/O 匹配这几个决定现实部署的维度上做到极致。
更进一步,Arm 还宣布会把一系列与服务器就绪、认证访问控制和诊断工具相关的能力回馈给 OCP。而且这些贡献不只服务于 AGI CPU,也会让整个 Arm 服务器生态受益。
最后,Muhammad 明确说,这颗芯片现在已经在客户手里评估,到今年年底进入量产。固件、规格、平台和供应链都已经就绪。
九、今天把软件迁到 Arm,门槛比很多人以为的低得多
硬件讲完,Muhammad 又用一大段时间讲软件生态。因为他很清楚,数据中心CPU再强,如果软件跟不上,还是没法真正放量。
他先把时间线拉回去,说 Arm 在数据中心软件生态上的投入已经超过 15 年。早期很长一段时间,其实几乎只有 Arm 自己在投。转折点出现在 2019 年 Neoverse 发布。Neoverse 的意义,不只是推出一套面向基础设施的计算平台,更是大幅降低了客户做服务器级 Arm 芯片的门槛,让越来越多技术领导者开始在 Neoverse 上构建自己的产品。
一旦有头部厂商上量,软件飞轮就开始转动。AWS、Google、Meta、Microsoft、Oracle、Nvidia 现在都在和 Arm 一起投入软件生态。Muhammad 的说法很强势:今天在大多数现代软件包里,Arm 都已经是 first-class citizen,也就是一等公民。而在 AI 软件生态里,不只是“能跑在 Arm 上”,而是在 Arm 上跑得最好。原因在于,Arm 已经是当前 AI 体系中最主要的 CPU 架构。
![]()
他给出一个关键数字:全球已经有12.5亿个 Neoverse 核心被部署进数据中心,而且还在加速增长。数万家公司已经在云上运行 Arm 软件,Arm in the data center now “just works”(如今Arm在数据中心“运行顺畅”)。
为了让这件事更有说服力,Muhammad 请上了 Meta 的 Paul Saab。Paul 在 Meta 干了 18 年,是基础设施老将,做过从 Flash 存储到 IPv6 的各种基础设施工程,现在主要负责让 AI 在 Meta 基础设施里跑得更高效。
Paul 讲了一个很有工程味的故事。
Meta 其实在 2014 到 2015 年 就尝试过把自己的平台迁到 Arm,当时他们主要针对的是内部的 PHP 平台 HHVM。迁移已经做通了,也跑得不错,但后来市场条件变化,Meta 手里没有合适平台可继续推进,于是项目被搁置,代码甚至被全部移除。
真正重新启动,是在疫情后某次同事聚会时,Paul 突然对一位同事说:“我想再试一次,把系统迁到 Arm。”当时他有一种直觉:生态和市场环境已经变了,如果现在不开始,等真正需要的时候就会陷入被动追赶。
于是他们就干了。Paul 甚至没先和老板请示,就自己去买了机器。团队一开始只有 8 台机器,但背后要面对的是一个庞大的 x86 生态。为了提速,他们采用 cross compile 的方式,昼夜不停地推进。结果是,5 个工程师、90 天,做出了一个完整可运行的迁移版本。
问题是,软件迁过去了,没有可买的芯片。这就是为什么后来他们开始和 Arm 深度接触。
从做出可运行移植,到真正拿到可以投产、TCO 有效、性能/瓦可接受的系统,中间又花了差不多 两年半。Paul 说,即便如此,做优化的团队依旧很小。最早,甚至只有一位工程师在持续优化最关键的工作负载,而这个工程师此前连一行 NEON 或 SVE 代码都没写过。到今天,他们已经能做到和市面主流产品相当的性能,同时在每瓦特性能上获得巨大改善。
然后 Paul 给了当天一个非常现实、也很有时代感的建议:如果今天才开始做迁移,他会大量使用 LLM,因为现在工程师甚至已经在用 LLM 去进一步优化已经迁移到 Arm 上的代码,还能再榨出 10%-20% 的提升。他直说,今天把软件迁到 Arm 的门槛已经接近于零。他自己现在基本不再手写代码,测试用例也是 LLM 帮忙生成的。“今天没有理由不把软件迁到 Arm。”
这一段其实很重要。因为在很多人印象里,迁架构还是一件极其昂贵、极其痛苦、极其漫长的事。Paul 讲的故事当然说明它不可能毫无成本,但另一面也说明,随着 LLM 进入开发流程,软件生态迁移本身正在变成一件比过去更容易完成的工程任务。 对 Arm 来说,这恰恰是加速数据中心普及的一个关键变量。
十、从对x86的正面开火,到未来路线图,Arm 把未来说得非常直白
产品、生态、客户、软件都讲完后,Muhammad 开始更直接地对比 x86。
他的观点很鲜明:Arm AGI CPU 的“超能力”就是 性能、规模、效率 的组合,而这套打法和 x86 的路线完全不同。x86 的问题,在他看来,不只是具体产品,而是整体架构哲学。它背负了太多执行开销、太多历史遗留、太多为了兼容各种市场和边角场景而保留的复杂性。Arm 则是“无情地”聚焦在效率与低延迟上,只做 Agentic 数据中心真正需要的事情。
他说得最狠的一句是:“我们不背着过去走。我们不支持 Lotus Notes。”
这当然是个玩笑,但意思很明确:Arm 不打算为很多历史兼容包袱买单,它要做的是一颗为新型 AI 数据中心而生的 CPU,而不是一颗试图继续兼顾一切旧世界诉求的 CPU。
接下来,他用几个维度解释这套差异。
在性能上,Arm 认为真正重要的是 IPC,也就是每时钟周期能做多少工作。x86 有时会靠提高频率、进入 boost mode 来竞争,但频率拉高,功耗也会跟着上去,而且 boost 并不总能长时间持续。Arm 的目标则是给出可持续、稳定、全天候的性能,而不是只在某些瞬间冲高。
在规模上,Arm 强调自己的核心可以线性扩展,因为内存与 I/O 子系统从设计之初就按核心数量进行匹配,保证每颗核心都有足够带宽喂饱。相反,很多 x86 架构会用 SMT,也就是多线程 来提高线程数。问题在于,你给一个核心塞两个任务,不等于 I/O 和内存带宽也翻倍。最终瓶颈被移到别处,性能反而掉下去。Muhammad 甚至说,他们看到很多数据中心运营方不得不因为这种不线性扩展而额外过度配置 30% 以上资源。
![]()
他的结论非常干脆:这是一颗 killer product(杀手级产品),Arm 在这个级别上已经自成一类。
等到 Muhammad 下台,Rene 又回来做收尾。他把外界最需要记住的东西浓缩成几个数字。
第一,在同样 36kW 机架功耗条件下,相比 x86 等价结构,Arm AGI CPU 可以做到两倍性能/瓦,而且很可能不止两倍。第二,如果你在一个 1 吉瓦 数据中心里因为 CPU 效率不足而不得不消耗更多电,那额外 CAPEX 可能高达 100 亿美元。这是把产品规格真正翻译成基础设施投资语言。
第三,Arm 不会只做一代产品。Rene 明确宣布,Arm AGI CPU 2 和 Arm AGI CPU 3 都在路上。这些合作不是“一锤子买卖”,而是多代产品路线图。与此同时,CSS 路线图不会停,IP 路线图也不会停。Arm 不是用芯片替代过去的业务,而是在原有业务之上继续叠加。
![]()
最后,他谈到了 Arm 自己看到的机会。
在发布这颗芯片之前,Arm 的主要业务仍然是 IP 和 CSS。Rene 说,这部分业务的表现已经比 IPO 路演时向投资人讲的要好。就 Arm 过去在 AI 数据中心里通过 IP 和版税获取的机会看,总体可触达市场规模大概30亿美元。他之前也在财报电话会上说过,云与 AI 业务未来几年会成为 Arm 最大的业务之一,而这背后就来自 Neoverse 的持续出货和数据中心落地。
但一旦 Arm 开始直接卖 AGI CPU,故事就完全不同了。Arm 现在已经有 Meta、OpenAI、Cloudflare、SAP、F5 等客户,外加视频里提到的更多合作方。Rene 的判断是,随着 Agentic AI 发展、CPU 数量上升、功耗敏感型数据中心对高效 CPU 的需求加剧,这部分新增机会对 Arm 来说会形成一个大约 1000 亿美元的新市场。
再往后看,他甚至给出了一个更夸张的数字:到本十年末,Arm 认为自己有机会触达超过1万亿美元市场规模。他说今天当然主要是 AGI CPU,但“明天还会有别的东西”,只是今天不打算讲明天。





京公网安备 11011402013531号