在过去的几十年时间里,Arm其实一直扮演着全球半导体行业的“军火商”角色。它虽然给各个厂商提供底层指令集架构和IP授权,但是却一直没有下场参战,而是坐看各个芯片厂打得热火朝天。
稳坐钓鱼台的好处是不会被各个厂商视为竞争对手,无需在意竞争压力。即使是主导x86架构的英特尔、AMD,其实也有不少Arm芯片研发计划,因为他们眼中的竞争对手依然是彼此。
不过,这种局面从今天开始可能就要结束了。Arm正式宣布其计算平台进入新的发展阶段,首次将产品线从IP和CSS(计算子系统)扩展到量产芯片领域,并发布首款产品——Arm AGI CPU。
![]()
图源:Arm
看名字就知道,这玩意是给AI服务器准备的,看来AI算力市场的巨大利润实在是让Arm也坐不住了。毕竟他们近年来一直饱受营收增长放缓的困扰,迫切需要一个破局点,而AI数据中心显然是目前乃至未来最合适的选择。
从幕后走到台前,Arm丢出王炸
说实话,AGI CPU发布得挺突然的,雷科技也是早上刚收到Arm发送的邮件,才知道他们悄然间搞了个大玩意。
AGI CPU最高可集成136个Neoverse V3核心,不过也提供128核、64核两个不同的核心规格可选,并且均支持单路和双路架构,这就给了服务器厂商们很大的选择与搭配空间。
而且,从官方文档提供的数据来看,AGI CPU的核心性能也非常亮眼,其基频为3.2GHz,加速主频可达3.7GHz,最高支持DDR5-8800内存,而且还支持PCIe 6.0和CXL 3.0(是服务器CPU中首个支持PCIe 6.0的产品),而TDP仅为300W。
看到这里可能就有人要问了:“这玩意最高主频才3.7GHz,牛在哪?”这就不得不给大家科普一下:服务器芯片的主频随着核心数的增加,往往都会大幅度下降,因为其与传统CPU负责的任务是不同的。
传统的高主频CPU核心数一般都不会超过三位数,比如AMD的EPYC 9575F,虽然有着3.3GHz的基频和5.0GHz的加速主频,但是核心数仅64个,主要负责数据中心的高负载单线程任务计算,而数据中心日常最常见的低负载高并发任务,则是由多核心低主频的CPU负责。
![]()
图源:Arm
所以,单纯从核心主频来判断服务器CPU的性能是完全错误的。作为对比,与AGI CPU类似的CPU如AMD EPYC 9965,其基频仅2.25GHz,加速主频同样是3.7GHz,而这已经是目前业界的顶级服务器CPU。
可以说,Arm一出手就直接把自己的服务器CPU干到了业界的顶级水平,而且其TDP还比EPYC 9965低200W(仅300W),是目前同类型CPU中能效比最高的。根据官方的说法,在相同的供电规模下,AGI CPU可以提供两倍于x86架构服务器的算力和性能。
简单来说,AGI CPU可以让AI数据中心以更低的建设和后期维护成本,维持更高的算力规模,这对于云服务商来说无异于“瞌睡遇到枕头”。毕竟现在Token成本降不下去的核心原因就是电力成本实在太高了。
可能有人觉得电费不算什么,但是当能耗达到数据中心的级别时,每一瓦功率的差距都会对整体成本带来显著影响。
举个例子,在OpenRouter统计的数据中,最近一个月的全球Token调用量中国以绝对优势领先于美国。甚至中国数据中心烧掉的Token有相当一部分来自欧美等海外地区,而在模型活跃度排名中,前五的模型有四个是中国模型,美国仅Claude上榜。
![]()
图源:Arm
为什么大家放着ChatGPT等性能更好的AI模型不用,而是用中国模型?原因无他,高性价比。有网友曾经统计过,在相似的AI模型性能下,中国的Token价格一般只有美国的十分之一到三十分之一,而支撑中国Token成本的则是中国的廉价电费。
而在前段时间,美国各州陆续通过决议,要求AI企业自负电费成本,意味着美国AI企业的用电成本进一步上升,然后你就会发现各个AI数据中心对高能效芯片的需求会越来越大。
所以说,AGI CPU的发布时机也非常巧妙,恰好卡在各大公司对高能效芯片的需求大涨的时候。
不再是配角,CPU将成为新的算力核心?
看到这里,估计有读者纳闷了:大家知道GPU是算力核心,为什么CPU也是?其实,准确来说CPU并非直接的算力核心。在整个AI数据中心的算力架构里,它更多作为调度中心和辅助计算核心来运行,负责承接低负载需求,以及给GPU拆解和分配任务,让GPU可以更高效地运算。
事实上,随着AI应用的重心逐渐转向实际部署和持续运行的智能体,我们对AI数据中心的要求也在发生很大的改变。你可以理解为,以前是需要一堆尖子生博士(GPU)一起研究一个难题(训练大模型),那么GPU算力自然是越高越好,因为求的就是速度,能效反而是其次。
但是,在大模型训练好后,应用端的需求往往是零散且简单的。比如A用户问“如何做好煎蛋”,B用户问“帮我把这堆数据变成表格”,这些零散的任务若是一股脑全部塞给GPU,那么就会造成严重的算力浪费。
所以,许多AI数据中心就盯上了CPU。虽然其算力与GPU完全无法比,但是却可以承接前期推理、协同调度和数据搬运等任务,降低算力核心的负担,同时也让算力的使用变得更高效。
![]()
图源:Arm
根据官方数据预测,随着企业不断扩大智能体驱动的应用规模,数据中心对每吉瓦(GW)功耗所能提供的CPU算力需求,将飙升至当前的四倍以上。这意味着,现有的计算架构必须在极其严格的功耗限制下,实现算力密度的大幅度提升。
面对这种需求,Arm在架构设计上进行了针对性的取舍与优化,让AGI CPU拥有出色的大规模并行代理式AI负载能力。简单来说,你可以将其看作一款特化版的CPU,专注于处理服务器的并行AI请求,而不是无脑堆砌通用算力。
而且,凭借更低的功耗,Arm在与超微合作推出的200kW液冷服务器方案中,直接部署了336颗AGI CPU,单个机柜就拥有超过45000个核心,而在标准的36kW机架中,也同样支持最多60颗芯片的部署,单机核心可达8160个。
通过最大程度地兼容现有服务器硬件方案,同时推出基于AGI CPU定制的高密度服务器方案,Arm极大降低了传统数据中心升级AI算力时的散热改造成本,对于亚马逊等传统云服务巨头来说有着不小的吸引力。
![]()
图源:Arm
有意思的是,在官方文档中,Arm表示经过他们的计算,使用AGI CPU部署的AI数据中心,可以在每GW(吉瓦)的AI数据中心算力建设中,节省高达100亿美元的成本。考虑到微软等巨头的新建数据中心规模已经累积超过5GW,而计划中的规模更是超过10GW,背后的预估可节省成本相当可观。
所以,AGI CPU可能不是性能最强的,却可能是最能省钱且高效的。说白了就是能为巨头们实打实地省下钱来,并且在后续的运行中以更低成本提供同等规模的算力,这就够了。
不做搅局者,而是成为“合作者”
那么Arm有机会在竞争激烈的市场中杀出一条血路吗?雷科技认为是有可能的。事实上,Arm在官方文档中就已经捎带了不少行业巨头的点评和合作动向,显然Arm并不打算成为一个纯粹的市场抢占者,而是选择与行业巨头合作,推动AGI CPU的快速落地。
比如Meta就已经官宣他们是Arm的最大合作伙伴,将在接下来的AI数据中心里大范围部署AGI CPU,并与自研的MTIA加速器协同工作,通过这种方式降低Meta的AI算力部署成本和Token成本。
虽然Meta在顶级模型的竞争上已经落后于OpenAI、谷歌等公司,但是如果他们可以把Token成本降到其他美国企业的三分之一以下,那么在一些市场上将取得明显优势。
AGI CPU吸引来的合作方并不只有Meta,OpenAI也表示他们正密切关注这款芯片,并且正在与Arm合作推动AGI CPU在OpenAI数据中心的部署。同时,Arm列出的合作方还包括数十家遍布全球的数据中心运营企业、网络企业和服务器供应商。
![]()
图源:Arm
不得不说,凭借过去数十年里积累的生态基础,Arm确实有不少的支持者。而且他们还做了一个出乎意料的选择,那就是将服务器的设计方案、配套固件、系统架构规范及验证工具完全开源。这意味着各个厂商只需要采购AGI CPU的核心,剩下的各种硬件都可以根据需求自研或搭配。
要知道,对于数据中心而言,芯片成本只是其中的一部分,包括各种硬件模块和主板在内的全套服务器机架的售价同样不低。比如英伟达的一个高速光模块售价就高达上千美元,单个计算节点仅光模块成本就超过上万美元,而Arm的开源选择,其实就相当于“我出个引擎”,剩下的车身、轮毂、轮胎等配件你们丰俭由人。
这种“授人以渔”的打法,对于那些被封闭生态(比如极端昂贵的专有网络互连和封闭式液冷基建)深度绑定的云服务商来说就太爽了。所以,如联想、广达、超微等头部服务器厂商都已经推出早期方案,并表示商用方案将在今年内落地。
对于一款新发布的服务器CPU来说,这个落地速度已经十分惊人,这也意味着其有望赶上2026年的算力扩张浪潮。
在雷科技看来,AGI CPU确实精准踩中了目前AI行业最大的痛点,可以说早一点、晚一点发布都不会引起如此大范围的关注,或是能拉出50+的合作伙伴搭台。作为Arm的首个跨界之作,或许也将成为Arm转型为芯片企业的一个里程碑。





京公网安备 11011402013531号