当前位置: 首页 » 资讯 » 科技头条 » 正文

CUDA被撕开第一道口子!谷歌TPUv7干翻英伟达

IP属地 中国·北京 新智元 时间:2025-11-29 20:08:50


新智元报道

编辑:定慧 元宇

当谷歌不再只满足于「TPU自己用」,TPU摇身一变成了英伟达王座下最锋利的一把刀!CUDA护城河还能守住吗?读完这篇SemiAnalysis的分析,你或许会第一次从「算力账本」的视角,看懂谷歌暗藏的杀招。

谷歌Gemini 3的成功,让其背后的TPU再次成为全世界关注的焦点。

资本市场给出了明确的反应,谷歌股价的上涨,也让一个话题再次被拿到牌桌上讨论:

谷歌TPU是不是真的能和英伟达GPU掰一掰手腕?


尤其是TPUv7更是人们讨论关注的焦点,这款专门为AI设计的芯片是否能够打破英伟达多年来的GPU形成的垄断?

众所周知,SemiAnalysis是一家在科技界,尤其是半导体和人工智能领域极具影响力的精品研究与咨询公司

它以硬核、深度的数据分析著称,不同于泛泛而谈的科技媒体,它更像是一个服务于华尔街投资者、芯片巨头和AI从业者的「行业智库」。

刚刚,他们最新的文章给出一个明确的结论:TPUv7首次向英伟达发起了冲锋。

而且这一篇文章由12位作者共同撰写,可见分量之重。


这篇文章深入剖析了谷歌TPUv7如何向英伟达的AI硬件霸权发起实质性挑战。核心转折点在于:


谷歌打破长期以来的内部自用惯例,开始向Anthropic等外部客户大规模出售TPU硬件及算力,后者已部署超过1GW的TPU集群。

尽管在单芯片理论参数上TPU未必碾压英伟达,但谷歌凭借卓越的系统级工程(如ICI互联和光路交换)实现了极高的实际模型算力利用率(MFU),且总体拥有成本(TCO)比英伟达GB200系统低约30%-40%。

谷歌正通过支持PyTorch原生环境和vLLM等开源生态,积极修补软件短板,试图从根基上瓦解CUDA的护城河。


CUDA护城河能否被终结?

TPUv8和英伟达下一代AI新品Vera Rubin,谁更强大?

接下来的内容,会给你答案。

TPUv7:谷歌向王者发起挑战

英伟达坚不可摧的堡垒,出现了一丝裂痕。

目前,世界上最顶尖的两个模型——Anthropic的Claude 4.5 Opus,以及谷歌的Gemini 3,它们绝大部分训练和推理基础设施,都运行在谷歌的TPU和亚马逊的Trainium上。

其中的Gemini 3,以及其所有早期版本的Gemini,则是完全在TPU上进行训练的


这还不算,谷歌正在向多家公司出售商用的TPU硬件。

英伟达的王座迎来了新的挑战者。

早在2006年,谷歌就有过建立AI专用基础设施的想法。

但一直到2013年,谷歌才开始为TPU芯片奠定基础,并在2016年将其投入生产。


同一年,亚马逊也启动了Nitro计划,该计划专注于开发芯片以优化通用CPU计算和存储。

如今,通过推进TPU商业化,谷歌已经成为英伟达最新且最具威胁的挑战者。

Gemini 3发布后,市场反响强烈。

英伟达还专门为此发布了一条官方推文,恭喜谷歌在AI领域的进展,同时不忘强调自己依然遥遥领先。


在推文中,英伟达强调自己仍在持续向谷歌供应硬件,并表示自己依然领先行业一代,是唯一能够运行所有AI模型、并能在各种计算场景中使用的平台。

同时,强调GPU比专用芯片(ASIC)在性能、通用性和可替代性上更强,这句话明显是对谷歌TPU、AWS Trainium等专用芯片的回应。

突然崛起的TPU

在过去的几个月里,谷歌DeepMind的Gemini 3、谷歌云以及TPU综合体,赚足了眼球,也将谷歌母公司Alphabet的市值推高至接近4万亿美元。

TPU产量大幅上调,Anthropic、Meta、SSI、xAI、OAI等TPU的客户名单正在不断扩大,这些推动了谷歌和TPU供应链的大幅重新评级,无疑也将压制以英伟达GPU为重点的供应链。


除了面对TPU的压力,英伟达还面临着通过「循环经济」造成AI泡沫的质疑,许多质疑者认为英伟达通过资助烧钱的AI初创公司,本质上是将钱从一个口袋转移到另一个口袋。


英伟达对此的回应

SemiAnalysis认为更合理的解释是:

英伟达旨在通过股权投资而非降价来保护其在基础实验室的主导地位——降价将拉低毛利率并引发投资者普遍恐慌。

下文将通过解析OpenAI与Anthropic的合作模式,展示前沿实验室如何通过采购(或威胁采购)TPU来降低 GPU 的总体拥有成本(TCO,Total Cost of Ownership)。


总拥有成本(TCO)模型、Anthropic和OpenAI

虽然OpenAI目前尚未部署TPU,但仅凭「转向TPU」这一可能,就已在其英伟达集群成本上节省约30%。

简单来说,OpenAI并没有真的把谷歌的TPU芯片插进服务器里跑任务,而是把「我随时可能改用TPU」作为一个巨大的谈判筹码,迫使英伟达为了留住这个大客户,变相给予了巨额优惠。

谷歌TPU的大规模外部化

TPU堆栈长期以来一直与英伟达AI硬件相抗衡,但它主要是为了支持谷歌的内部工作负载。

即使在2018年向谷歌云平台客户提供TPU之后,谷歌仍未将其完全商业化。

如今,这种情况正在开始改变。

在过去的几个月里,谷歌已经动员了整个堆栈的努力,通过谷歌云平台或作为商用供应商销售完整的TPU系统,开启了TPU大规模商用的步伐。

这一举措也使这家搜索巨头成为一个真正差异化的云提供商。

与此同时,谷歌的顶级客户Anthropic也在继续推动摆脱对英伟达单一依赖,两者在采用TPU上一拍即合。


与Anthropic的交易,标志着TPU规模化商用的一个重要里程碑。

那么,Anthropic和其他客户为什么想要谷歌的TPU?

答案很简单。

TPUv7 Ironwood是一个优秀系统内的强大芯片,即使芯片在参数上落后于英伟达,谷歌的系统级工程也使得TPU堆栈在性能和成本效率方面都能与英伟达相匹配。

这种组合为Anthropic提供了引人注目的性能和TCO,因此赢得了其大规模的订单。

与英伟达通过GB200扩展其GPU生态一样,谷歌自2017年TPUv2以来,也一直在机架内和跨机架扩展TPU。

谷歌的ICI扩展网络,也与英伟达NVLink匹敌的竞争对手。


如今,预训练前沿模型仍然是AI硬件中最困难和资源最密集的挑战。

自2024年5月GPT-4o以来,OpenAI的顶尖研究人员尚未完成广泛用于新前沿模型的成功全规模预训练运行,而TPU平台则通过了这一测试。

对于谷歌来说,在最具挑战性的硬件问题之一中悄悄挤入并建立性能领先地位,确实是一个令人印象深刻的壮举。

微架构仍然很重要:Ironwood接近Blackwell

虽然谷歌一直在推动系统和网络设计的边界,但从一开始,谷歌在芯片方面的设计理念相对于英伟达就更为保守。

历史上,TPU的峰值理论FLOPs明显较少,内存规格也低于相应的英伟达GPU。

其中有3个原因。

首先,谷歌对其基础设施的「RAS」(可靠性、可用性和可服务性)非常重视。

谷歌宁愿牺牲绝对性能来换取更高的硬件正常运行时间。

第二个原因,直到2023年,谷歌的主要AI工作负载是为其核心搜索和广告资产提供动力的推荐系统模型。

与大模型工作负载相比,RecSys工作负载的算术强度要低得多,这意味着相对于传输的每一位数据,需要的FLOPs更少。


第三个原因,是TPU主要面向内部,在外部夸大这些规格的压力要小得多。

商用GPU提供商希望为其芯片营销尽可能好的性能规格,这激励他们将营销的FLOPs提高到尽可能高的数字。

进入大模型时代之后,谷歌TPU的设计理念发生了明显转变。

从最近两代为大模型设计的TPU:TPUv6 Trillium(Ghostlite)和TPUv7 Ironwood(Ghostfish)就可以看出这种变化。


TPUv6在FLOPs上已经非常接近H100/H200,但它比H100晚了2年。

TPUv7 Ironwood是下一次迭代,谷歌在FLOPs、内存和带宽方面几乎完全缩小了与相应英伟达旗舰GPU的差距,尽管全面上市比Blackwell晚了1年。


理论上的绝对性能是一回事,但重要的是单位总拥有成本(TCO)的实际性能。

虽然谷歌通过Broadcom采购TPU并支付高额利润,但这明显低于英伟达不仅在他们销售的GPU上,而且在整个系统(包括CPU、交换机、NIC、系统内存、布线和连接器)上赚取的利润。

从谷歌的角度来看,每颗芯片在全规模部署下的TCO比英伟达GB200服务器低 44%。

这足以弥补峰值FLOPs和峰值内存带宽约10%的不足。

为什么Anthropic下注TPU?

比较理论FLOPs只能说明部分问题。

更重要的是有效FLOPs,因为峰值数字在实际工作负载中几乎从未达到。

英伟达的优势源于CUDA护城河和开箱即用的广泛开源库,帮助工作负载高效运行,实现高FLOPs和内存带宽。

相比较之下,TPU软件堆栈开箱即用的性能较弱,然而Anthropic拥有强大的工程资源和前谷歌编译器专家,他们既了解TPU堆栈,也很好地理解自己的模型架构。

因此,弥补了这方面的不足。

他们可以投资自定义内核以驱动高TPU效率,这使得他们可以达到比采用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)。

另一个巨大转变

传统上,TPU软件和硬件团队一直是面向内部的。

这具有优点,例如没有营销团队施加压力来夸大所述的理论FLOPs。

只面向内部的另一个优势是TPU团队非常重视内部功能请求和优化内部工作负载。

缺点是他们不太关心外部客户或工作负载。

TPU生态系统中的外部开发者数量远低于CUDA生态系统。

这是TPU的主要弱点之一,就像所有非英伟达加速器一样。

谷歌此后修改了针对外部客户的软件战略,并已经对其TPU团队的KPI以及他们如何为AI/ML生态系统做出贡献做出了重大改变。

其中有2个主要变化:


在PyTorchTPU「原生」支持上投入大量工程精力;

在vLLM/SGLangTPU支持上投入大量工程精力。


通过查看谷歌对各种TPU软件仓库的贡献数量,可以清楚地看到外部化战略。

从3月开始vLLM贡献显著增加。

从5月开始,创建了「tpu-inference」仓库,这是官方的vLLMTPU统一后端。


谷歌在软件战略方面仍然处理不当的一个地方是,他们的XLA图编译器、网络库和TPU运行时仍然没有开源,也没有很好的文档记录。

这让从高级用户到普通用户的各种用户感到沮丧,因为他们无法调试代码出了什么问题。

此外,用于多Pod训练的MegaScale代码库也不是开源的。

就像PyTorch或Linux开源迅速增加了采用率一样,为了加速用户的采用,谷歌或许应该将其开源,用户采用率的增加将超过他们公开和免费提供的所有软件IP。

后续

如果想要了解更深入的技术细节,比如谷歌独有的ICI光互连技术到底有哪些优势,可以阅读原文:

https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the




参考资料:

https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the

https://newsletter.semianalysis.com/p/mi300x-vs-h100-vs-h200-benchmark-part-1-training

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新