AI基础设施的军备竞赛正以前所未有的速度升级。谷歌最新发布的下一代张量处理单元(TPU)平台Ironwood,以其惊人的性能飞跃,再次推高了这场竞赛的门槛。
根据谷歌在Hot Chips 2025大会上披露的信息,其第七代TPU架构Ironwood在核心性能上实现了指数级增长,单颗Ironwood芯片的峰值算力高达4614 TFLOPs。与谷歌2022年推出的TPU v4相比,Ironwood的单芯片算力提升了超过16倍;即便是与去年发布的TPU v5p相比,也增长了近10倍。
Ironwood的发布不仅是单个芯片的革新,更是一套完整的、旨在实现极致扩展性的系统级解决方案。谷歌同时公布了围绕该芯片构建的机架、网络互连和冷却系统,展示了其将尖端算力转化为大规模、高效率生产力的全栈能力。
性能飞跃:单芯片算力提升超16倍
谷歌此次公布的数据清晰地展示了其TPU平台性能的演进路线。具体来看,Ironwood的单芯片峰值算力达到4614 TFLOPs,并配备了192 GB的高带宽内存(HBM),带宽高达7.4 TB/s。与之对比,2022年发布的TPU v4单芯片算力为275 TFLOPs,配备32 GB HBM,带宽为1.2 TB/s。而2023年推出的TPU v5p,单芯片算力为459 TFLOPs,配备95 GB HBM,带宽为2.8 TB/s。
从TPU v4到Ironwood,谷歌在短短数年内将单芯片算力提升了一个数量级以上,这反映了AI模型对计算需求的爆炸性增长,以及芯片设计厂商为满足这一需求所做的努力。
在超级计算集群(Superpod)层面,一个Ironwood Superpod将包含9216颗芯片,规模相较于前几代产品进一步扩大。
系统架构:从芯片到超级计算集群的扩展
强大的芯片性能必须依赖精密的系统设计才能充分发挥。谷歌详细介绍了Ironwood从芯片到机架再到集群的模块化、可扩展架构。该系统的核心是Ironwood SoC(片上系统)芯片,四颗这样的芯片被集成在一块Ironwood PCBA主板上。
随后,16个PCBA主板像托盘一样堆叠起来,构成一个包含64颗芯片的Ironwood TPU机架。在机架内部,谷歌沿用了至少三代产品的4x4x4 3D环面(3D Torus)网络拓扑,形成一个逻辑上的计算单元。为了实现更大规模的扩展,谷歌采用其专有的芯片间互连技术(ICI),通过混合使用PCB走线、铜缆和光纤链路,将多个机架连接成一个Superpod。
据披露,该系统最多可将43个计算单元(每个单元64颗芯片)连接起来,形成一个拥有1.8 Petabytes网络带宽的庞大集群。
惊人算力的背后是巨大的能源消耗和散热挑战。资料显示,一个满载的Ironwood机架功耗可超过100千瓦,这对数据中心的供电和冷却系统提出了严苛要求。为应对这一挑战,谷歌为Ironwood机架配备了高效的液体冷却系统。
该系统包括用于冷却剂分配的CBU机架,以及在机架顶部安装的防滴漏盘,用于监测任何潜在的液体泄漏。在供电方面,机架采用416伏交流电输入,通过整流器转换为直流电为系统供电。