当前位置: 首页 » 资讯 » 科技头条 » 正文

谷歌撼动英伟达绝对统治,亚马逊跟上,产业影响几何?

IP属地 中国·北京 21世纪经济报道 时间:2025-12-03 20:15:39

21世纪经济报道记者邓浩、孙燕

英伟达正迎来越来越多AI芯片“挑战者”。

当地时间12月2日,亚马逊发布新一代AI芯片Trainium3,并透露了其正在研发中的 Trainium4。

不久前,谷歌官宣了Gemini 3大模型,因为采用的是自研芯片,加之市场评测其模型完胜OpenAI的GPT系列,一度造成英伟达股价大跌,甚至被视为其王者地位被动摇。

在A股市场,炒作的重点则落到了算力互联。由于谷歌已经官宣第七代自研TPU芯片Ironwood将在未来几周内正式发布,而该芯片采用的是光电路交换机(OCS)互联架构,OCS作为光网络下一代战场得到确认,相关产业链获暴涨。

此轮谷歌TPU芯片对英伟达GPU芯片的冲击,要从Gemini 3正式发布说起。

当地时间11月18日,谷歌母公司Alphabet推出新一代多模态大模型Gemini 3。Gemini 3 相比前代在长上下文、多模态理解与复杂推理上的能力跃升,把谷歌的TPUs推到了聚光灯下。

谷歌称,Ironwood在训练和推理方面的性能比上一代Trillium芯片提升了4倍多,是该公司旗下迄今为止性能最强、能效最高的定制芯片。

具体而言,在运算能力上,Ironwood芯片的峰值算力达到每秒425万亿次运算,谷歌该系列芯片首次支持8位浮点数表示精度(FP8)计算,FP8算力达到了每秒4614万亿次浮点运算(TFlops),超过了英伟达B200芯片的每秒4500万亿次浮点运算。在内存带宽方面,Ironwood芯片达到每秒7.2太比特(TBps),略低于英伟达B200芯片的每秒8太比特。此款TPU的每瓦性能为其前代产品Trillium芯片的两倍,且每个芯片的内存容量达到192千兆字节,是Trillium芯片的六倍。

这引发了业界关于TPU与GPU的路径之争。

招商证券研究指出,Google TPU最核心的价值并不在某一代芯片的性能数字,而在于它背后那套自洽的技术结构:从单芯片的矩阵阵列和片上存储,到多芯片互联的托盘、机架、Pod,再到跨Pod的算力调度。这套结构决定了TPU在大模型时代的可扩展性和能效边界,也解释了为什么它能在英伟达 GPU长期占优的环境里杀出一条专用化路线。

容芯致远联合创始人、CTO石旭在接受21世纪经济报道记者采访时表示,大模型在收敛、稳定后,使用TPU的效率最高。“对于大模型而言,TPU一定是未来。”

石旭指出,AI芯片存在效率、成本、灵活性互相约束的三角:TPU提供了较高的效率、成本,但牺牲了灵活性——TPU只能在某个模型或框架下使用。如果模型未收敛,还是使用GPU灵活性更高。

在他看来,TPU和GPU是串行路线,而非并行路线:GPU的发展未来是模型稳定,模型稳定后一定会走向TPU。“也许未来,GPU的通用市场会逐渐收窄至高校、研究院等科研场景,更多生产场景可能会收敛至垂类模型,彼时将是TPU的天下。但这一未来并不会来得太快——模型迭代非常快,只有像谷歌一样又做模型又做运营的企业才适合做TPU。”

随着模型的收敛、TPU的迭代,谷歌TPU也从自用走向了外销。目前,Anthropic宣布将部署多达100万个谷歌的TPU芯片以训练旗下AI大模型Claude。此外,也有报道称谷歌正与Meta等科技大厂谈外采合作。

Meta或将引入谷歌TPU,也引发了市场对于英伟达地位的担忧。11月26日凌晨,英伟达在社交平台上回应道:“我们对谷歌的成功感到高兴——他们在人工智能领域取得了重大进展,而我们仍将继续向谷歌供货。英伟达领先行业整整一代,是唯一能够运行所有AI模型,并可在所有计算场景中部署的平台。”

石旭指出,英伟达有三大护城河:一是能拿到台积电的先进制程产能;二是CUDA生态;三是体系——英伟达以算力芯片(GPU)、网络芯片(收购Mellanox)、交换芯片(NVSwitch)以及软件生态(CUDA)形成了体系。“目前这些玩家只能替代英伟达GPU芯片,要想替代英伟达,还要攻破这三大护城河。”

除了单块TPU外,算力集群是当前训练大模型的必由之路。而这又催生出卡间互联、机架互联等需求。

对于算力互联,谷歌是OCS的先行者。通过在TPU v4集群中引入OCS技术,动态调整网络拓扑,显著提升了系统可用性,实现性能提升和能耗降低。

不同于传统交换机,OCS直接进行光路交换,无需做光电转换。由此可减少延迟和能量消耗,在跨区域扩展和大规模AI算力需求中展现极大优势。

石旭指出,光交换其实此前已经存在,但在AI浪潮下逐渐从边缘走向主流。

其中的逻辑在于,传统的交换机追求在成本、效率、灵活性之间达到平衡,而随着交换的延迟、带宽成为智算的瓶颈,业界开始追求极致的效率,以牺牲成本为代价,来提高带宽、降低延迟。

“OCS作用在交换层,主要用于机架与机架之间的交换。”石旭认为,网络一般分为接入层、交换层、核心层。在智算领域,这三层正被重构:接入层可能仍用铜互连,比如机架内的互连采用铜缆;交换层和核心层用光互连,从而实现更低延迟、更高带宽。“未来也可能三层都用光互连。”

而且,随着资本市场对谷歌TPU出货预期的上修,OCS光交换产业链迎来投资者持续关注。

资料显示,大摩亚洲半导体团队将谷歌2027年TPU产量预测从原先的约300万块上调至500万块,上调幅度达67%;将2028年TPU产量预测从原先的约320万块上调至700万块,上调幅度高达120%。

中泰证券判断,目前谷歌TPU V7 Ironwood即将全面上市,开始配置1.6T光模块,OCS主要采用MEMS和液晶方案,其核心部件MEMS阵列、光纤阵列、发射/接收模组及其光学器件、钒酸钇晶体、光模块、环形器、光源等供应商均有望受益。

实际上,自Gemini 3推出以来,相关概念股已持续获得拉升。比如因为收购武汉捷普而具有OCS业务的光库科技,最高涨超50%,国产MEMS-OCS龙头赛微电子更是最高涨幅翻倍。

值得一提的是,市场有声音担忧OCS的兴起,可能会影响光模块的用量。对此,国盛证券分析称,OCS与光模块是协同共生的关系,龙头企业在OCS上依旧掌握核心机会。

这里的关键是,当前光交换机的制造成本仍显著高于电交换机,当两个方案(CPO和OCS)配合起来,功耗才可以进一步降低。

国盛证券称,OCS的供应链正在形成,行业尚未进入证伪阶段。而长期看,头部光模块厂商凭借其强大的全球生态渠道、与战略客户的深度绑定、规模化制造的经验沉淀以及系统的前瞻研发能力,将在OCS新兴赛道构筑全方位竞争优势。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新