当前位置: 首页 » 资讯 » 财经头条 » 正文

算力竞速(上):GPU如何蜕变为AI时代的新石油

IP属地 中国·北京 博望财经 时间:2026-02-10 16:28:59



文|钱眼君

来源|博望财经

岁末年初,中国资本市场的聚光灯前所未有地聚焦于黄浦江畔。一场声势浩大的“GPU旋风”正席卷而来:在不到一个月的时间里,沐曦股份、壁仞科技、天数智芯三家扎根上海的GPU企业密集登陆资本市场,而与其并称“上海GPU四小龙”的燧原科技,也已完成IPO辅导,即将为这场盛宴落下最后一块拼图。

从科创板首日暴涨692.95%的造富神话,到港交所超2300倍的惊人认购纪录;从百亿级的IPO募资规模到千亿市值俱乐部的批量诞生,国产GPU企业正以其凌厉的资本攻势,宣告着国产算力产业一个新时代的来临。

这并非偶然的资本狂欢。沐曦股份凭借在手订单14.3亿元及"千卡集群"的商业化落地,上市首日市值即突破3000亿元,创下多项纪录;壁仞科技作为"港股国产GPU第一股",获得23家基石投资者力挺;天数智芯则以首家实现国产7nm训练推理通用GPU量产的身份,携覆盖20多个行业的业绩登陆港交所。

然而,光环之下亦有隐忧:天数智芯三年半累计亏损超28亿元,壁仞科技同期亏损超63亿元,揭示出这个高投入、高风险行业在抢占窗口期时的"流血冲锋"本质。

这是一场关乎智能未来的产业竞速赛:一边是国际巨头以"黄氏定律"般的速度垒高技术壁垒,一边是中国本土力量在资本与政策的双重加持下集体破局。而要理解这场竞赛的深层逻辑,我们必须回溯GPU从游戏配件到算力核心的蜕变之路。

01

定义核心:从图形助手到算力引擎的蜕变

在探讨这场席卷全球的算力革命之前,我们先来厘清一个核心概念——GPU。GPU全称Graphics Processing Unit,图形处理器。我们常听说的CPU(Central Processing Unit)是指中央处理器,它与GPU的核心差异在于架构设计:CPU通常拥有少数几个强大的核心,擅长处理复杂的通用串行任务,如同一位能解奥数题的中学生;而GPU则集成数千个相对简单的核心,专为处理海量同质化的并行任务而生,好比几百个小学生协作完成数万道加减法。



图:GPU在计算机中的位置,公开资料整理。

如果说CPU是计算机的"大脑",负责决策与控制,那么GPU则是专精于"大规模重复劳动"的"肌肉",其并行计算的天性,使其在图形渲染和高效能矩阵运算(人工智能的核心)中的效率远超CPU。

随着5G与人工智能时代的到来,数据中心内机器学习等AI计算已占据总计算量的四分之一到三分之一,大数据处理的重任正从CPU向算力更强的GPU转移。GPU的应用早已超越传统的个人电脑图形显示,其形态按接入方式可分为独立与集成;其疆域已扩展至移动设备、数据中心服务器与个人电脑等多个场景。尤其在AI与云计算浪潮下,GPU凭借其与生俱来的并行计算优势,成为了数据处理的核心引擎,开辟出一个规模空前的增长市场。尽管FPGA和ASIC等更为专用的计算芯片也在特定领域崭露头角,但行业共识在于,GPU凭借其卓越的通用性、成熟的软件生态(尤其是英伟达的CUDA)及强大的综合算力表现,仍是当前AI计算领域无可争议的霸主与主导架构。

这一定位,是理解其万亿级产业价值的逻辑起点。

02

GPU从哪来:一部从游戏显卡到AI基石的创业史

GPU产业的崛起,是一部典型的硅谷技术创业史诗,而其主角无疑是英伟达(NVIDIA)。故事的开端可追溯至1989年——几位工程师共同勾勒了一款新图形加速器的蓝图。1993年,英伟达正式成立,开始的创业之路充满坎坷,至1995年,公司面临设计出芯片却无资金建厂制造的困境。创始人黄仁勋致信台积电创始人张忠谋求助,并成功获得支持。

这段合作被黄仁勋本人视为关键转折:"如果当初我自己建厂生产GPU芯片,我现在可能就是一个守着几千万美元的公司的安逸的CEO。"台积电的代工模式让英伟达得以轻资产运营,聚焦设计与创新,从而快速迭代产品,抢占市场。

1999年,英伟达做出了两个定义行业的举动:一是彻底转型专注于显卡芯片,二是首次在全球提出"GPU"这一革命性概念(但在提出这个概念以后的相当一段时间内,GPU还仅仅用于图形处理,远不像现在这般如雷贯耳)。同年,公司在纳斯达克上市,市值达6.26亿美元,开启了长达二十余年的高速增长传奇。

然而,硬件性能的领先并非其构筑护城河的终极武器。真正的"神来之笔"发生在2006年,英伟达在推出新一代GPU的同时,发布了具有划时代意义的CUDA计算平台。CUDA即Compute Unified Device Architecture,统一计算架构,本质上是一套软件工具,它让开发者能够以前所未有的便捷性,调用GPU的强大算力进行通用计算(GPGPU),这为后来深度学习的爆发埋下了伏笔。

起初,CUDA的商业价值并未被市场立刻接受。但英伟达展现出了惊人的战略耐心与远见:向全球高校和研究所免费开放并设立研发中心;以资金扶持创业公司使用;持续开源核心软件库;甚至确保廉价的消费级游戏显卡也支持CUDA,将开发门槛降至千元级别。

经过十余年不计短期回报的持续灌溉,CUDA逐渐从一款开发工具,演进为高端计算与图形领域的事实标准,构筑了堪比操作系统般的深厚生态壁垒。即便竞争对手的GPU硬件性能参数相近,但在AI开发社区的受欢迎程度却有天壤之别,核心差距就在于CUDA所带来的开发效率与计算效能倍增。



图:关于CUDA的描述,来自英伟达官网

直到2014年前后,英伟达将CUDA与AI计算完美融合,英伟达的腾飞才真正开始。如今,CUDA连接了全球数百万开发者,使英伟达GPU成为AI时代事实上的"计算货币",其护城河之深,已难以用单纯的晶体管数量或浮点算力来衡量。这也能说明为何国产GPU公司很难实现快速超车。

03

技术争锋:HBM、架构迭代与性能军备竞赛

驱动GPU产业以"黄氏定律"速度(显示芯片性能每6个月提升1倍,AI算力在8年内实现千倍增长)前进的,是持续不断的技术创新与白热化的性能军备竞赛。笔者梳理发现,当前的技术角逐主要集中在3个关键维度:

1、存储技术的跃迁

算力的爆炸式增长,不仅需要强大的"引擎"(GPU核心),更依赖于能够实时"喂饱"引擎数据的"高速粮道"。自2017年起,英伟达便在高端AIGPU(如A100、H100)中率先采用HBM(高频宽存储器)技术。

这与传统的GDDR(Graphics Double Data Rate)内存有本质不同:GDDR作为传统的内存技术,提供了平衡的性能和成本,适用于广泛的图形应用,而HBM则更专注于提供高性能、高带宽以及更能效的解决方案,适用于对数据传输速度和能效要求更高的领域。在结构上,GDDR是一种传统的图形内存,通常以单个芯片的形式存在,它的设计比较扁平,内存芯片以并行方式连接到图形处理单元(GPU)。HBM通过3D堆叠、硅通孔(TSV)等尖端封装工艺,将多层DRAM芯片像盖楼一样垂直堆叠,并与GPU逻辑芯片通过硅中介层紧密集成。这种设计带来了革命性优势:HBM拥有数倍于GDDR的带宽和更低的功耗,但代价是结构极度复杂、成本高昂。



图:H200,英伟达官网

以英伟达2023年底发布的H200 GPU为例,它首次搭载HBM3e,显存带宽高达4.8TB/秒,用于700亿参数大模型推理时,速度是前代H100的1.9倍,能耗却降低一半。这清晰表明,突破"内存墙"是算力持续进化的生死线。

2、架构平台的高速代际飞跃

GPU行业中,很多企业把英伟达当成终极目标,但笔者看来,一个残酷的事实是,这个终极目标并非原地不动等待超越,而是仍在向前狂奔,保持着约两年一次架构升级的残酷节奏。其下一代平台"Rubin"已提上日程,计划于2026年量产。Rubin不再仅仅是单一的GPU芯片,而是一个整合了Rubin GPU、专为AI推理设计的Vera CPU、新一代NV Link交换机芯片、高速网卡的庞大计算系统。其中,Rubin GPU的关键指标呈现跨代跃升:FP4推理性能预计达到当前Blackwell架构的5倍。这场竞争已从单一的"芯片对决"升级为"系统平台战争",比拼的是从芯片到集群的全栈优化能力。

3、图形与计算的双重挑战

尽管AI计算是当前最大的风口,但图形显示功能本身的技术壁垒实际上更为森严。硬件结构上,一颗完整的GPU需要集成光栅化、纹理贴图、光线追踪等为图形专门优化的硬件单元,其复杂程度远超专注于矩阵计算的AI芯片;算法上,图形处理涉及计算机图形学,需要融合物理模拟、光学渲染等多学科知识,算法难度极高。

因此,能够同时驾驭高性能图形渲染与通用AI计算的"全功能GPU",代表了芯片设计领域的皇冠明珠,这也是诸多国产GPU厂商将"全功能"作为核心战略方向的原因。

当国际巨头在技术前沿高歌猛进,用一代代产品定义着算力标准时,一个关键问题摆在全球产业面前:在这条被巨头划定的赛道上,后来者还有机会吗?中国的答案,正在上海张江的实验室里、在资本市场的锣声中、在一张张累计亏损数十亿的财务报表背后,悄然书写。从技术追随到生态破局,国产GPU的征途,远比想象中更加艰难,也更加波澜壮阔,我们下篇继续分析。

声明:个人原创,仅供参考

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。