受降低算力成本和分散供应链风险的需求驱动,博通、迈威尔(Marvell)等海外ASIC芯片巨头业绩井喷,频频抢占英伟达的风头。与此同时,国产ASIC芯片公司也迎来订单高涨。
9月11日盘后,“中国半导体IP第一股”芯原股份(688521.SH)公告披露,7月1日至9月11日,公司新签订单12.05亿元,较2024年第三季度全期大幅增长85.88%,新签订单已创历史新高。其中,AI算力相关的订单占比约64%。
芯原股份的业务结构中,AI算力相关的订单主要指ASIC芯片设计业务,承接来自芯片设计公司、互联网厂商、云厂商等客户的定制化芯片需求。
在AI芯片领域,以英伟达为代表的通用GPU生产商为公众耳熟能详,而ASIC芯片是应特定用户要求和特定电子系统的需要而设计、制造的一种专用集成电路。华为海思、寒武纪、阿里巴巴平头哥、百度昆仑芯、燧原科技等诸多知名国产AI芯片公司均采用ASIC架构。
行业分析机构Omdia人工智能首席分析师苏廉节告诉记者,通用GPU更适用于模型训练,而ASIC芯片用作模型推理比较有性价比。
西南证券提供的一项成本比较数据显示,谷歌第五代TPU(张量处理器)、亚马逊Trainium 2两款ASIC芯片的单位算力成本分别为英伟达H100芯片的70%和60%。
海光信息(688041.SH)董事、总经理沙超群在9月8日公司业绩会上回答南都N视频记者提问时指出,通用GPU具有通用性强、生态成熟的优势,未来将继续发挥其在通用计算方面的优势。对于那些需要快速迭代和适应不同AI模型的场景,通用GPU将是首选。ASIC芯片更多为特定任务定制,在这些特定任务上具有更高的性能和能效。
由此也形成了鲜明的市场格局:在模型训练场景,英伟达一家独大;而模型推理场景下,英伟达缺乏统治力,ASIC玩家聚集,呈现碎片化的态势。
但英伟达不愿任由ASIC对手在推理市场扩张,在9月9日发布一款专门面向AI推理的最新Rubin架构芯片,通过缩减不必要的高成本配置提升产品性价比。
国产ASIC芯片行情走高
成立于2001年的芯原股份依托自主半导体IP起家,拥有自主可控的图形处理器、神经网络处理器、视频处理器、数字信号处理器、图像信号处理器和显示处理器这六类处理器IP,以及1600多个数模混合IP和射频IP。
根据IP数据分析机构IPnest的统计,2024 年,芯原股份的半导体IP授权业务市场占有率位列中国第一,全球第八。
完善的IP体系是成为一家ASIC芯片服务商的前提。基于自有IP,芯原股份为芯片设计公司、大型互联网公司、云服务商等提供一站式芯片定制业务。芯原股份在财报中称,其客户包括三星、谷歌、亚马逊、微软、百度、腾讯、阿里巴巴等企业。
大模型的规模化落地部署,拉动AI ASIC需求高涨。咨询机构弗若斯特沙利文的数据显示,2024年,中国AI芯片市场规模达1425.37 亿元。其中,GPU芯片占据约69.9%的市场份额,包括ASIC在内的其他AI芯片约占30.1%。
在此背景下,芯原股份2025年上半年芯片设计业务收入中,AI算力相关收入占比约52%。
模型推理阶段,对计算速度、成本和功耗高度敏感。芯原股份在财报中写道,AI模型在云侧进行训练和推理,以及在端侧进行微调和推理时,产生了很大的算力需求,传统通用GPU芯片在能效比和算力成本上逐渐难以满足特定场景需求。而AI ASIC凭借其定制化架构、高计算密度和低功耗特性,可以在特定场景中实现高性价比和低功耗。
芯原股份目前正在寻求收购RISC-V架构CPU IP提供商芯来科技。芯原股份方面称,RISC-V凭借其模块化指令集与可扩展性,为AI计算提供了显著的技术优势,将为公司的AI ASIC业务带来更高的效益与产业价值。
和海外ASIC服务商相比,芯原股份在高速SerDes IP上依赖于和英国IP大厂Alphawave的合作——该公司今年6月被高通收购。2021年,芯原股份获得在中国市场独家销售Alphawave一系列多标准SerDes IP的权利。
SerDes是一种串并转换器,对实现高速数据传输至关重要。东吴证券研报指出,随着数据中心对网络通信速度和性能需求的不断提升,高速接口技术也迎来关键发展时期,这其中最为关键的是高速SerDes接口IP,也成为ASIC服务商研发重点与竞争壁垒。“在高速SerDes IP方面,国内较国外仍有一定差距”。
ASIC服务商的下游客户则是拥有芯片设计业务的公司。国产AI ASIC阵营中,一类玩家是互联网大厂和云厂商,华为昇腾系列、阿里巴巴平头哥含光800、百度昆仑芯P800等为各家代表产品;另一类玩家则是专门的芯片设计公司,如近期火爆的寒武纪以及腾讯孵化的燧原科技。
2025世界人工智能大会上,华为展出CloudMatrix384超节点算力集群,集成了384颗昇腾910C芯片。图:杨柳
市场分析机构TrendForce集邦咨询提到,国产AI芯片加速扩张的主要推动力,来自大型互联网企业自研的ASIC以及华为、寒武纪等本土供应商的技术突破。
集邦咨询指出,自研ASIC不仅降低算力成本,也分散供应链风险,提升竞争力。尤其在国际形势变化与供应链重构的背景下,中国芯片供应商以及云厂商投入自研ASIC的必要性将愈发凸显。
海外ASIC大厂与英伟达“掰手腕”
从全球市场来看,根据Marvell在今年6月AI投资者交流会上给出的预测,2023年,AI ASIC市场规模约为66亿美元,预计2028年达到554亿美元,2023-2028年的复合年均增长率为53%。
与国内市场类似,海外云厂商也是自研ASIC芯片的主力。谷歌TPU v7(第七代张量处理器)Ironwood、亚马逊Trainium 3、Meta MTIA v2等代表了各云厂商的最新自研成果。
云厂商“造芯热”带动背后ASIC服务商业绩飙升。与谷歌、Meta联合开发AI芯片的博通,目前市值高达1.6万亿美元,位列全球企业市值榜第七位,在所有芯片企业中仅次于英伟达。
博通最新公布的2025年财年第三季度(对应自然年的第二季度)财报显示,AI业务继续高速增长,实现52亿美元营收,同比增长63%。
博通公司总裁兼首席执行官陈福阳(Hock Tan)在9月4日财报电话会上透露,在此前三大客户基础上,公司新增一位重量级客户,已经订购了价值超过100亿美元的定制AI芯片。
虽然陈福阳并未透露第四位大客户的身份,但多家美国媒体报道援引知情人士的话称,该客户即为OpenAI。该定制AI芯片仅供内部使用,而不是售卖给外部客户。投行Cantor的分析师提及,博通现有的三大客户为谷歌、Meta和字节跳动。字节跳动对此不予置评。
另据DIGITIMES 在9月8日报道,马斯克旗下的AI初创公司xAI和苹果公司,也向博通抛来ASIC芯片开发合作的“橄榄枝”。
苏廉节分析称,博通等海外ASIC服务商在高速网络与连接技术方面积累深厚,在AI定制芯片设计、互连结构以及面向大规模数据传输需求的电源管理方案上都具备优势,因而有能力为谷歌、Meta等大厂提供设计芯片服务。
博通的火热势头,也让外界开始担心英伟达的客户将把重心从GPU转向ASIC。8月27日公司财报电话会上,英伟达总裁兼首席执行官黄仁勋被问及ASIC阵营竞争时说,目前确实有很多ASIC项目启动,也涌现出不少相关初创企业,但最终能实现量产的产品寥寥无几,核心原因在于ASIC研发难度极高。
黄仁勋称,相比之下,英伟达的GPU产品能适应任何模型架构的演进,且应用场景全覆盖。另外,它还能加速从数据处理、预训练、基于强化学习的后训练,一直到推理的全流程。因此,使用英伟达的产品来建设数据中心时,“不仅效用是最高的,其生命周期也更长”。
这不是黄仁勋第一次给ASIC泼冷水。今年3月英伟达GTC大会期间,他强调ASIC芯片不够灵活,无法应对快速发展的AI算法。
长期共存还是替代?
尽管黄仁勋表面上对ASIC不屑一顾,但在用实际行动回应后者带来的挑战。
9月9日,英伟达发布一款基于最新Rubin架构打造的GPU芯片Rubin CPX,针对处理超长上下文推理任务而设计,预计于2026年底上市。英伟达称,这款芯片可为AI推理任务提供“极高的性能和能效”。
Rubin CPX砍掉特定推理场景下不必要的高成本配置,以提升性价比。
参数显示,Rubin CPX在FP4(四位浮点)精度下,提供30 PFlops(1PFlop等于每秒1千万亿次浮点运算)的计算能力,相当于Rubin架构R200芯片峰值计算能力的60%。被大幅压缩的参数是内存带宽,Rubin CPX的内存带宽仅为2TB/s,而R200达20.5TB/s。内存带宽降低背后,Rubin CPX取消了昂贵的HBM(高带宽内存),转而配备成本较低的128GB GDDR7内存(第七代图形用双倍数据传输率存储器)。
此番设计与模型推理不同阶段对硬件的需求差异有关。
模型推理分为预填充(prefill)和解码(decode)两个阶段:预填充属于推理开始阶段,模型需要一次性读取并理解输入的所有上下文,对计算能力要求高;解码阶段则是根据已有信息一步步生成输出tokens,计算负载轻,但依赖于快速内存传输和高速互连来维持输出性能。这就意味着,HBM仅在解码步骤中具有较高必要性。在英伟达搭建的解耦式推理服务解决方案中,Rubin CPX充当面向计算密集型预填充阶段优化的专用芯片,解码阶段目前仍然依靠R200芯片。
解耦式推理服务解决方案的原理示意。图:英伟达官网
知名半导体分析机构SemiAnalysis在9月10日一份报告中分析称,HBM相对于其他形式的DRAM(动态随机存取存储器)存在昂贵的溢价,这是因为它具有较高的带宽,但当这些带宽在预填充阶段未被充分利用时,HBM就被浪费了。从HBM转向成本更低的GDDR7显存,可把每GB内存的成本降低50%以上。该机构估算,Rubin CPX的物料清单成本仅有R200的25%。相当于花R200芯片1/4的钱,买到其60%的计算能力。
一位半导体产业资深人士向记者表示,英伟达不可能眼睁睁地看着ASIC的市场无限制扩张,必然要和ASIC在模型推理领域展开竞争。英伟达和ASIC玩家相比,在技术上拥有强大优势。但前提是,英伟达愿意舍弃一定的高毛利。
英伟达此举会如何影响AI ASIC领域?截至发稿,博通公司暂未回复置评请求。
多数市场观点认为,AI芯片市场上,ASIC和通用GPU将保持长期共存的关系。通用GPU能处理模型训练过程中的海量数据和复杂计算,并且具有灵活性,能适应模型的频繁迭代;而ASIC芯片面向具体推理任务进行定制优化后,在模型和算子相对固化的推理场景下拥有优势。
尽管ASIC在模型推理场景更具潜力,但部分国内厂商已开始将ASIC用于模型训练。一个典型案例是,科大讯飞基于华为昇腾芯片进行大模型训练。今年1月,科大讯飞发布星火深度推理模型X1,声称这是“当前唯一基于全国产算力训练的具备深度思考和推理能力的大模型”。
科大讯飞董事长刘庆峰在3月接受南都等媒体采访时说,2024年10月,科大讯飞便完成深度推理模型的技术路线验证。然而,为了在国产算力平台上进行训练,他们不得不花费额外两个月时间来进行适配工作。所以,使用全国产算力训练的代价,不仅体现在国产AI芯片的使用成本更高,也体现在训练所消耗的时间更长,拖慢了模型发布的进度。但他认为这是解决国产芯片自主可控问题的必经之路。
9月11日,硅谷科技媒体The Information爆料称,阿里巴巴和百度都在使用自研的AI芯片训练模型。其中,阿里将自研芯片用于开发较小的AI模型;百度则尝试使用其昆仑芯P800芯片来训练文心大模型的新版本。但两家公司并没有完全放弃英伟达的芯片。阿里巴巴和百度均未对此回应。
有云厂商人士告诉记者,国产AI芯片用于大模型训练任务难度很高,华为昇腾或许是唯一一可用于大模型训练的芯片。
于是在短期内,那些专注于通用GPU路线的国产AI芯片公司可能面临两难局面:在大模型训练商用市场不仅难以与英伟达同台较量,还面临同类型国产GPU企业竞争;而在模型推理市场,又可能拼不过ASIC芯片玩家。
国产GPU企业沐曦在8月下旬回应IPO监管问询时直言,其在互联网企业客户开拓及产品导入方面,相比部分国内友商进度有所滞后——友商的产品多数为ASIC架构。这是因为,互联网企业的采购决策高度市场化,出于对产品性价比和生态竞争力的考虑,其第一选择仍然是国际产品;在部分推理场景下可能会使用国产算力芯片,但通常也是优先选择自有产品,或者扶持其投资的生态链企业。
海光信息也是通用GPU阵营的玩家。公司董事、总经理沙超群回答记者提问时表示,海光信息将加大研发投入,通过兼容现有英伟达CUDA生态来降低用户迁移成本。长期来看,国产通用GPU厂商也会努力发展自有核心技术,构建自主可控的生态系统。
“通用GPU和ASIC两种AI芯片技术路线,在国产AI芯片替代进程中都将发挥重要作用,可以根据不同的应用场景来发挥各自的优势。”沙超群表示。
采写:南都N视频记者 杨柳