从芯到云，算力为何全线短缺？

IP属地中国·北京 编辑：赵磊财经杂志 时间：2026-05-25 18:11:10

算力基建投资目前仍在不断增加，算力短缺的状态将至少维持两年。AI增长飞轮高速转动，催生出持续性的算力全域涨价行情
文｜《财经》主笔吴俊宇研究员周源
编辑 | 谢丽容
一场喧嚣而深刻的产业变局，正在算力供应链全链发生。
2026年，一场覆盖芯片、云、服务器、数据中心零部件的全产业链算力短缺席卷全球。算力稀缺与全线涨价，贯穿整个AI产业。
全球资本市场算力相关公司迎来了高点。纳斯达克科技指数不断攀升，英伟达市值仍在节节走高，亚马逊、微软、谷歌的云业务营收、利润来到历史高点。OpenAI、Anthropic两大AI创业公司估值已接近万亿美元。
中国市场也出现了类似变化。纳斯达克中国金龙指数连续走高，A股算力板块价值重估。海光信息、寒武纪、摩尔线程等国产AI芯片公司的股价近一年长期位于高点，工业富联等服务器公司、中际旭创等算力周边零部件关键企业的市值纷纷连续创下新高，算力细分赛道的企业市值不断上涨。
资本市场与产业市场正在形成共振。无论是投资机构还是算力产业链内部，越来越多的人认为：这一轮算力短缺，并非传统意义上的周期性供需失衡，它更像是新一轮产业变革到来前的信号。
过去20年，整个科技产业的共识是，算力只会越来越便宜。
半导体“摩尔定律”、云计算“规模效应”共同促成了这个趋势——芯片晶体管密度持续提升，单位计算成本不断下降。云让算力被更多用户弹性调度，提升利用率并摊薄成本。
2026年，这个逻辑似乎暂时失效了。
因为全球算力产业链，开始进入全线短缺的状态——从服务器的GPU（图形处理器）、CPU（中央处理器）、HBM（高带宽内存），再到数据中心的光模块、铜模块、高速交换机、电力与液冷等相关资源，乃至云计算和Token资源，几乎都供不应求。
蝴蝶效应开始显现：芯片、服务器在涨价，云在涨价，手机、PC由于承担了芯片与存储成本压力也在涨价，甚至字节跳动旗下的豆包App这类免费AI产品，也开始计划收费。
供需格局的反转是本轮短缺与涨价的核心根源。
需求端，Agent（智能体）这种AI应用在爆发。AI从聊天走向工作，并大规模进入真实生产环境。每次问答、执行任务、代码生成和Agent调用，都在用算力推理并消耗Token（词元）。基于这个趋势，全球科技与算力领域的公司开启了过去十多年最大规模的一轮算力投资。
国际市场调研机构IDC 2026年预测，全球活跃Agent数量将从2025年的2860万，增长至2030年的22.16亿。五年后，活跃Agent数量将是目前的近80倍。
中国市场算力消耗增长明显。国家数据局数据显示，截至今年3月，中国日均Token调用量超过140万亿，相比2024年初的1000亿增长1400倍。
需求在爆发，但供给却无法跟上。在供应端，半导体和数据中心相关产业都是重资产、长周期的行业。无论是SK海力士、三星半导体、美光科技的HBM内存，还是英伟达的GPU，英特尔、AMD的CPU，以及数据中心周边供应链的扩产都需要更长时间。
由于需求爆发式增长，但供给相对不足，云计算、ICT硬件、半导体等领域的相关人士对《财经》表示，短缺和涨价的趋势至少会持续1年-2年。
不过，这一轮算力短缺，不像过去是简单的供应链危机。它更像是AI产业飞轮启动前的信号。只是飞轮转得太快，供应链的齿轮没完全咬合，所以出现了短缺和涨价这些现象。
全球AI规模化时代的序幕，正在拉开。
GPT-5.5生成
史无前例的算力需求
此轮算力需求的增长是史无前例的，甚至超过了过去20年
国际市场调研机构Gartner长期统计并预测全球IT支出（包括数据中心、设备、软件、IT服务、通信服务等）数据。
Gartner数据显示，2025年全球数据中心投资规模达到5056亿美元（约合3.4万亿元），同比增长51.6%。预计2026年将达到7880亿美元（约合5.4万亿元），同比增长55.8%。
《财经》查阅了Gartner近20年统计的全球IT支出数据发现，2025年-2026年的数据中心投资规模和增速，至少是20年来（2006年至今）最高的。
具体到中国、美国的科技和算力巨头，它们的资本支出均处于高速扩张阶段。
中国七家科技/算力巨头（阿里、字节跳动、腾讯、百度、中国移动、中国联通、中国电信）2025年资本支出约6586亿元，同比增长16%。保守估算，2026年资本支出在6836亿元以上，至少增长4%。
美国五家科技/算力巨头（包括亚马逊、微软、谷歌、Meta、甲骨文）2025年资本支出4500亿美元（约合3.1万亿元），同比增长70%；预计2026年资本支出7600亿美元（约合5.2万亿元），增长69%。
中国和美国科技/算力巨头合计近8000亿美元的算力投资，甚至已经超过很多主权国家（包括德国、英国、韩国、俄罗斯、巴西等）2025年固定资产投资规模。
Agent爆发正在推动算力需求爆发。这让全球主要云计算厂商（包括亚马逊AWS、微软Azure、谷歌GCP、阿里云、甲骨文OCI）的营收增速均达到了近三年的最高点。
主要云厂商甚至在把Token视为下一个核心增长点。各家的Token收入和占比也在快速增长。它甚至在改变云计算的产品架构和销售策略。
过去十余年，衡量算力需求的单位一直是“卡时”（芯片在云上的租赁时长）、服务器台数、芯片数量等。厂商更关注卖出了多少小时CPU/GPU云资源，多少张CPU/GPU、多少台服务器。
随着Agent爆发，算力被拆解成Token这种颗粒度更细、可实时计量、持续消耗的资源单位。过去一次性购买服务器或云资源的模式，开始转向持续性的Token消耗模式。
用户使用算力的门槛也在大幅降低——AI正在从聊天和对话走向日常工作。它在今天的Token消耗量远超过去的AI对话工具。
百度智能云大模型平台总经理忻舟2025年12月曾对《财经》表示，Agent执行的是一系列任务。任务过程中，模型会不断用代码规划任务、调用工具并记录执行状态，每个步骤都可能触发新的模型调用。一次对话可能只消耗数千Token，但一次任务可能就会消耗数万，甚至数十万Token。
《财经》在字节跳动旗下的火山引擎方舟、OpenAI的Codex这两个平台上尝试了几种不同的任务——日常对话消耗的Token在1000以内。AI阅读分析一篇文章消耗的Token规模达到5000以上。分析某个公司24个季度财报PDF文件Token消耗量达到10万以上。搭建一个公司财务分析的小型网页应用消耗的Token达到了亿级。
Token消耗量的增长，让中国、美国的算力均供不应求——阿里云、亚马逊AWS销售人士均对《财经》表示，2026年算力市场是卖方市场。有多少算力，就能卖多少算力。
5月13日，阿里2026财年四季度（2026年一季度）财报电话会中，阿里集团CEO（首席执行官）吴泳铭侧面证实了这一说法。他说，目前阿里的服务器中没有一张卡是闲置的。
Token消耗量的增长也带动了各个科技或算力公司的Token收入增长。虽然它在各个公司云业务中的占比仅为个位数，但成长速度极快。
《财经》独家获悉，截至5月13日，阿里云日均Token收入相比4月初已经增长超过5倍。月收入目前已经达到数亿元级别。（报道详见《独家｜阿里云日均Token收入较4月初已增长五倍》）
阿里管理层在2026财年四季度财报后电话会议披露，包括百炼MaaS（模型服务）平台在内的模型和应用年度经常性收入（ARR，计算方式为当月收入×12）在快速增长。它在2026财年四季度收入超过80亿元，2027财年一季度有可能超过100亿元，2027财年末将超过300亿元。阿里云相关人士对《财经》表示，这些以Token收入为主。
字节跳动旗下云与AI业务火山引擎今年4月披露，截至3月，豆包大模型日均Token使用量超过120万亿。2025年12月，该数据是63万亿。也就是说三个月增长近1倍。
《财经》2026年初从多方得到的消息是，火山引擎2025年外部业务（剔除字节跳动内部业务）的Token收入远超10亿元。2025年末，火山引擎曾制定2026年Token收入至少翻倍的增长目标。2026年随着豆包视频模型Seedance 2.0变得流行，火山引擎Token收入目标还在继续大幅上调。
中国某ICT（信息与通信技术）硬件企业一位资深战略规划人士2025年下半年曾对《财经》表示，他对火山引擎未来可能的Token收入进行了敏感性测试（一种综合外部市场条件变化进行市场动态分析的方法），结果显示，火山引擎Token收入未来一年到两年可能增长至百亿元。
美国市场趋势类似，亚马逊、谷歌的云业务Token收入也在大幅增长。
亚马逊AWS今年一季度Token消耗量超过了历史季度总和。亚马逊2026年一季度财报电话会披露，旗下MaaS平台Bedrock客户支出环比增长170%。《财经》了解到，目前Bedrock的年收入为数十亿美元，在亚马逊AWS2025年1287亿美元营收大盘中占比为个位数。
早在2025年三季度财报电话会，亚马逊AWS管理层曾表示，长远来看，Bedrock收入贡献将与EC2不相上下。《财经》了解到，EC2是亚马逊AWS最核心的计算产品，年营收至少超过400亿美元，总营收占比超过30%。照此预测，Bedrock未来的收入将会达到数百亿美元。
今年4月，亚马逊AWS技术副总裁Mai-Lan Tomsen Bukovec（美兰汤姆森布科韦茨）在一场小规模沟通中对《财经》表示，推理正在成为一种常态化的应用。她还表示，这也是Bedrock诞生的初衷。用户不必成为AI专家，任何开发者都能通过API（应用接口）使用推理应用。
谷歌近半年在财报电话会中连续披露了Token增长情况。谷歌管理层在2026财年一季度财报电话会表示，谷歌一方模型目前每分钟处理的Token数量超过160亿，高于上季度的100亿。过去12个月中，330家谷歌云客户分别处理了超过1万亿Token。其中35家达到了10万亿Token。
Token让算力从一次性的基础设施投资，变成一种持续消耗、实时计费的算力资源。越来越多科技/算力厂商开始关注：单卡在单位时间能够生成多少Token；单位Token成本，以及Token收入增长有多快。Token正在改变整个算力产业链的利润分配方式。
谁卡住了算力？
史无前例的高需求，产业链猝不及防
随着下游的算力投资和用户需求高速增长，上游供应链（包括GPU、CPU、HBM、高速网络、光模块与铜模块等）的需求同步增长。
Token和云的增长本质是软件的扩张，它的增长极快，可以按月、周甚至是天变化。但半导体和数据中心的扩张是工业的扩张，它的速度慢、周期长。
Token和云的需求暴涨，导致整个算力上游供应链的三条线同时开始变得紧绷：
其一，HBM高带宽内存，它是存储芯片的一种，是算力供应链当前最核心的卡点。
其二，GPU、CPU等芯片持续供不应求，Token需求在吞噬全球计算资源。
其三，光模块、铜模块、高速交换机、液冷与数据中心等零部件，也正在进入紧张状态。
当我们在讨论缺货，其实是一台算力机柜内的所有零部件都面临短缺局面——2025年-2026年热销的英伟达GB200 NVL72算力机柜是呈现这个问题的最佳切面。
英伟达GB200 NVL72算力机柜由72个B200 GPU、36个Grace CPU、576组HBM3e（第五代高带宽内存）共同构成。国际半导体市场调研与咨询机构SemiAnalysis估算，一台GB200 NVL72机柜需要5184根高速铜缆用于内部连接，需要72个光模块用于连接外部网络。
在GW（吉瓦是功率单位。1GW算力集群可容纳超过10万枚英伟达GB200芯片，整体建设耗资超过100亿美元）规模的万卡算力集群中，又需要更多高速光纤对数千个GB200 NVL72机柜进行连接。
日本野村证券在半导体产业链有着长期积淀。野村证券2025年12月曾报告称，2026年英伟达GB200 NVL72的理想出货量是73000台（即超过520万卡）。但实际情况是由于制造工艺复杂且良率不足，它的产能释放远低于市场需求，英伟达GB200 NVL72可能存在23000台（即超过165万卡）的缺口。
缺货问题的源头是先进制程、先进封装产能不足——CPU、GPU、HBM基底芯片，甚至网络芯片等所有关键芯片，全都依赖台积电。
英伟达GB200 NVL72中的B200 GPU采用台积电定制4NP（5nm增强版）先进制程制造。单颗GPU由两块接近光刻极限尺寸的逻辑裸片组成，通过10TB/s的卡间互连进行通信。制造完成后，B200 GPU还要与存储芯片厂商提供的HBM3E共同进入台积电CoWoS（Chip-on-Wafer-on-Substrate）先进封装环节，最终被共同集成在一起。
当先进制程、先进封装产能扩充时，GPU、HBM的出货量才能真正提升。
问题在于，扩产周期极长、技术难度极高。台积电董事长兼总裁魏哲家在2026年一季度财报电话会议明确表示，台积电已调集全部设备资源，但供应依旧极度紧张，需求仍在持续增长。先进制程产能是制约全球AI产业发展的关键变量。
国际半导体调研与咨询机构TrendForce2026年4月报告称，台积电规划在2027年新增超过60%CoWoS产能，预估产能严重紧缺的现状将于2027年略微改善。
HBM是GPU背后长期被忽视的核心零部件，它也是今天算力短缺潮中的“隐形瓶颈”。它的供应能力直接影响先进GPU的出货能力。（报道详见《存储芯片暴涨真相》）
GPU被认为是卡住算力供应的核心产品。然而，真正卡住GPU供应的却是HBM。一枚英伟达B200 GPU搭载了8组HBM3E。缺少HBM，GPU量产后也无法最终出货。
HBM不仅影响着GPU的供应，还影响它的性能表现。因为HBM决定了GPU的数据吞吐能力，直接影响着GPU在单位时间的Token吞吐量。模型训练与推理中，需要读取海量参数、上下文与缓存数据。尤其是Agent任务中，模型对于数据吞吐量的需求还在增长。GPU需要HBM用更高的带宽输送数据、保持记忆。
全球HBM市场由SK海力士、三星半导体、美光科技这三家存储（包含DRAM内存和NAND Flash闪存）芯片厂商主导。三家企业占全球95%以上的份额。但目前，它们在2026年的HBM产能已基本售罄。英伟达和美国五大科技公司已锁定2026年90%以上的产能。
HBM不仅需求旺盛，且单颗利润是DDR4（第四代内存）存储芯片的10倍多，三大存储巨头为抢抓AI需求，获得高毛利，纷纷将先进产能优先配给HBM和DDR5（第五代内存）。
但即使如此，HBM仍然面临缺口。国际半导体调研与咨询机构SemiAnalysis2026年2月报告显示，HBM供应缺口从2025年的5%扩大到2026年的6%，并将在2027年扩大至9%。这个数字看起来似乎不高，但它造成的实际市场紧张程度远高于数字本身。因为这足以引发整个市场提前锁产能、预订产能、签订长约，甚至是囤货涨价。
HBM稀缺，让SK海力士、三星半导体、美光科技在算力产业链的地位迅速上升。
2025年10月，英伟达创始人黄仁勋访问韩国期间，专程与三星电子会长李在镕会面。两人的交流甚至以“炸鸡啤酒”的韩式聚餐形式展开。这也折射出，在HBM产能紧张的背景下，GPU厂商与存储芯片厂商之间的关系正在变得更加重要。
一位存储芯片产业链人士今年2月末对《财经》表示，半导体行业高度重视长期信任关系。这种关系往往是通过高层互访与深度交流建立的。这类会面不仅是礼节，更关系到未来供应链合作、产能优先级，甚至是长期协同的稳定性。
既然高利润且缺货，存储芯片厂商为何不建厂扩产？因为扩产风险极高。
存储芯片行业长期具有强周期性，价格波动剧烈。厂商对扩产的态度非常谨慎。存储芯片厂商会要求下游客户签订长期供货协议，以锁定需求才能扩产。
长期以来，存储芯片市场总是沿着“价格上涨-企业扩产-供给过剩-价格下跌-产能出清-供给短缺-价格再涨”周期循环。
一般来说，存储芯片的扩产需经历设备采购、厂房建设、工艺调试、良率爬坡等环节，周期长达18个至36个月。上一轮存储周期始自2021年左右，当时全球缺芯潮推动存储芯片厂商大规模扩产，2023年产能集中释放后，叠加下游需求疲软，引发存储芯片价格持续下跌。
基于以上原因，即使这一轮算力需求大爆发，存储芯片厂商也不敢随意扩张。
这甚至已经发展到了极端情况。存储芯片供货原本随季节波动，但游戏规则正在被打破。美光科技在2026年3月的财报电话会披露，它与特定客户签署了三年至五年不等的多年供货协议。
蓉和半导体咨询CEO（首席执行官）吴梓豪曾是台积电厂务工程师，负责过国内多个晶圆厂的建设。他对《财经》表示，存储芯片每次周期都很猛，一直有“三年不开张，开张吃三年”的说法。目前，高端存储产品出现结构性供应失衡，加上数据中心存储需求一直在扩大，这一波高点可能会持续至2027年全年。
除了存储芯片缺货，另一个“反直觉”的现象是，先进制程的高性能CPU也缺货。
过去三年，GPU一直被视为最核心的算力资源。CPU地位甚至一度被削弱。但随着Agent爆发，CPU重要性在提升。GPU越强，CPU甚至越重要。
Agent工作时，不仅需要GPU负责推理计算，也需要CPU处理复杂的任务编排、工具调用和逻辑判断。Agent要频繁在模型、工具中切换，CPU通信带宽和单核性能也更重要了。
英特尔CEO陈立武在今年4月财报电话会中称，随着AI工作负载重心从训练转向推理，服务器中的CPU和GPU配比正在逐渐从1∶8变成1∶2至1∶1转变，CPU需求正在激增。
Arm公司CEO雷内哈斯（Rene Haas）3月在Arm AGI CPU发布会表示，随着Agent普及，每GW算力所需CPU核心，可能会从过去的3000万提升至约1.2亿，增长约4倍。
美国投资银行KeyBanc今年1月研报称，英特尔、AMD2026年服务器CPU产能已售罄。为了应对供需失衡，两家巨头考虑2026年一季度将服务器CPU平均售价提高10%-15%。
某知名中国算力服务商高管今年5月向《财经》证实，国内大部分品类的服务器CPU已涨价约20%，但暂时没有大规模缺货。他认为本轮服务器CPU供不应求的状况不会像存储芯片那么极端，所在公司目前也还没有囤货打算。
一位资深芯片贸易商表示，深圳华强北炒得比较多的服务器CPU主要是英特尔至强处理器6767P处理器。年初大概4万元每卡，目前公开报价为13万元-17万元。
如果说HBM决定GPU内部的数据吞吐能力，GPU和CPU决定单台服务器的计算与调度能力，那么网络决定的是成千上万台服务器之间能否高效协同。随着万卡、10万卡算力集群的扩张，包括光模块、铜模块等在内的零部件也在成为卡住算力供应链的重要因素。
万卡、10万卡算力集群，并不是简单把更多GPU堆在一起。集群规模越大，芯片和机柜之间的数据传输压力就越大。
光模块是数据中心集群间，甚至是服务器机柜间的重要连接部件之一，它包括光接口、光纤等。随着算力集群从万卡走向10万卡，数据中心间的数据传输速率正在从400G向800G、1.6T（G、T都是数据中心网络传输速率单位，代表单位时间内可传输的数据量）升级。这带动了光模块的需求。
光模块，这个看起来不起眼的零部件如今同样面临缺口。国际管理咨询机构麦肯锡2025年7月预估，800G的光收发器产量预计到2027年仍比需求低40%-60%。光模块背后，新易盛、中际旭创、天孚通信三家中国公司是核心供应商。这三家公司2025年营收增速均超过50%，近一年（2025年5月18日-2026年5月18日）市值均上涨超过600%。
2026年的算力短缺与过去不同。它不是某一个零部件缺货，实际上是芯片、存储、封装、网络和数据中心建设等多个瓶颈共同决定的。
算力短缺引发涨价潮
“以前200万能买八台GPU服务器，现在只够买四五台，服务器厂商宁愿毁约不交货”
算力产业链中，任何一个核心零部件缺货，最终都会导致涨价，而且是通过芯片、服务器、数据中心、云、模型和AI应用，一层层向下传导。需求增长越快，传导就越明显。
价格传导最先发生在HBM、GPU、CPU等为主的服务器等硬件市场。
上游产能不够，服务器厂商不得不和英伟达、英特尔、AMD等芯片厂商，SK海力士、三星半导体、美光科技等上游厂商签订长期协议（Long Term Contract）提前锁定产能。
一位中国头部ICT厂商CEO今年5月在一场小规模沟通中对《财经》表示，在供不应求的背景下，上下游的关系也在发生变化。过去几年，更多是上游供应商主动拜访他们。但2026年，他已经主动前往美国、韩国、中国台湾等地区拜访SK海力士、三星半导体、英特尔、AMD等核心供应商。
然而，即使签订长期协议，上游厂商的产能依然无法满足所有需求。他和他的同行必须去现货市场“扫货”——也就是从市场上那些有货的人手中收购几台或几十台服务器，逐渐聚拢货源。
部分厂商甚至为此准备了数十亿元级别的现金流，以便迅速完成采购。上述中国头部ICT厂商CEO透露，他们的策略是尽可能扫光市面上的货。因为他判断2027年中前算力市场都会供不应求，“拿到货后，第一天测试，第三天给钱。全部给现金。”
新智惠想是一家AI基础设施创业公司，为企业客户提供软硬件一体化产品和服务。该公司创始人吴健对《财经》表示，现在企业都是派人带着现金到各地芯片贸易商的库房里去抢货。抢到了就直接打现金，然后赶紧发走，后续再走合同。
供不应求也开始改变原有的合同与价格体系。由于HBM、GPU等关键零部件价格大幅上涨，毁约、重新谈判等现象开始屡见不鲜。
过去一年，部分高端存储产品价格出现数倍上涨。一些服务器厂商此前签订的项目合同已无法覆盖当前采购成本。一位地方国资企业人士对《财经》表示，“以前200万元能买八台GPU服务器，现在只够买四五台，服务器厂商宁愿毁约不交货。”
上述ICT厂商CEO对《财经》表示，由于HBM、GPU等核心零部件价格短期暴涨，他们此前签订的部分长期合同已经出现严重倒挂，“去年到今年，64G内存价格涨了10倍。我们签下的合同，如果按原价卖会赔本”。
张宇林是深圳华强北一位服务器内存芯片贸易商，在这行深耕26年。他向《财经》表示，现货市场的临时毁约很常见。有时双方谈好价格并付款后，仍可能被告知无法全部交付。张宇林也承认，自己曾经临时取消过几单下游客户订单，“因为我的上游也临时取消了供货，但是这些客户大多仍会继续让我帮他们找货”。
硬件市场的短缺和涨价也在逐渐传导到云计算市场。
GPU、HBM等硬件是云厂商数据中心中最核心的资产。硬件上涨，意味着云厂商每新买一台服务器的资本支出都在增加。亚马逊、微软、谷歌管理层在最新财报电话会议中均表示，2026年上调资本支出，核心目的是应对上游供应链涨价。
这些成本最终要摊到云厂商的每张卡、每个Token上。
过去20年，云计算行业一直在降价。2006年亚马逊AWS成立至今经历了超过100次降价，阿里云2009年诞生后每一年至两年都会进行一轮降价。算力越来越便宜，一直是科技行业默认的技术趋势。
但2026年，云厂商也不得不面对成本压力——今年1月，亚马逊AWS上调其EC2机器学习计算实例价格约15%。今年3月，阿里云公告称，因全球AI需求爆发及供应链成本上涨，AI算力、存储等产品将上调价格，涨幅最高达34%。
多位云计算销售人士对《财经》表示，2026年的云市场已经是卖方市场。过去客户采购云资源，通常还能比价、压价、等待促销。但现在采购AI算力不仅有配额，还要排队。这是过去三四年从未出现过的现象。
国际半导体市场调研与咨询机构SemiAnalysis数据显示，2022年3月发布的英伟达H100芯片，在云上单卡一年期合约的租赁价格从2024年5月-2025年10月一直在下滑。最低一度到1.7美元/卡时。但2025年10月-2026年3月之后，H100租赁价格一直在上涨，3月价格已经上涨至2.4美元/卡时。
一位亚马逊AWS一线销售人士今年4月对《财经》证实，SemiAnalysis记录的价格趋势，和他们为中国客户销售的北美云资源实际价格基本一致。
在这种情况下，云厂商正在思考如何把有限的算力转化成更多高毛利的产品。
一位中国云厂商大模型平台负责人今年5月对《财经》直言，“卖GPU硬件不如卖云，卖云不如卖Token。”因为卖GPU硬件是一次性硬件收入，卖云是销售卡/时，但按Token销售算力，可以把算力颗粒度拆得更细，卖给更多客户。他证实，他们销售的Coding Plan（可理解成Token套餐）比传统云资源有更高的毛利率。
云厂商的算力成本还在进一步往下游传导——模型公司和应用公司是下一环节的承受者。
智谱GLM系列模型的Token价格在2026年价格上涨了三次。今年2月Coding Plan（可理解成Token套餐）价格上涨30%，3月GLM-5-Turbo旗舰模型API价格上调20%，4月智谱GLM Coding Plan海外版三款模型的价格全线分别上涨80%-150%。即使如此，智谱官网的Coding Plan仍然每天需要抢购且很快售罄。
今年5月初，字节跳动旗下AI应用豆包在苹果App Store宣布将会推出付费订阅服务。其中包括标准版（68元/月）、加强版（200元/月）、专业版（500元/月）三档。不过，这一计划尚未正式落地。豆包目前暂时未披露订阅服务中的权益细节。
豆包尝试收费一度在互联网上引发广泛讨论，但这是算力全线涨价下的正常商业行为。过去，豆包单纯的AI对话所需Token有限。豆包逐渐引入编程、视频生成、PPT生成等一系列复杂Agent功能，都对应着真实算力成本。
算力涨价从芯片沿着云、模型、Token和应用，一层层传导到最终用户。过去，互联网应用的边际成本接近于零。但AI应用不同，它的每一次生成、每一次推理、每一次Agent任务，背后都对应着真实的算力成本。
算力蛋糕如何重新分配
所有厂商都在等一件事——企业和用户的算力需求产生价值，带动整个产业链形成正循环
目前的情况是，英伟达一家公司遥遥领先，它的利润空间还在快速扩大。云计算和存储芯片公司则是占据着第二梯队，它们也能够在这种情况仍然取得更高的利润。
源头的台积电几乎垄断着先进代工和封装能力，限制着HBM、GPU乃至CPU的生产能力。无论产业链如何波动，它都能掌握着稳定的利润。2025年，台积电营业利润207亿美元。
上游的英伟达占据GPU市场的主导地位。SK海力士、三星半导体、美光科技控制着HBM市场的主导权。这四家公司拥有整个产业链中最强的利润能力。其中英伟达2025年营业利润1304亿美元，三家存储芯片公司合计587亿美元。
中游的服务器厂商（包括工业富联、戴尔、HPE、超微、浪潮、联想、新华三等），虽然直接受益于服务器需求增长，但由于议价能力不够强，它们更多承担系统集成和分销交付的角色，利润空间相对有限。七家服务器厂商2025年营业利润合计165亿美元。
同在中游的云计算厂商（包括亚马逊AWS、微软Azure、谷歌GCP、阿里云等）掌握着算力分发能力。云厂商虽然承担上游硬件涨价压力，但它们可以提升算力效率，按Token售卖算力，甚至还可以通过自研芯片、自研模型降低每个Token的成本。因此，它们也能抵御产业链波动，取得收入和利润增长。四家云厂商2025年营业利润合计1119亿美元。
下游的大模型厂商（美国市场包括OpenAI和Anthropic等，中国市场包括智谱和MiniMax等），它们虽然拥有最直接的用户入口与最快增长的Token调用量，却也承担着最沉重的推理成本。目前无论是美国市场的OpenAI、Anthropic，中国市场的智谱、MiniMax都仍在亏损。中美四家大模型厂商2025年合计亏损超过140亿美元。
最末端的开发者、企业客户、普通用户则是需要承担算力涨价带来的直接压力。
看起来这个产业结构似乎并不健康。上游芯片公司、存储厂商、云厂商吃掉了大部分的利润，下游的模型公司、应用公司乃至企业客户、普通用户并未得到可见的利润。但算力产业链的蛋糕分配并不是简单的“零和博弈”。所有人都在等一件事——企业和用户的算力需求产生价值，带动整个产业链形成正循环。
事实上，这次算力短缺并不是简单的供应链危机。它更像是AI产业飞轮启动前的信号。
2026年，这个趋势已经初见端倪。国际市场调研机构IDC今年5月预测，2026年中国Token调用次数将达到40000万亿次，较2025年增长20倍。
2023年-2025年，AI更多停留在聊天和问答场景，Token能够创造的价值有限。但随着2025年末大模型Coding能力（代码生成）跨越临界点，越来越多没有代码基础的普通人、企业内更多不懂IT的业务人员都在成为云的直接用户。他们给Agent下任务时，Agent会自动Coding操作电脑、编写应用并消耗Token，并产生真实业务价值。
阿里公共云事业部总裁刘伟光2025年拜访了140多家企业客户。当时，Token在大部分客户IT支出中的占比不到1%。互联网、金融、零售、制造等企业都是如此。
但2026年市场剧烈变化。刘伟光粗略估算，一些AI创业公司的Token支出开始占其IT总支出的100%。互联网公司Token支出占比普遍达到15%-20%，其他步伐相对更慢的企业则仍在5%以下。
刘伟光发现四川、河南某些畜牧类企业也在拥抱大模型。大模型降低了他们使用AI的门槛。大量原本没上云的企业在上云，很多企业不仅IT预算投向AI，业务预算也在投向AI。这在过去无法想象。
刘伟光今年5月在一场小规模沟通中对《财经》表示，“在云这个产业经营太久后，每一个人，包括我自己，都会有一些思维惯性。”
阿里云的销售团队过去有清晰的“作战地图”。他们不仅清楚客户人群，还会根据企业客户的IT预算结构反推能够实现的销售目标。刘伟光认为，这些都是“看得见答案”的生意。但在今天这种剧变的环境中，“作战地图”是看不见的。因为，伴随模型能力跃升、Agent不断普及，算力正在被更多原本不使用云和AI的企业、用户使用。
每一轮技术变革，都会让技术的使用门槛变低。产业变革也会在这个过程中涌现——一批创新企业会因此诞生，它们会创造新的市场蛋糕。（报道详见《中国算力，以何强壮？》）
2025年12月，一位长期从事信息化产业政策研究的产业资深人士曾对《财经》表示，他关注的是，中国在AI时代，能否像移动互联网时代一样，诞生一批创新企业。他当时对此更多的是担忧。因为当时中国市场并未出现足够多真正具备全球影响力的AI创业公司。
但2026年，中国市场很快进入新的阶段。月之暗面、智谱、MiniMax等一批大模型创业公司的模型迅速在全球开发者市场产生影响力，国内市场一批Agent工具也在批量涌现。
野村中国科技及电讯行业分析师段冰今年4月在一场小规模交流中对《财经》表示，随着基础模型能力提升、基础设施持续投入以及上层应用逐渐成熟，中国AI产业链正在逐渐形成良性循环。这会驱动AI产业链的持续增长，给产业界、投资界带来更多机会。
不过，这还只是开始。算力需要被真实应用、持续使用，并最终形成可验证、可持续的商业回报。市场蛋糕在这个过程中才会真正被做大。

标签：算力厂商模型市场公司芯片企业中国 服务器 全球科技 半导体 存储芯片 涨价 产业链 财经 数据中心 客户核心价格单位产业利润消耗成本台积豆包财报国际 供应链 资源

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

数日排查缩至5分钟！这家芯片公司靠RapidTDAS破解低良管控

与亚马逊、阿里等巨头同场亮相，全球跨交会见证Ulike光学美肤出海硬实力

52岁字节女员工晒退休vlog，“堪称互联网活化石了”

比亚迪腾势Z赛道版超跑将赴纽北赛道冲击纪录

算力里程碑！中科曙光宣布国内首个全国产十万卡AI超集群曙光8000投用

白色版苹果iPhone Ultra折叠手机机模再次曝光

全站最新

数日排查缩至5分钟！这家芯片公司靠RapidTDAS破解低良管控

与亚马逊、阿里等巨头同场亮相，全球跨交会见证Ulike光学美肤出海硬实力

52岁字节女员工晒退休vlog，“堪称互联网活化石了”

比亚迪腾势Z赛道版超跑将赴纽北赛道冲击纪录

热门推荐

特斯拉Optimus Gen 3迈向量产关键期，马斯克下“最后通牒”：年底产能不达标或裁采购团队

中国无人机DJI EV50飞越珠峰8861米，核心技术助力科考与低空经济新突破

宝马集团：Q2全球交付590962辆，同比下降4.9%

数日排查缩至5分钟！这家芯片公司靠RapidTDAS破解低良管控

与亚马逊、阿里等巨头同场亮相，全球跨交会见证Ulike光学美肤出海硬实力

52岁字节女员工晒退休vlog，“堪称互联网活化石了”

比亚迪腾势Z赛道版超跑将赴纽北赛道冲击纪录

算力里程碑！中科曙光宣布国内首个全国产十万卡AI超集群曙光8000投用

白色版苹果iPhone Ultra折叠手机机模再次曝光

整车38.28-42.28万/租电27.48-31.48万元起，蔚来ES8大五座版交付

理想i9纯电SUV申报图公布：轴距3168mm，总质量3.3吨

新款特斯拉Model Y完成申报预计为性能版

小米澎程首款SUV N90/N70通过工信部申报，含露营版/三排七座版

宇树物理AI UNIBOT世界挑战赛启动：32项桌面操作任务评测泛化能力

小红书开启全员黑客松，一等奖50万