AI推理时代的到来,正在从根本上重塑半导体存储行业的需求格局。随着每个问题的平均输出Token数量以每年超过5倍的速度激增,KV缓存管理与智能体AI部署所带来的内存需求,已成为AI基础设施中最具挑战性、也最具市场潜力的新兴领域。
在2026年6月举行的GTC台北大会上,英伟达创始人兼首席执行官黄仁勋明确指出,"AI的内存系统将彻底变革存储系统",并将内存系统列为AI基础设施中最具挑战性的部分之一。这一判断直接指向两个结构性需求驱动力:一是推理工作负载催生的KV缓存卸载需求,二是智能体AI(Agentic AI)兴起带来的CPU内存需求扩张。
上述趋势对存储产业链的影响已开始显现。英伟达相继推出Dynamo软件平台与CMX上下文内存存储平台,Arm、Intel、AMD等主要芯片厂商亦在2026年密集发布面向智能体AI的新一代CPU产品,行业正加速从以吞吐量为导向的架构向以低延迟为导向的架构转型。
推理侧扩展:Token爆炸式增长重塑硬件需求
AI推理阶段对硬件的要求与训练阶段存在本质差异。
根据英伟达公开数据,自2024年下半年以来,每个问题的平均输出Token数量以每年超过5倍的速度激增,目前已达约30,000至40,000个Token。这一趋势表明,行业已进入英伟达"三大缩放定律"中的推理侧扩展"思考"阶段(Test-time Scaling)。
据TrendForce分析,AI推理对硬件提出三项核心需求:更高的每秒查询率(QPS)、更长的上下文窗口,以及更多的推理步骤和智能体循环。这三项需求分别从不同维度驱动内存需求的结构性变化,具体体现在模型权重、KV缓存与智能体AI三个层面。
模型权重属于静态内存分配,其占用量与模型参数规模直接挂钩,计算公式为:模型权重总大小 = 参数量 × 每个参数的字节数。随着模型规模持续扩大,这一静态占用构成了推理系统内存需求的基础底座。
KV缓存:动态膨胀催生卸载技术与SSD POD新市场
KV缓存是推理阶段内存压力的核心来源。
KV缓存存储推理预填充阶段生成的键值向量,以避免解码阶段的冗余计算,属于动态内存分配。其总大小由层数、KV头数、每个头的维度、序列长度、批处理大小及精度共同决定,随对话长度和批处理规模的增长呈非线性膨胀。
![]()
在长上下文、高批处理的推理场景下,当GPU的HBM容量不足时,系统将被迫丢弃KV缓存并重新执行预填充计算,导致延迟上升、总拥有成本(TCO)增加。
为解决这一瓶颈,英伟达于2025年3月发布KV缓存卸载软件Dynamo,将访问频率较低的KV缓存卸载至CPU内存和SSD等容量更大、成本更低的存储层级,确保数据在解码阶段保持可重用性。
与Dynamo配套,英伟达于2026年1月推出CMX上下文内存存储平台(CMX Context Memory Storage Platform),由BlueField-4 DPU管理,基于BlueField-4 STX机架构建,采用64颗BlueField-4 DPU管理每机架约9,600 TB的容量,在本地SSD(G3层)与共享存储(G4层)之间新增G3.5层级的Pod级上下文存储层。
![]()
值得关注的是,在COMPUTEX 2026上展示的BlueField-4 DPU结构模型中,已配备SK海力士的PEB210 E1.S和PE9010 M.2 SSD样品。随着英伟达、谷歌等厂商相继推出SSD POD平台,这一细分市场的需求预计将持续攀升。
智能体AI:CPU与GPU比例向1:1重构,LPDRAM需求随之扩张
智能体AI的规模化部署,正在引发AI服务器架构的另一场深层变革。
在AI智能体工作流中,模型需主动执行规划、工具调用、决策及代理操作,所有编排、数据路由与子智能体评估任务均由CPU承担。黄仁勋指出,智能体生活在纳秒级的世界中,超低延迟是首要需求,这使得CPU架构的重要性大幅提升。
TrendForce预计,随着智能体AI部署规模扩大,CPU与GPU的工作负载比例将从传统的1:4或1:8向约1:1转变,为CPU市场创造显著增量空间,并同步带动CPU内存需求的结构性增长。
英伟达于2026年推出专为智能体AI工作负载设计的Vera CPU,根据原始规格,Vera支持高达1.5 TB的LPDDR5X内存容量,是上一代Grace CPU的三倍。
不过,TrendForce最新调查显示,英伟达已决定将下一代Vera Rubin超级芯片模块的SOCAMM内存容量减半,原因在于供应商2027年初步生产计划中分配给英伟达的LPDRAM产能不足,这一调整并不反映英伟达整体内存需求的下降。
在更广泛的CPU市场,2026年正成为面向智能体AI的全面产品换代之年。Intel推出Xeon 6+(Clearwater Forest),AMD发布EPYC Venice,Arm推出Arm AGI CPU,Ampere的AmpereOne MX亦预计于年内进入量产。多路竞争格局的形成,将进一步加速CPU内存需求的释放。
两大驱动力共振,存储产业链迎来结构性机遇
综合来看,AI推理正在从两个相互独立却协同共振的维度重塑内存需求版图。
其一,推理工作负载驱动KV缓存消耗迅速扩大,KV缓存卸载技术将大量数据引流至CPU内存和SSD POD,随着相关平台加速落地,这一细分市场的需求可见度持续提升。
其二,智能体AI正将CPU与GPU的工作负载比例推向1:1,为CPU及其配套LPDRAM创造了此前不曾有过的增量市场空间。
对于存储产业链的投资者而言,上述趋势意味着HBM之外,企业级SSD、LPDRAM及相关DPU配套存储产品正在成为AI基础设施投资的新焦点。





京公网安备 11011402013531号