AI推理如何创造新的内存需求

IP属地中国·北京 华尔街见闻官方 时间：2026-06-15 20:13:40

AI推理时代的到来，正在从根本上重塑半导体存储行业的需求格局。随着每个问题的平均输出Token数量以每年超过5倍的速度激增，KV缓存管理与智能体AI部署所带来的内存需求，已成为AI基础设施中最具挑战性、也最具市场潜力的新兴领域。
在2026年6月举行的GTC台北大会上，英伟达创始人兼首席执行官黄仁勋明确指出，"AI的内存系统将彻底变革存储系统"，并将内存系统列为AI基础设施中最具挑战性的部分之一。这一判断直接指向两个结构性需求驱动力：一是推理工作负载催生的KV缓存卸载需求，二是智能体AI（Agentic AI）兴起带来的CPU内存需求扩张。
上述趋势对存储产业链的影响已开始显现。英伟达相继推出Dynamo软件平台与CMX上下文内存存储平台，Arm、Intel、AMD等主要芯片厂商亦在2026年密集发布面向智能体AI的新一代CPU产品，行业正加速从以吞吐量为导向的架构向以低延迟为导向的架构转型。
推理侧扩展：Token爆炸式增长重塑硬件需求
AI推理阶段对硬件的要求与训练阶段存在本质差异。
根据英伟达公开数据，自2024年下半年以来，每个问题的平均输出Token数量以每年超过5倍的速度激增，目前已达约30,000至40,000个Token。这一趋势表明，行业已进入英伟达"三大缩放定律"中的推理侧扩展"思考"阶段（Test-time Scaling）。
据TrendForce分析，AI推理对硬件提出三项核心需求：更高的每秒查询率（QPS）、更长的上下文窗口，以及更多的推理步骤和智能体循环。这三项需求分别从不同维度驱动内存需求的结构性变化，具体体现在模型权重、KV缓存与智能体AI三个层面。
模型权重属于静态内存分配，其占用量与模型参数规模直接挂钩，计算公式为：模型权重总大小 = 参数量 × 每个参数的字节数。随着模型规模持续扩大，这一静态占用构成了推理系统内存需求的基础底座。
KV缓存：动态膨胀催生卸载技术与SSD POD新市场
KV缓存是推理阶段内存压力的核心来源。
KV缓存存储推理预填充阶段生成的键值向量，以避免解码阶段的冗余计算，属于动态内存分配。其总大小由层数、KV头数、每个头的维度、序列长度、批处理大小及精度共同决定，随对话长度和批处理规模的增长呈非线性膨胀。

在长上下文、高批处理的推理场景下，当GPU的HBM容量不足时，系统将被迫丢弃KV缓存并重新执行预填充计算，导致延迟上升、总拥有成本（TCO）增加。
为解决这一瓶颈，英伟达于2025年3月发布KV缓存卸载软件Dynamo，将访问频率较低的KV缓存卸载至CPU内存和SSD等容量更大、成本更低的存储层级，确保数据在解码阶段保持可重用性。
与Dynamo配套，英伟达于2026年1月推出CMX上下文内存存储平台（CMX Context Memory Storage Platform），由BlueField-4 DPU管理，基于BlueField-4 STX机架构建，采用64颗BlueField-4 DPU管理每机架约9,600 TB的容量，在本地SSD（G3层）与共享存储（G4层）之间新增G3.5层级的Pod级上下文存储层。

值得关注的是，在COMPUTEX 2026上展示的BlueField-4 DPU结构模型中，已配备SK海力士的PEB210 E1.S和PE9010 M.2 SSD样品。随着英伟达、谷歌等厂商相继推出SSD POD平台，这一细分市场的需求预计将持续攀升。
智能体AI：CPU与GPU比例向1:1重构，LPDRAM需求随之扩张
智能体AI的规模化部署，正在引发AI服务器架构的另一场深层变革。
在AI智能体工作流中，模型需主动执行规划、工具调用、决策及代理操作，所有编排、数据路由与子智能体评估任务均由CPU承担。黄仁勋指出，智能体生活在纳秒级的世界中，超低延迟是首要需求，这使得CPU架构的重要性大幅提升。
TrendForce预计，随着智能体AI部署规模扩大，CPU与GPU的工作负载比例将从传统的1:4或1:8向约1:1转变，为CPU市场创造显著增量空间，并同步带动CPU内存需求的结构性增长。
英伟达于2026年推出专为智能体AI工作负载设计的Vera CPU，根据原始规格，Vera支持高达1.5 TB的LPDDR5X内存容量，是上一代Grace CPU的三倍。
不过，TrendForce最新调查显示，英伟达已决定将下一代Vera Rubin超级芯片模块的SOCAMM内存容量减半，原因在于供应商2027年初步生产计划中分配给英伟达的LPDRAM产能不足，这一调整并不反映英伟达整体内存需求的下降。
在更广泛的CPU市场，2026年正成为面向智能体AI的全面产品换代之年。Intel推出Xeon 6+（Clearwater Forest），AMD发布EPYC Venice，Arm推出Arm AGI CPU，Ampere的AmpereOne MX亦预计于年内进入量产。多路竞争格局的形成，将进一步加速CPU内存需求的释放。
两大驱动力共振，存储产业链迎来结构性机遇
综合来看，AI推理正在从两个相互独立却协同共振的维度重塑内存需求版图。
其一，推理工作负载驱动KV缓存消耗迅速扩大，KV缓存卸载技术将大量数据引流至CPU内存和SSD POD，随着相关平台加速落地，这一细分市场的需求可见度持续提升。
其二，智能体AI正将CPU与GPU的工作负载比例推向1:1，为CPU及其配套LPDRAM创造了此前不曾有过的增量市场空间。
对于存储产业链的投资者而言，上述趋势意味着HBM之外，企业级SSD、LPDRAM及相关DPU配套存储产品正在成为AI基础设施投资的新焦点。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

大厂开价1300万挖图灵奖得主弟子，对方要价2500万；无人车公司拖欠巨额FA费用，CEO被喷忘恩负义；大厂AI负责人被业务部门抢卡丨AI情报局

谁来给阿里Agent扛旗？

路转粉！雷军武汉街头坐小板凳过早，松弛感拉满

我国实现硅基量子芯片关键材料量产，AI独立完成首个重大发现，马斯克成为首个万亿富翁

理想CEO李想：今天的智能手机和智能汽车不是真的智能还是功能驱动

头部应用撑起天际线之后，鸿蒙还需要什么？

全站最新

大厂开价1300万挖图灵奖得主弟子，对方要价2500万；无人车公司拖欠巨额FA费用，CEO被喷忘恩负义；大厂AI负责人被业务部门抢卡丨AI情报局

谁来给阿里Agent扛旗？

路转粉！雷军武汉街头坐小板凳过早，松弛感拉满

我国实现硅基量子芯片关键材料量产，AI独立完成首个重大发现，马斯克成为首个万亿富翁

热门推荐

曝小红书计划本月底秘密提交香港IPO申请，估值曾达310亿美元

大厂开价1300万挖图灵奖得主弟子，对方要价2500万；无人车公司拖欠巨额FA费用，CEO被喷忘恩负义；大厂AI负责人被业务部门抢卡丨AI情报局

谁来给阿里Agent扛旗？

路转粉！雷军武汉街头坐小板凳过早，松弛感拉满

我国实现硅基量子芯片关键材料量产，AI独立完成首个重大发现，马斯克成为首个万亿富翁

理想CEO李想：今天的智能手机和智能汽车不是真的智能还是功能驱动

头部应用撑起天际线之后，鸿蒙还需要什么？

90%的人都用错了！实测这个AI一键生成PPT，彻底解放双手

特斯拉副总裁：不仅做“更快”的AI，而且做“更聪明”且“更安全”的AI

2026第二届华贸AI科技艺术节启幕未来引力场引爆CBD

长安凯程试水，皮卡或转向“移动能源平台”

「愧疚」已经挡不住李斌和乐道冲量的心了

电动自行车换电改装暗地坐大，“模糊”是一种危险的妥协 | 封面评论

出海再提速，零跑C10汽车已于马来西亚启动本地化组装生产

小绿书 VS 小红书：一场生死战，不是选择题