当前位置: 首页 » 资讯 » 科技头条 » 正文

国泰海通:打破内存墙限制 AI SSD迎来广阔成长空间

IP属地 中国·北京 智通财经 时间:2025-10-28 22:14:00

智通财经APP获悉,国泰海通证券发布研报称,针对大语言模型(LLM)发展中面临的“内存墙”难题,基于SSD的存储卸载技术方案可为AI模型高效运行提供新路径。AI创造的庞大数据量冲击全球数据中心存储设施,KV Cache缓存可从GPU内存offload至CPU、SSD。传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点,国泰海通证券给予电子行业“增持”评级。

国泰海通证券主要观点如下:

行业观点及投资建议。AI创造的庞大数据量冲击全球数据中心存储设施,KV Cache缓存可从GPU内存offload至CPU、SSD。传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点,给予行业“增持”评级。

推理KV Cache容量增长超出HBM承载能力。键值缓存(KV Cache)技术可以优化计算效率、减少重复运算,即将已生成token的Key和Value临时存储起来,后续生成新token时直接复用,无需重新计算,显著提升推理效率。然而,KV Cache需要占用GPU的显存(如HBM),存储历史Key/Value向量,生成的文本越长,缓存数据量越大,可能导致HBM和DRAM超载。面对大模型PB级的天量数据,传统推理架构过度依赖HBM的瓶颈也日益凸显。随着Agentic AI时代到来,模型规模化扩张、长序列需求激增以及推理任务并发量增长,推理的KV Cache容量增长已超出HBM的承载能力,频繁的内存溢出,需要GPU反复计算,造成卡顿迟缓。

KV Cache缓存可从GPU内存offload至CPU、SSD随着推理性能的重要性不断提升,业界均在探索KV Cache分级缓存管理技术。如英伟达今年5月推出了分布式推理服务框架Dynamo,支持将KV Cache缓存从GPU内存卸载到CPU、SSD甚至网络存储,解决大模型显存瓶颈,避免重复计算。其中,KVBM提供G1-G4(GPU memory、CPU host memory、SSD、远端存储)的KV Cache卸载,避免大量 KV Cache 重计算。2025开放数据中心大会之新技术与测试(存储)分论坛中,三星电子高级项目经理针对大语言模型(LLM)发展中面临的“内存墙”难题,提出基于SSD的存储卸载技术方案,为AI模型高效运行提供新路径。三星将KV Cache卸载至NVMe SSD。当KV Cache大小超过HBM或DRAM容量时,该方案可使首token延迟(TTFT)最高降低66%,token间延迟(ITL)最高降低42%,且支持多用户多轮对话场景下的KV Cache重用,随着用户与对话轮次增加,I/O吞吐量稳步上升,主要I/O模式为256KB读写。

AI存储需求激发HDD替代效应,NAND Flash供应商加速转进大容量Nearline SSD根据TrendForce集邦咨询,AI推理应用快速推升实时存取、高速处理海量数据的需求,促使HDD与SSD供应商积极扩大供给大容量存储产品。由于HDD市场正面临巨大供应缺口,激励NAND Flash业者加速技术转进,投入122TB、甚至245TB等超大容量Nearline SSD的生产。

风险提示:国产替代进程不及预期;技术迭代不及预期。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。