8月12日,华为将在 2025金融AI推理应用落地与发展论坛 上发布突破性 AI 推理创新技术 UCM(推理记忆数据管理器)。该技术有望降低中国 AI 推理对 HBM(高带宽内存)的依赖,并显著提升国内大模型推理性能。
UCM 以 KV Cache 为核心,融合多类型缓存加速算法工具,通过分级管理推理过程中产生的记忆数据,扩大上下文窗口,实现高吞吐、低时延的推理体验,并降低每 Token 的推理成本。这一方案可缓解 HBM 资源不足带来的任务卡顿与响应延迟问题。
在此次论坛上,华为将与中国银联共同发布 AI 推理最新应用成果。信通院、清华大学、科大讯飞等机构专家也将分享大模型推理加速与体验优化的实践。华为数据存储产品线副总裁樊杰表示,未来 AI 突破将高度依赖高质量行业数据的释放,高性能 AI 存储可将数据加载时间从小时级缩短至分钟级,使算力集群效率从30% 提升至60%。
业内分析认为,UCM 的推出正值 AI 产业从“追求模型能力极限”转向“追求推理体验最优化”的关键节点,推理体验已成为衡量 AI 商业价值的重要标准。长城证券指出,随着大模型能力持续提升与商业场景扩展,算力及产业链公司有望迎来新的发展机遇。