缓解AI推理复杂任务资源瓶颈和性能挑战,华为新解来了。
华为数据存储产品线副总裁、闪存领域总裁谢黎明表示,金融行业在AI推理应用中面临三大核心挑战:一是长序列输入导致的“推不动”;二是并发上不去且每Token时延长造成的“推得慢”;三是耗费大量算力做KV重复计算…
更低的推理成本:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2…
论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。 当前,人工智能已步入发展深水区,AI推理正…
通过分级管理推理过程中产生的KV Cache记忆数据,UCM能够显著扩大推理上下文窗口,从而提升推理效率,降低每Token的推理成本。 周跃峰博士在演讲中强调,在AI时代,模型训练、推理效率与体验的量纲都以T…
该技术已率先在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中
10/31 16:58
10/31 16:56
10/31 16:55