当前位置: 首页 » 资讯 » 科技头条 » 正文

全国运营商首个!华为联合湖北移动完成AI推理加速现网测试:Token吞吐率大增372%

IP属地 中国·北京 编辑:郑浩 快科技 时间:2026-06-26 08:05:49

快科技6月26日消息,据“华为数据存储”公众号消息,在2026 MWC上海展期间,华为与中国移动通信集团湖北有限公司(以下简称“湖北移动”)联合宣布,双方已成功完成全国运营商首个AI推理加速解决方案现网测试。

此次测试基于华为OceanStor A800存储与昇腾A3超节点架构,并搭载UCM(Unified Cache Manager,推理记忆数据管理)能力,在长序列AI推理场景下,实现Token吞吐率最高提升372%的突破性成果,为运营商智算业务的高效部署提供了重要技术支撑。

据介绍,本次测试在湖北移动现网环境中部署vLLM-Ascend框架,面向MiniMax M2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。

测试结果显示,在MiniMax M2.5模型场景下,启用UCM后,首Token延迟(TTFT)优化26%至62%,单NPU卡Token输出效率(TPS)也获得明显提升。

其中,在64K序列长度下,TPS提升58%;在128K序列长度下,TPS提升78%。

在GLM-5.1模型场景下,UCM带来的加速效果更加明显,TTFT优化幅度达到51%至93%,TPS提升56%至372%。

具体来看,在64K序列长度下,TPS提升313%;在128K序列环境下,TPS最高提升372%。

华为表示,测试结果表明,随着上下文长度不断增加,AI推理加速方案的优势将持续放大,有效解决了长序列推理中的KV Cache容量瓶颈。

对于运营商而言,这意味着在大模型推理、智能客服、内容生成、行业智能体等长序列AI业务场景中,现网智算资源有望获得更高利用效率,同时降低长上下文推理带来的性能压力。

标签: 华为 运营商 序列 场景 现网 湖北 全国 部署 智算 智能 业务 节点 方案 性能 责任编辑 内容 架构 优势 压力 科技 能力 模型 环境 长度 技术 框架 公众 客服 记忆 数据管理 成果 有限

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新