智谱联合清华等提出ZCube组网架构:大模型推理吞吐提升15%，网络成本削减三分之一

IP属地中国·北京 编辑：沈瑾瑜 Chinaz 时间：2026-05-21 12:37:02

大模型推理正在重新定义AI基础设施，网络架构创新成为释放硬件潜能的关键路径。2025年9月，智谱、驭驯网络与清华大学在网络领域顶级会议ACM SIGCOMM2025上发表了关于ZCube网络架构的研究成果。
2026年5月21日，智谱宣布该架构已在GLM-5.1coding生产环境中成功落地，实现了跨越式的性能调优。基准测试表明，在GPU、软件栈及应用保持不变的前提下，ZCube架构使交换机与光模块的资本支出减少33%，GPU平均推理吞吐提升15%，首Token时延（TTFT P99）降低40.6%，实现了兼顾高经济性与高性能的系统级突破。
当前，随着长上下文推理与Prefill-Decode（PD）分离部署成为行业主流，KV Cache的跨节点传输呈现出高度的不对称性。传统基于多层交换机堆叠的ROFT(Rail-Optimized Fat-Tree)架构因静态拓扑限制，极易引发局部热点与PFC反压，形成“总带宽宽裕、局部频繁拥塞”的结构性瓶颈。
针对这一痛点，ZCube架构打破了传统Clos架构的层次化堆叠思路，取消了Spine层交换机，采用完全扁平化的两组交换机进行二部图互联，并结合双端口网卡的单/多轨混合接入机制。配合特有的路由策略，ZCube能确保任意GPU对之间拥有独享的最优路径，从结构层面完美实现流量负载均衡，可支持数万张乃至数十万张GPU的超大规模扩展。
在生产环境改造中，驭驯网络团队利用自动化控制与校验工具，成功克服了布线和路由策略重构的挑战，保障了集群的快速平稳升级。目前该千卡集群已稳定运行两周以上。ZCube的成功落地标志着智算基础设施正从通用互联走向模型流量驱动的系统协同。未来，网络拓扑、通信库与调度策略的深度耦合，将成为进一步提升Token生产效率与降低MaaS综合成本的核心驱动力。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

微软Teams加强第三方AI智能体权限管理，需会议组织者确认后放行

互联网的meme危险了

工业互联网发展迎来新机遇（锐财经）

高考生填志愿前，都该读一遍DeepSeek的招聘帖

华为用户不寂寞！全国首个全场景开源鸿蒙养老院落地：支持无感监测、主动预警

关键考验明日来袭：三星Q2营利料狂飙17倍但AI支出前景暗藏风险

全站最新

微软Teams加强第三方AI智能体权限管理，需会议组织者确认后放行

互联网的meme危险了

工业互联网发展迎来新机遇（锐财经）

高考生填志愿前，都该读一遍DeepSeek的招聘帖

热门推荐

龙大转债涨停、股价涨9.7%，ST龙大启动庭外重组“找钱”

谷歌跳票之后终定档：Gemini 3.5 Pro七月硬刚DeepSeek V4，全新底座不再"挤牙膏"

全球首例AI智能体勒索攻击浮出水面：无需人类干预的自动化“作案”链条

微软Teams加强第三方AI智能体权限管理，需会议组织者确认后放行

互联网的meme危险了

工业互联网发展迎来新机遇（锐财经）

优必选99万机器人伴侣续航撑不过一晚？ “赛博伴侣”引爆争议

高考生填志愿前，都该读一遍DeepSeek的招聘帖

华为用户不寂寞！全国首个全场景开源鸿蒙养老院落地：支持无感监测、主动预警

关键考验明日来袭：三星Q2营利料狂飙17倍但AI支出前景暗藏风险

AI时代游戏主机还能抢占客厅吗？这家家电厂商押注了

Token支出指数暴跌近20%！AI“牛熊激辩”正围绕这张图展开？

2026量子计算迟到的狂欢：能拿订单、奔赴IPO、市值破百亿

“AI狂欢”末日将至？“大空头”发出警告

印度代工厂被黑，苹果最怕泄露的不是真机照片