大模型推理正在重新定义AI基础设施,网络架构创新成为释放硬件潜能的关键路径。2025年9月,智谱、驭驯网络与清华大学在网络领域顶级会议ACM SIGCOMM2025上发表了关于ZCube网络架构的研究成果。
2026年5月21日,智谱宣布该架构已在GLM-5.1coding生产环境中成功落地,实现了跨越式的性能调优。基准测试表明,在GPU、软件栈及应用保持不变的前提下,ZCube架构使交换机与光模块的资本支出减少33%,GPU平均推理吞吐提升15%,首Token时延(TTFT P99)降低40.6%,实现了兼顾高经济性与高性能的系统级突破。
当前,随着长上下文推理与Prefill-Decode(PD)分离部署成为行业主流,KV Cache的跨节点传输呈现出高度的不对称性。传统基于多层交换机堆叠的ROFT(Rail-Optimized Fat-Tree)架构因静态拓扑限制,极易引发局部热点与PFC反压,形成“总带宽宽裕、局部频繁拥塞”的结构性瓶颈。
针对这一痛点,ZCube架构打破了传统Clos架构的层次化堆叠思路,取消了Spine层交换机,采用完全扁平化的两组交换机进行二部图互联,并结合双端口网卡的单/多轨混合接入机制。配合特有的路由策略,ZCube能确保任意GPU对之间拥有独享的最优路径,从结构层面完美实现流量负载均衡,可支持数万张乃至数十万张GPU的超大规模扩展。
在生产环境改造中,驭驯网络团队利用自动化控制与校验工具,成功克服了布线和路由策略重构的挑战,保障了集群的快速平稳升级。目前该千卡集群已稳定运行两周以上。ZCube的成功落地标志着智算基础设施正从通用互联走向模型流量驱动的系统协同。未来,网络拓扑、通信库与调度策略的深度耦合,将成为进一步提升Token生产效率与降低MaaS综合成本的核心驱动力。





京公网安备 11011402013531号