智算集群的建设瓶颈,正在经历转移。
过去两年,行业还聚焦在算力规模上,仿佛谁拿到了更多GPU,谁就掌握了AI竞争的入场券。但当万卡集群逐渐落地,一个更隐蔽的瓶颈浮出水面:网络。
中科曙光高级副总裁李斌算了这样一笔账:“原来以CPU为中心的计算单元,双路的计算节点插一张网卡就够了;现在以GPU为中心的计算节点,一台机器要配八张甚至更多的网卡。”
由此算下来,如今网络的用量相比以往的数据中心,提高了十到二十倍。
数量膨胀背后,智算集群也对网络性能提出更苛刻的要求:
万卡集群的训练,需要网络时延在纳秒级内,且传输精度做到无损。而现实是,无论选择英伟达主导的IB(InfiniBand)路线,还是运维复杂的RoCE路线,国内用户都一定程度上“受制于人”。
![]()
正是这样的背景下,中科曙光历时三年推出国产原生IB架构高速网络产品scaleFabric,试图在智算网络的咽喉要道上,占据一席之地。
IB和RoCE,二分天下?
随着AI需求飙涨,行业已经逐渐发现,大规模计算系统的效率不等于系统的峰值算力,在集群实际运行中,接近一半的算力会被浪费掉。
也就是说,单卡算力再强,如果网络无法在规定时间内完成数据交换,大部分算力只能在等待中被浪费。MFU(模型算力利用率)的天花板,很大程度上是由网络决定的。
目前,万卡集群高速互联需求下,市场能满足的技术路线主要有两条:IB(InfiniBand)和RoCE(RDMA over Converged Ethernet)。前者是专为高性能计算设计的原生RDMA架构,后者则是基于以太网的RDMA技术方案。
过往,二者的场景和区别还比较泾渭分明:
IB性能卓越但价格昂贵,是超算和顶级AI集群的首选;RoCE成本较低,且互联网厂商在CPU云时代便以以太网为基础,成熟的运维体系也让他们在智算时代更倾向于继续沿用以太网路线。
然而,AI带来算力需求爆发的当下,随着智算集群规模从千卡迈向万卡甚至十万卡,RoCE的先天短板开始显现——
IB交换机采用VCT交换,可实现“边收边转”,交换时延可控制在300纳秒以内;而RoCE交换机则采用“存储-转发”交换,需完整接收数据包后再转发,时延普遍在500纳秒以上。
在流量控制机制上,IB采用基于信用的精细化流控,发送前会确认接收端资源,从根源避免丢包;RoCE依赖的PFC(Priority Flow Control)暂停机制则是粗粒度流控,容易出现丢包、PFC死锁或风暴,必须依赖拥塞控制且需人工调优水线。
尽管RoCE厂商在追赶IB的性能,但用户也已经在“用脚投票”。例如,在感受到IB的性能优势后,微软如今已开始将部分核心AI训练业务从以太转向了IB。
然而,对于国内智算用户而言,选择IB同样面临困境:
英伟达一家独大,采购价格高昂,且供货周期和产品迭代并不稳定。并且,英伟达在B300等最新芯片中已标配CX8网络模块,这意味着采购其芯片,往往就被强制绑定使用英伟达自家的IB网络产品。
面对性能较逊色的RoCE与高价垄断的IB,国产算力高速网络需要一条新出路。
国产IB的正式突围
中科曙光scaleFabric,试图打破这一僵局。
这是国内首款全栈自研原生IB架构高速网络产品:从底层的112G SerDes IP、交换芯片、网卡,到上层的交换机硬件和管理软件,全是自主研发产品,历时三年研发。
从公开的性能数据看,scaleFabric对标的是英伟达目前主流的NDR(指 400Gb/s InfiniBand 网络)产品。
性能层面,中国科学院计算技术研究所王展表示,通信层面上,曙光的产品基本上和英伟达在同一水平。其端到端通信时延在0.93微秒,交换机转发时延260纳秒,与英伟达NDR持平;单端口带宽达到800G,较RoCE主流交换机领先一到两代,整机交换容量64T;在典型AI训练任务中,实测网络效率提升40%以上。
可靠性层面,由于采用了原生IB的信用流控机制,scaleFabric实现了真无损网络,避免了RoCE方案中常见的PFC风暴风险。曙光透露,该产品已在近万卡规模的集群中持续稳定运行超过10个月。
当然,对用户而言,最敏感的变量依然是成本。曙光透露,在同等规模集群中,scaleFabric的整体网络成本较进口IB方案可降低约30%。
这一价格优势一旦被验证,RoCE赖以生存的“性价比护身符”将受到巨大冲击。
不过,这套国产IB产品的诞生也并非坦途。
中科曙光高速网络互联产品部总工程师万伟直言,研发中的第一个难点是链路技术:起初大家想买现成的IB方案,但是根本不符合要求,最后只能招团队从零做起。
其次,在目标设定上,团队并非简单对标英伟达IB,而是立志在关键规格上实现超越,这也带来了巨大的技术挑战。万伟感慨,所幸团队最终在国家的支持下得以攻克难关、取得成功。
李斌补充说,当前业界存在RoCE、ScaleOut、ScaleUP等多种技术路线,百花齐放,而曙光的选择是在原生RDMA架构基础上,为超大规模系统上的性能和扩展性做深度考量。
他对市场竞争格局有清醒的判断:“目前这个市场的主要玩家还是英伟达。我们对于产品的定位,是期待在IB的技术路线能实现技术上的国产化替代,实现业务上真正的市场占比替代。我们希望打破一家独大的局面,把整个技术做开放,市场的蛋糕大家共享。”
尽管英伟达的领先地位短期难以撼动,但国产IB的突破,已为智算网络自主之路点亮希望。
雷峰网雷峰网





京公网安备 11011402013531号