当前位置: 首页 » 资讯 » 科技头条 » 正文

从炫技到务实,超节点的祛魅时刻

IP属地 中国·北京 脑极体 时间:2025-12-03 18:22:36



DeepSeek、通义千问、Kimi-K2等深度思考的大模型,大家应该都用过。用户对AI越来越上头,企业IT对算力保障的焦虑也在加剧。过去跑个小模型,8张GPU的服务器还能应付,可带不动DeepSeek这种上百个专家、毫秒级响应的MoE架构推理模型。

超节点,就是在这一背景下,火起来的。

传统单台8卡服务器,无法满足当下大模型训推的算力需求。由英伟达率先提出的超节点技术,通过内部高速互联,把数十甚至上百个AI计算芯片,集中整合到一个架构内,打造出基于Scale-up的新型架构,以此实现算力的量级跃升。核心优势可以用一个字概括:省。



省钱,超节点通过内部高速互联,每张卡都能满负荷运行,避免传统多机柜间的算力闲置空转,GPU卡和电费就不会浪费了;

省地,以前跑大模型得把多个机柜拼起来,占满半个机房,现在一台超节点就能扛起AI训推任务,物理空间占用更小了;

省事,超节点把硬件、互联、管理系统全集成好了,企业接入就能跑大模型,AI部署更快,而传统多台服务器要单独调试、搭建网络、解决散热,一套流程下来,没半年搞不定……

有不少CIO或IT从业者十分困惑,超节点能帮我们用AI更省,可怎么还是买不着、用不起呢?有一种“出发点很好,但就是出发不了”的无力感。



的确,目前真正用得上、用得起超节点的行业和企业,并不是很多。

原因比较复杂,比如高端N卡断供,国产GPU规模出货量受限等。其中,有一个因素容易被忽视,那就是超节点让AI更省的核心逻辑,似乎正在跑偏。

在超节点的新闻里,常能看到千卡、单柜X百卡等参数互相碾压,媒体追捧超节点的新纪录,围观群众也默认,规模越大卡越多的超节点就越先进。

但对大多数企业来说,真的需要这么大的算力巨兽吗?斥巨资买回数百卡的超节点,能靠AI赚回本吗?这些问题,已经到了必须回答的时刻。



不可否认,数百卡,甚至上千卡的超节点,是国产智算技术进步的证明。但大家有没有想过,我们给手机充电,会关心发电厂的规模有多大,是核电厂还是水电厂吗?只会在乎插上有没有电,电压是否适配,电流是否稳定,会不会把手机烧坏,这些实用层面的问题。

同样的道理,企业部署超节点,除了集成多少卡,也要考虑到实际应用中的隐性成本:

一是故障率升高带来的中断损失。

超节点规模越大,内部光模块、交换机、电源节点就越多,比如某300多卡的超节点架构,就涉及近6900个光模块和100台左右交换机。而在高密度部署场景中,任一环节故障,都可能导致整个训练任务中断。对AI大模型训练来说,故障意味着要从checkpoint检查点重新加载模型、重启训练,浪费数天时间和高额电费。

对企业来说,不中断、不重训,比多几张卡更加重要。



二是GPU闲置导致的每Token成本过高。

业内已有共识,超节点规模存在“甜点”,超过甜点后,继续增加超节点规模,性能提升有限但成本显著上升。有模拟数据显示,十万亿参数模型,甜点大概在32-64卡。也就是说,盲目追求上百张卡的超大规模,算力利用率也许并不高,GPU大部分时间是在闲置。比如说,DeepSeek官方论文给的参考方案,Decode阶段需用144张H800,如果超节点使用的国产卡算力是H800的1/3,那么在PD分离场景下,48卡甚至32卡才是更优选择。

三是运维复杂度提升导致的总体TCO成本增加。

高集成度的超节点产品,对运维团队的专业能力要求极高,一旦规模增大,内部故障点也会随之增多,小团队很难靠自己处理。比如英伟达早期就曾尝试过二层架构超节点,将交换机集成到单机内以扩大规模,但企业客户更倾向于选择单层架构,核心就是为了降低故障点、减少运维难度。英伟达256卡超节点也由于TCO总拥有成本太高,而互联网企业客户对TCO很重视,未能成功商业化。

所以,超节点并不是规模越大卡越多就越好。企业需要的是能解决算力问题,且ROI投资回报率最优的IT基础设施。超节点技术的发展,要回归让企业用AI更省的出发点,与企业AI业务相适配的方案才是最优解。



既然堆卡不是出路,那么如何才能让超节点真正成为企业的省钱利器?产业界已经给出了答案:回归理性,追求规模与需求的适配,并通过开放生态降低综合成本。

一方面,越来越多的厂商将目光投向32卡、64卡这样的更合身的规模。

如前所说,超过性能-成本甜点区之后,超节点的边际效益就会递减。因此,大量国产厂商聚焦在32-64卡的实用化设计,推出贴合企业需求的产品。比如新华三UniPoD S80000,实现了单机柜32/64卡高密部署等,让多数企业能够负担得起大模型训推开销。而且,新华三UniPoD S80000采用单层全互联架构,大幅降低了通信延迟和故障点,在MoE等主流模型场景下,更有助于保障业务连续性。刚好的规模与更高的可靠性,成为AI算力降本增效的关键。



(新华三超节点H3C UniPoD S80000)

另一方面,开放的硬件生态正在成为降低成本的新引擎。

随着国产芯片生态成熟,开放式架构支持多品牌国产加速卡,打破海外高端卡垄断,为用户提供了更多选择,从而降低企业的算力成本。这类开放式超节点,也成为算力普惠的关键。比如新华三超节点支持多品牌国产加速卡,兼容CUDA等主流软件生态,降低企业的供应链成本。

上述实践,有望助力超节点的普及,从头部企业的专属品,成为千行百业的普惠基础设施。



需要说明的是,数百卡、千卡超节点的研发,有其战略意义。这一技术路线,推动了光互联、液冷、高密度布线等底层技术的极限突破,是中国算力产业仰望星空的冲顶之路。

AI发展的速度总是超出预期,可能今天觉得32卡就够了,但明天DeepSeek的新模型,也许内含更多专家,超大规模的超节点或许可以带来更低的每token成本。所以,适当超前,把超节点规模进一步做大,可以给后续技术迭代留下一定的冗余。

但对于更广大的99%普通企业而言,需要的是脚踏实地的普惠之路。他们更迫切地希望,使用成本可控、稳定可靠的超节点产品,解决当下大模型落地的算力焦渴,支撑AI在生产力场景中落地。



所以堆卡炫技之外,这条更合身的普惠之路,同样势在必行,不可偏废。

未来行业发展的理想状态,是这两条路并行不悖。既有震撼世界的算力巨无霸,也有服务千行百业的普惠产品。企业无需关心超节点内部有多少卡,只要插上电,AI就能跑起来,也不用担心基础设施的账单出现天文数字。

实现这一目标,只能靠智算厂商急企业之所急,将可靠性、每token成本、TCO等指标,同步纳入超节点的研发技术路线图。别忘了,让企业用AI更省,才是超节点技术的核心价值,也是商业成功的前提。

声明:个人原创,仅供参考

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。