当前位置: 首页 » 资讯 » 科技头条 » 正文

巨头双双下场:Meta与Oracle依托英伟达Spectrum以太网构筑AI超算

IP属地 中国·北京 DeepTech深科技 时间:2025-10-15 16:14:35

当前,大参数的AI模型仍然呈现出增长趋势,超大规模AI工厂的网络架构十分有必要从“连接管线”升级为决定整体效率的“中枢神经系统”。这一必要性的背后原因在于:首先,当数万乃至数百万GPU协同工作时,传统网络仿佛拥堵的普通公路,无法承受AI训练特有的“洪水般”的同步数据流,从而导致昂贵的算力被大量闲置。其次,对于AI任务来说它要求网络必须十分可靠,任何微小的延迟或拥塞都会拖慢训练过程,因此必须通过智能调度实现确定性的高速传输。再次,企业也需要基于以太网等开放标准来打破技术捆绑,只有这样才能灵活整合资源、实现自主优化以及实现跨数据中心的算力池化。在这种情况之下,只有实现网络升级才能释放万亿参数模型的潜力,从而将全球GPU资源转化为一台高效的“超级计算机”。

在大参数模型重构算力格局的背景之下,AI网络架构迎来新升级。近日,NVIDIA Spectrum-X以太网被升级为下一代AI数据中心神经网络进行使用,这意味着加速计算与开放网络的融合进入了新阶段,也意味NVIDIA正在通过较高的网络效率将全球算力资源编制成为一台前所未有的“超级计算机”。

Meta和Oracle在行动:将Spectrum-X以太网交换机标准化为开放型加速网络架构

据了解,Meta和Oracle正将Spectrum-X以太网交换机标准化为一种开放的加速网络架构。

Meta的Facebook开放交换系统(FBOSS,Facebook Open Switching System)是一款专为管理和控制大规模网络交换机而开发的软件平台,Meta将Spectrum以太网交换机集成到FBOSS这一网络基础设施中,二者的集成将提升训练更大规模的模型的效率和可预测性,为数十亿用户提供生成式AI服务。

Oracle则将构建一个十亿瓦级(Giga-Scale)的AI工厂,该工厂由NVIDIA Vera Rubin架构提供加速,并通过Spectrum-X以太网进行互连。通过采用Spectrum-X以太网网络,Oracle能以较高的效率实现数百万个GPU的互连,帮助客户更快速地训练和部署AI模型。



(资料图)

NVIDIA Spectrum-X以太网网络平台:首个专为AI打造的以太网网络平台

据介绍,NVIDIA Spectrum-X以太网网络平台专为万亿参数模型打造,它是由Spectrum-X以太网交换机和Spectrum-X以太网SuperNIC组成的业界首个专为AI打造的以太网网络平台,能够帮助企业以高效率和大规模实现数百万个GPU的互连。

当前,万亿参数模型和生成式AI正在重新定义数据中心的规模。Spectrum-X以太网网络持续拓展AI部署规模,保障了一些企业构建全球先进型AI基础设施所需的性能与可扩展性。

NVIDIA表示,Spectrum-X以太网网络展现出较高的效率,以优良的拥塞控制技术,助力全球最大的AI超级计算机实现了95%的数据吞吐量。相比之下,通用以太网在同样的规模部署中,则会发生大量流量冲突,导致吞吐量大幅降低。因此,这一跃升标志着面向AI的大规模网络在经济效益和性能方面实现了较大进展。

NVIDIA Spectrum-XGS以太网技术则是Spectrum-X以太网网络平台的一部分,可以实现跨区域扩展,能够将跨城市、跨国家乃至跨大陆的数据中心连接成超大规模的十亿瓦级(Giga-Scale)AI超级工厂。

Spectrum-X则为专门NVIDIA的全栈平台(包括 GPU、CPU、NVIDIA NVLink及软件)而构建,可以提供从计算到网络的无缝性能衔接。其先进的拥塞控制、动态路由以及AI驱动的遥测功能,可以确保大规模AI训练和推理集群的效率和可预测性。

NVIDIA创始人兼CEO黄仁勋表示:“万亿参数模型正在将数据中心转变为十亿瓦级(Giga-Scale)AI 工厂,Meta和Oracle等行业领导者正在将Spectrum-X以太网定义为推动这场产业变革的标准。Spectrum-X不仅是更快的以太网,更是AI工厂的神经系统,帮助超大规模企业将数百万个GPU连接到一起构建成一台巨型计算机,从而训练有史以来规模最大的模型。”

笔者认为,黄仁勋的论断勾勒出了当前AI算力发展的图景。他将数据中心称之为“十亿瓦级AI工厂”,展示了数据中心角色的根本性改变,即它不再只是存储信息和分发信息,而是能够像工业时代的发电厂一样,进行集中式的AI智力生产。同时,他指出Meta和Oracle正在将Spectrum-X以太网定义为推动这场产业变革的标准,这说明在超大规模AI集群的构建上,行业领导者们正在从各自为战的封闭方案,转向一个基于以太网的开放型网络架构。这种共识的逐渐形成,是产业走向更成熟和更大规模的关键一步,能够助力打破以往的极致性能往往依赖于封闭技术栈的瓶颈。而黄仁勋关于“Spectrum-X不仅是更快的以太网,更是AI工厂的神经系统”的阐述,则点明了此次升级的核心。假如仅仅提供高带宽就好比只是修了一条更宽的道路,但是无法解决AI训练中万亿参数同步所产生的全局性拥堵。所谓神经系统就意味着它必须具备智能能力,比如能够感知流量拥塞,再比如能够确保信号无损且准时达到,从而将数百万GPU的协同计算变得“纪律严明”。而这一切的最终目标便是黄仁勋所说的构建一台巨型计算机。如能建成,一个数据中心内的所有计算单元将能融为一体,从而能从根本上降低构建超大模型和使用超导模型的复杂度和成本,为解锁更具突破性的AI应用奠定算力基础。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。