微软正在开启其AI基础设施的新篇章,通过连接跨越不同州份的庞大数据中心,构建起一个协同工作的分布式“AI超级工厂”。这一战略旨在以前所未有的规模和速度加速AI模型的训练,标志着行业为满足爆炸性算力需求而进行的竞争正从单点建设转向网络化布局。
据微软公司透露,其位于亚特兰大的新一代AI数据中心已于今年10月正式投入运营。这是微软“Fairwater”系列中的第二个设施,并已通过专用高速网络与此前在威斯康星州宣布投建的另一个数据中心实现连接。这意味着微软首个跨州协作的AI计算集群开始运作,能够将原本需要数月时间的复杂AI训练任务缩短至数周。
此举正值科技巨头间激烈的“AI军备竞赛”不断升温之际。据《华尔街日报》报道,微软计划在未来两年内将其数据中心总面积扩大一倍,以应对激增的算力需求。新的“AI超级工厂”网络不仅将支持OpenAI、微软自身的AI超级智能团队及Copilot等核心业务,还将为法国的Mistral AI和埃隆·马斯克的xAI等关键客户提供服务,凸显其在AI基础设施领域的核心地位。
这一庞大的建设计划背后是巨大的资本开支。微软在刚刚过去的财季中资本支出超过340亿美元,并预计未来一年将继续增加投资。放眼整个行业,科技公司今年的AI相关投资总额预计将达到4000亿美元。在这一背景下,微软的分布式网络策略不仅是技术上的创新,更是其在激烈市场竞争中巩固领导地位的关键一步。
“AI超级工厂”:从独立站点到分布式网络
微软的“AI超级工厂”概念,核心在于将多个地理上分散的数据中心融合成一个虚拟的单一超级计算机,这与传统数据中心的设计理念截然不同。
微软Azure基础设施总经理Alistair Speirs解释称:“传统数据中心旨在为多个客户运行数百万个独立的应用程序,而我们将此称为‘AI超级工厂’,是因为它在数百万个硬件上运行一个复杂的作业。”这种模式下,不再是单个站点训练一个AI模型,而是由一个站点网络共同支持同一项训练任务。
这个分布式网络将连接多个站点,整合数十万个最先进的GPU、EB级的存储空间和数百万个CPU核心。其设计目标是支持参数规模达到数万亿级别的未来AI模型训练。随着AI训练流程日益复杂,涵盖预训练、微调、强化学习和评估等多个阶段,这种跨站点的协同能力变得至关重要。
专为AI打造:新一代数据中心的设计与技术
为了实现“超级工厂”的愿景,微软从零开始设计了“Fairwater”系列数据中心。位于亚特兰大的设施占地85英亩,建筑面积超过100万平方英尺,其设计完全为AI工作负载优化。
其关键技术特征包括:
高密度架构:采用创新的双层建筑设计,以便在更小的物理空间内容纳更多GPU,从而缩短内部通信延迟。
尖端芯片系统:部署了英伟达的GB200 NVL72机架规模系统,可扩展至数十万个英伟达Blackwell架构GPU。
高效液冷系统:为应对GPU集群产生的高热量,微软设计了复杂的闭环液体冷却系统。该系统几乎不消耗水资源,其初次注水量仅相当于20个美国家庭一年的用水量。
内部高速互联:在数据中心内部,通过高速网络将所有GPU紧密连接,确保信息在芯片之间快速流通。
“在人工智能领域取得领先,不仅仅是增加更多的GPU,而是要构建能让它们作为一个系统协同工作的基础设施。”微软云与人工智能部门执行副总裁Scott Guthrie表示。他强调,Fairwater的设计凝聚了微软多年的端到端工程经验,旨在以真实世界的性能满足日益增长的需求。
连接数州:AI广域网与算力分配策略
将相隔遥远的多个数据中心连接成一个整体,依赖于微软专门打造的AI广域网(AI WAN)。微软为此部署了12万英里的专用光纤电缆,构建了一条专供AI流量的“高速公路”,使数据能够以接近光速的速度无拥堵传输。
微软Azure首席技术官Mark Russinovich指出,随着模型规模的增长,训练所需的算力早已超出单个数据中心所能承载的极限。如果网络中任何一部分出现瓶颈,整个训练任务就会停滞。Fairwater网络的目标就是让所有GPU始终保持忙碌状态。
之所以选择跨州建设,而非将所有算力集中一处,主要是出于土地和电力供应的考量。Alistair Speirs在接受《华尔街日报》采访时表示,将电力需求分散到不同地区,可以避免对任何单一电网或社区造成过度负担。他坦言:“你必须做到能够跨多个区域进行训练,因为还没有人达到我们现在的规模,所以也没有人真正遇到过这个问题。”
需求激增下的“军备竞赛”
微软的“AI超级工厂”是其应对AI算力需求激增并与对手竞争的核心资产。尽管微软此前曾调整过部分数据中心租赁计划,但Alistair Speirs澄清这只是“产能规划的转变”,公司目前面临的需求远超其供应能力。
在这场算力竞赛中,微软并非孤身一人。其主要竞争对手亚马逊最近在印第安纳州启动了占地1200英亩的Project Rainier数据中心集群,预计将消耗2.2吉瓦的电力。此外,Meta Platforms、甲骨文等公司也公布了庞大的建设计划,而AI初创公司Anthropic则宣布计划在美国投资500亿美元用于计算基础设施。
通过将数据中心连接成一个统一的分布式系统,微软不仅在技术上开辟了新路径,也在商业上为满足顶级AI公司的庞大需求做好了准备。正如Scott Guthrie所说:“我们让AI站点作为一个整体运行,能够帮助我们的客户将突破性的模型变为现实。”





京公网安备 11011402013531号