当前位置: 首页 » 资讯 » 科技头条 » 正文

马斯克的xAI坐拥55万张英伟达GPU加速卡 利用率仅11%

IP属地 中国·北京 编辑:赵磊 快科技 时间:2026-05-06 22:48:06

快科技5月5日消息,坐拥约55万块英伟达GPU,实际算力利用率仅有11%,这一巨大反差让马斯克旗下 xAI 近期推向舆论风口浪尖,也引发业界对其算力利用效率的广泛质疑。

据外媒《The Information》获取的xAI内部备忘录显示,xAI公司总裁迈克尔尼科尔斯(Michael Nicolls)向团队坦言,目前公司模型浮点运算利用率(MFU)约为11%。

这一数字背后的含义十分直观:理论上可输出100份训练算力的硬件,实际仅能产出11份,尼科尔斯在备忘录中直白评价其“低得尴尬”,并明确为团队设定了目标——未来几个月内将这一利用率拉升至50%。

据悉,xAI目前拥有约55万颗NVIDIA GPU,涵盖H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代,但如此庞大的硬件部署规模,仍给市场留下了深刻印象。

需要指出的是,11%这个数字,并非指89%的GPU在完全闲置,而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。

与行业基准相比,xAI的表现差距尤为明显。当前,生产级大模型训练的MFU通常维持在35%至45%之间,其中Meta和谷歌凭借长期积累的深厚软件堆栈,其GPU利用率分别可达约43%和46%;

即便在以“低效”著称的GPT-3训练时期,MFU也能稳定在21%-26%之间。反观xAI的11%,不仅远低于当前行业主流水平,甚至不及AI算力发展史上的“古早”尴尬时期。

值得一提的是,坐拥顶级算力却难以发挥价值, xAI 症结不在硬件,而在软件短板。

据悉,xAI一直照搬英伟达标准部署方案,但软件堆栈、并行策略和模型工程优化,远远跟不上硬件激进扩张速度。

具体来看,HBM显存读取速度远慢于计算芯片,导致芯片大量时间空转等待数据;网络拓扑中的任何一处瓶颈,在数万张卡的同步要求下,都会被急剧放大。

此外,Lambda等机构分析指出,显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等,都是拖累MFU的系统性因素。

值得注意的是,xAI 基建扩张堪称行业奇迹,其Colossus 超算仅 122天建成,GPU规模短时间内极速扩容,过快的硬件铺摊,也放大了软件优化滞后的致命短板。

如需请务必注明出处:快科技

责任编辑:秋白

标签: 算力 硬件 利用率 软件 理论 芯片 行业 备忘录 部署 规模 模型 比例 堆栈 指标 大量 公司 方案 策略 含义 业界 数据 团队 峰值 责任编辑 瓶颈 过度 系统性 科技 张卡 压力 因素 秋白

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。