当前位置: 首页 » 资讯 » 科技头条 » 正文

斯坦福人均≈0.1张GPU!学术界算力遭「屠杀」,LeCun急了

IP属地 中国·北京 新智元 时间:2025-12-08 22:17:30


新智元报道

编辑:好困 桃子

在工业界动辄十万卡的暴力美学面前,学术界正沦为算力的「贫民窟」。当高校人均不足0.1张卡时,AI科研的主导权之争或许已经没有了悬念。

学术界的GPU荒,比想象中还要严重百倍!

NeurIPS 2025期间,两位YC大佬组了个饭局,邀请14位美国顶尖高校实验室的教授。

没想到,席间很多人都在吐槽:学术界算力资源简直「惨不忍睹」!


出于好奇,Francois Chaubard就去扒了一下数据,得到的结果离谱到家.....


以下是美国顶尖大学实验室的情况——

· 普林斯顿:人均0.8张GPU

· 斯坦福:人均0.14张GPU(超算集群Marlowe仅有248张H100可用)

· 哈佛、UW、CMU:均在0.2-0.4张GPU之间

· 加州理工、MIT、UC伯克利:连0.1张GPU也达不到

如今,想要做点像样的AI研究,人均至少得有1张GPU。实话说,真正要做起来,起码8张才够用。


没有对比,就没有伤害。

此时此刻,全球顶尖大厂的前沿实验室动辄就是十万张GPU起步。

就拿微软的Fairwater Atlanta数据中心来说,它目前的算力每个月能跑23次GPT-4规模的训练。

换句话说,当年训练初代GPT-4花了90到100天,同样的时间放在这里,大概能把这个过程跑上70次。

有了这种巨型数据中心,实验室就能大幅提升前期实验和最终模型训练的规模与频次。


到2026年底,马斯克的Colossus 2很可能会把这些数字翻上一番都不止。

而到了2027年底,微软的Fairwater Wisconsin预计单月就能完成超过225次GPT-4规模的训练任务。


马斯克xAI正在百万张GPU串联的超级巨兽「Colossus 2」训练Grok 5

学术GPU太缺了

2024年李飞飞在一场炉边谈话中坦言,「斯坦福NLP实验室仅有64张GPU」。

学术界在AI计算资源方面,正面临断崖式下跌。

与此同时,Nature一篇调查提出了「AI算力差距」,揭示了同样令人扎心的现实:

想要训练AI模型,学术界科学家能用的计算资源,跟工业界完全不是一个量级。


如上开篇一些数据,恰恰从侧面印证了,高校GPU根本不足以开展大规模的AI实验。

这种现象,不管在美国,还是国内,基本大差不差。

在Reddit上一篇热帖中,一位博士生自曝没有H100,算力成为了项目展开的主要瓶颈。


不仅如此,在Uvation调研中,GPU在高校课程和教学中也越来越重要,正在重塑学生学习计算机科学、工程学的方式。

如下表所示,斯坦福、MIT、牛津大学需要使用GPU相关的课程。


学术界GPU荒可不是小事,它的影响会像多米诺骨牌一样扩散开来。

杜克大学陈怡然教授曾提到一点,因为工业界和学术界计算、数据资源差距拉大,AI科研人员不再把高校教职当做目标。

这也就意味着,顶尖人才未来会加速流向工业界,全因GPU不够。


另一方面,学术界因GPU有限难以验证big idea,正逐渐失去了定义前沿的能力。

2025年斯坦福AI指数报告中,一张图清晰地呈现了这一趋势。

谷歌、Meta、微软、OpenAI等科技巨头产出有影响力的AI模型数量远超学术界。


AI大牛Sebastian Raschka表示,资源少只是问题之一。

另一个问题是,这些资源通常只能通过 SLURM(或类似的调度系统)访问,根本没有交互模式。

除非你已经完全清楚要跑什么实验以及要跑多久,否则这一套流程走下来简直折磨人。 这种条件下做研究真是太难了。


此外,学校里的那些GPU不是随时能用的。

网友Lucas Roberts表示,自己上个月曾跟德州的一位教授聊过,他说学校的 GPU 一次最多只能跑24小时,时间一到就得保存进度(checkpoint),然后重新排队跑下一个任务。

后来他好不容易给实验室搞到经费买了几张卡,这才实现了跑任务「不断连」。

据他所知,这种24小时强制中断的规定在其他高校也挺普遍的。


然而,LeCun当场反驳这一观点,透露NYU是全美所有学术机构中,拥有最大规模的GPU集群。

具体数字——500张H200,比普林斯顿还要大。


有的高校,自建AI工厂

不过,也有一些高校条件会好一些。

微软研究院前高级研究员,威廉与玛丽学院助理教授Jindong Wang表示,实验里每位学生配备6张GPU,还有云集群可用。


Vector研究所研究总监,多伦多大学统计与计算机系教授Dan Roy表示,他们会给每位学生都配备1张GPU。


更豪气的学校,比如得克萨斯大学奥斯汀分校,直接为自家的AI基础设施购买了超过4000张Blackwell GPU。

加上原有的设备,UT Austin总共将拥有超过5000张英伟达GPU。

而且,据称还是由他们自己的发电站来提供加持。


这些英伟达GB200系统和Vera CPU服务器,将加入全美最大的学术超算「Horizon」,为UT Austin提供学术界最强悍的AI算力。

这种级别的算力意味着,UT Austin完全有能力从零构建开源的大语言模型。


无独有偶,加州州立理工大学也在启动一个由英伟达DGX加持的「AI工厂」——

它配备了4套NVIDIA DGX B200系统,并整合了高性能存储、网络设施以及NVIDIA的全套AI软件栈。


有了这套系统,那些以前在标准硬件上需要数月才能完成的研究任务,例如分析数十万个视频文件,现在只需几天即可完成。


反观国内,GPU在高校的分布情况也不均衡。

知乎上一个话题下,硕博生纷纷讨论做实验用的显卡。


北京某高校计算机硕士称,已申请到研究院公用服务器。


还有更可怜的,某985学生自曝全组只有一张3080,还得自费租GPU。


参考资料:

https://x.com/FrancoisChauba1/status/1997095264923078856?s=20

https://news.utexas.edu/2025/11/17/ut-eclipses-5000-gpus-to-increase-dominance-in-open-source-ai-strengthen-nations-computing-power/

https://x.com/EpochAIResearch/status/1997040687561449710

https://epoch.ai/data-insights/gpt-4s-trainable

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。