当前位置: 首页 » 资讯 » 科技头条 » 正文

直击GTC:1万亿美元GPU、为龙虾做“CUDA”,老黄就指着你烧token了

IP属地 中国·北京 编辑:赵静 硅星人 时间:2026-03-17 16:12:47

今年显然又是英伟达这家33岁公司又一个关键时刻,人们像期待数码产品一样期待它的芯片更新,对超预期的财报甚至都提不起兴趣,眼看有些江郎才尽的时刻,黄仁勋又带来了新的故事。

3月16日,在2026年英伟达GTC大会上,黄仁勋做了万众期待的主旨演讲。人们看待英伟达,关心和担心的都是它的增长。而今年GTC,一个花20亿美金收购来的Groq,一个突然就改变了一切并看起来解决了“应用普及问题”的OpenClaw,成了增长故事里的绝对主角。

Groq的新芯片融入英伟达体系后,英伟达宣称会给它的客户们解锁一个3000亿美金的增量市场;

同时英伟达也会把Groq更深入融入下一代芯片架构Feynmann 里;

而在他绝对不会迟到的“小龙虾”狂热里,黄仁勋要让英伟达变成OpenClaw们的底层,再次上演一出CUDA同样的戏码。

尽管相比GTC最辉煌的那些发布,今年的整个发布的大多时间显得有点乏善可陈,但这些已经足够让黄仁勋信心满满,他表示:

2025年到2027年,英伟达的芯片生意将会继续上涨,涨到1万亿美金。

1

Vera Rubin + Groq,七颗芯片合体

黄仁勋展示了他形容为全新的AI基础设施层的全貌。

他不再举着一颗芯片说“this is our new GPU”了。他把整个Vera Rubin机架搬上了舞台,说这一次英伟达想的是整套系统,从芯片到软件到互连,端到端垂直整合,作为一台超级计算机来优化。

上一代Blackwell Ultra已经实现了对比Hopper 50倍的吞吐效率提升,而Vera Rubin + Groq在此基础上又把前沿推到了新的区间,这套系统由七颗芯片组成。核心Rubin GPU采用台积电3nm工艺,双芯片封装,336B晶体管,配备288GB HBM4内存和22TB/s带宽,NVFP4推理性能达到50 PFLOPs,比上一代Blackwell提升5倍,训练性能35 PFLOPs,提升3.5倍。配套的Vera CPU是88核定制Arm架构(代号Olympus),176线程,全球首款在数据中心采用LPDDR5的CPU,专门为Agent推理场景下的高单线程性能和数据处理做了优化。黄仁勋说这颗CPU独立卖“肯定会成为数十亿美元的业务”。

但今晚真正的新闻是第七颗芯片,Groq 3 LPU。去年圣诞夜英伟达花200亿美元拿下Groq的技术授权和核心团队,今天是首次产品落地,而且已经在量产。

为什么需要Groq?黄仁勋在台上讲得很清楚,GPU擅长高吞吐的并行计算,做prefill和attention很强,但在超高速token生成这个区间会力不从心。他的原话是NVL72在超过400 tokens/s/user的区间“runs out of steam”(跑不动了)。而Groq的LPU是一种完全不同的处理器,确定性数据流架构,芯片上全是SRAM,没有运行时动态调度,编译器在编译阶段就把每个时钟周期的计算和数据搬运全部排好了。这种架构天然适合低延迟的decode和token生成。

问题在于SRAM虽快但容量极小。单颗Groq 3 LPU只有500MB SRAM,而Rubin GPU是288GB HBM4,差了500多倍,根本存不下万亿参数的模型。英伟达的解法是用一套叫Dynamo的软件把推理过程拆成两半,Rubin负责prefill和attention,处理上下文需要大量算力和大容量内存;Groq负责feed-forward部分的decode和token生成,需要极低延迟和极高带宽。两者通过以太网紧耦合,延迟减半。

黄仁勋管这个叫disaggregated inference(解耦推理),并且总结说高吞吐和低延迟本质上enemies of each other(彼此矛盾),而Groq就是解决这个矛盾的那一半拼图。

舞台上的那张对比图视觉冲击很强。

左边一颗Rubin GPU,288GB HBM4、22TB/s带宽、50 PFLOPs。

右边一排8颗Groq 3 LPU组成的阵列,4GB SRAM、1,200TB/s SRAM带宽(Rubin的55倍)、9.6 PFLOPs。

两种极端的处理器,统一成一个推理系统。Groq 3 LPX整机把256颗LPU装进一个机架,提供128GB SRAM、40PB/s带宽、315 PFLOPS推理算力和640TB/s互连带宽。

整套NVL72系统100%液冷,用45度热水冷却,把原来花在空调上的能耗省回来给计算用。安装时间从两天压缩到两小时。第六代NVLink提供3.6TB/s全互连带宽。首款CPO(共封装光学)交换机Spectrum X已经量产。

目前,微软Azure已经跑起了第一套Vera Rubin机架,Satya Nadella在演讲期间直接发消息确认。

黄仁勋还给了一个极其直观的对比,同一个1GW数据中心,两年内token生成速率从2200万提升到7亿,350倍。他说这就是极致协同设计的力量。

1

1万亿GPU,和新的商业模式可能

在演讲里,黄仁勋再次给出数据的指引。

去年GTC他给出的关于英伟达产品的需求估算是5000亿美元(覆盖Blackwell和Rubin到2026年),而今年直接翻倍,他说现在看到的是:

到2027年至少1万亿美元。

驱动力是他反复提到的“推理拐点”,从ChatGPT到o1再到Claude Code,AI从能聊天变成能推理再变成能干活,每一步跳跃都让单次推理需要的算力暴增,而使用量也在同步起飞。黄仁勋说Claude Code是第一个agentic model,英伟达100%的软件工程师都在用。

然后他用一张图把这个宏观判断翻译成了具体的商业逻辑。

整场演讲最值得反复看的就是这张,标题叫inference Performance and Efficiency Drive Company Results。

纵轴是吞吐量(TPS/MW,每兆瓦每秒生成的token数),横轴是交互速度(TPS/User,每用户每秒拿到的token数)。横轴越往右意味着AI越“聪明”,模型更大、上下文更长、思考链更深,但吞吐量会下降,因为资源被单个用户的推理任务占用了更多。高吞吐和低延迟本质上矛盾。

黄仁勋在横轴上切了五档定价。Free层用Qwen 3(235B参数,32K上下文,免费),Medium层用Kimi K2.5(1T参数,128K上下文,3美元/百万token),High层用GPT MoE(2T参数,128K,6美元),Premium层同样是GPT MoE但上下文窗口拉到400K、价格到45美元,Ultra层150美元。

然后他把四代硬件的曲线叠上去。Hopper只能覆盖Free和Medium层,在高交互区间曲线贴着底部。Blackwell大幅上移,让Premium层变得经济可行。Vera Rubin再上一档。加上Groq LPX之后,曲线在400+ TPS/User的高交互区间向右延伸出去,对比Hopper提升35倍,让一个目前还不存在的Ultra层(150美元/百万token)成为可能。

作为一个“首席销售”,在第二张图,黄仁勋直接把这个逻辑翻译成了营收数字。

假设一个1GW数据中心按25%算力分配给每个层级,每GW年营收Blackwell能做300亿美元,Rubin做1500亿(5倍),加上Groq LPX做3000亿(10倍)。

两张图合在一起看,叙事逻辑很清晰:第一张为了告诉大家,Rubin让Premium推理($45/M tokens)变得赚钱,而第二张则证明了,Rubin + LPX可以让一个尚不存在的Ultra推理市场($150/M tokens)成为可能。

黄仁勋借此定义了一套token定价阶梯,并在这最重要的大会上,直接告诉所有客户,这里面每一层的经济可行性都直接绑定在英伟达的硬件代际升级上。

换句话说,没有我的芯片,你到不了下一个价格层级,你的商业模型跑不通。有了我,商业模型的新可能就出现了。

“数据中心是生产token的工厂;推理是工作负载,token是新商品,算力等于营收;未来每个CEO都要盯着自己token工厂的效能看。”

他继续推销英伟达:“用得越多省钱阅多。我们是唯一一个在每一个模型里都在被使用的产品,这让我们成为最强又最便宜的。英伟达的系统是全球范围内你可获取的成本最低的AI基础设施。 ”

黄仁勋甚至直接给了不同客户部署方案:如果工作负载主要是高吞吐的批量推理,100%配Vera Rubin就够了。如果有大量编程、高价值实时推理和Agent交互需求,拿25%数据中心配Groq LPX,其余75%纯Rubin。

1

Feynman剧透,2028年全部换代

在Rubin介绍完后,Feynman的剧透来了。

英伟达给自己路线图节奏锁死,每年一代新架构。当前Blackwell,2026下半年Vera Rubin,2027年Rubin Ultra搭配全新Kyber机架(计算节点改为垂直插入,前置计算后置互连,支持144颗GPU),2028年Feynman。

Feynman是黄仁勋今晚的one more thing式剧透,七个组件全部换代。全新GPU(此前传闻台积电A16 1.6nm),LP40 LPU(黄仁勋说是big step up,Groq团队加入英伟达后共同设计,首次在LPU中加入NVFP4计算能力),Rosa CPU(全名Rosalind,致敬发现DNA结构的Rosalind Franklin),BlueField 5 DPU,ConnectX-10 SuperNIC,NVLink 8。Kyber机架同时支持铜缆和CPO光学互连。

关于铜缆还是光互连的行业争论,黄仁勋一句话终结,铜的要做,光的也要做,CPO也要做,每一种都需要更多的产能。

中间他还顺便提了Vera Rubin Space-1,要把计算模块送上太空做数据中心。太空没有传导和对流只有辐射,散热是个问题,但英伟达已经在做了。

1

为龙虾做“CUDA”,NemoClaw定义Agent时代的操作系统

对于最近疯狂的龙虾热,黄仁勋称Agent是一个全新的计算平台,并直接把OpenClaw的定位拔到了和Windows、Linux、Kubernetes同一级别。

他用操作系统的语法拆解了OpenClaw的本质,管理资源、调度任务、调用工具、连接大模型、多模态IO、派生子Agent。OpenClaw几周内超越Linux 30年的GitHub Star数,是人类历史上增长最快的开源项目。黄仁勋认为它的意义等同于HTML之于互联网、Kubernetes之于移动云,每家公司都需要一个OpenClaw战略。

然后话锋一转,讲了企业场景的致命问题。Agent在公司内网能访问敏感信息、能执行代码、能对外通信。黄仁勋让全场默念了一遍这三条,然后说,这显然不能被允许。

NemoClaw就是英伟达的解法,但它不是另起炉灶,而是给OpenClaw套上一层企业安全壳。核心组件叫OpenShell,已经集成进OpenClaw,包含策略引擎接口(对接企业已有的安全合规系统)、网络护栏(限制Agent网络访问边界)和隐私路由(防止敏感数据外传)。开源,Apache 2.0协议,深度整合NeMo框架、Nemotron模型和NIM推理微服务。

这里的类比关系是,NemoClaw之于OpenClaw生态,就像CUDA之于GPU生态。

CUDA让GPU从游戏显卡变成了通用计算平台,NemoClaw要让龙虾从个人玩具变成企业基础设施。OpenClaw提供了Agent的操作系统,NemoClaw提供了在这个操作系统上安全运行企业应用的开发平台和工具链。

黄仁勋的行业判断是,未来每家SaaS公司都会变成GaaS(Generative-as-a-Service)公司,企业IT从2万亿美元的工具产业升级为多万亿美元的Agent产业。他甚至预测未来每个工程师入职时都会拿到一份年度token预算,基本工资之外再加一半用于购买token,让个人生产力放大10倍。“你的offer带多少token”会成为硅谷新的谈判筹码。

配合Agent生态,英伟达同时宣布了Nemotron Coalition(开源模型联盟)。六大模型家族全部达到前沿水平,Nemotron(语言推理,OpenClaw评测前三)、Cosmos(物理AI世界模型)、Alpamayo(自动驾驶,号称首个会思考推理的自动驾驶AI)、Groot(通用机器人)、BioNeMo(生物化学)、Earth 2(天气气候)。Nemotron 3 Ultra定位为世界最好的基础模型,供各国做主权AI定制。联盟首批成员包括Black Forest Labs、Cursor、LangChain(10亿+下载量)、Mistral、Perplexity、Thinking Machines(Mira Murati创办)等。

英伟达的增长故事不能停。这一次一个可能成为近年英伟达最重要的收购的Groq,和一个突然出现的现象级全民狂热的OpenClaw让这个故事得以继续,黄仁勋也抓住了这些被他形容为“必须抓住的时间窗口”,把大量资源赌在了上面,剩下的,就靠各位一起疯狂烧token了。

标签: 黄仁勋 模型 芯片 企业 算力 系统 架构 工具 基础设施 太空 核心 逻辑 大量 区间 全部 数据中心 世界 调度 组件 商业 个人 机架 开源 资源 定价 筹码 公司 全球 问题 光学 铜缆 横轴

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。