当前位置: 首页 » 资讯 » 科技头条 » 正文

黄仁勋揭秘Vera Rubin架构与物理AI的‘ChatGPT’时刻 | CES 2026演讲全文2.5万字+视频

IP属地 中国·北京 Web3天空之城 时间:2026-01-06 12:18:07

|未经许可不得转载星标本号获取最新顶级认知|


整理: Web3天空之城

在2026.1.6 拉斯维加斯璀璨的灯光下,英伟达(NVIDIA)创始人兼首席执行官黄仁勋拉开了2025年国际消费电子展(CES)的序幕。黄仁勋面对全球数百万观众宣布:计算机行业正在经历每10到15年一次的彻底重置。这一次,传统的五层技术栈正在被重新发明,而英伟达正试图通过加速计算、开源模型与物理人工智能(Physical AI),定义下一个十年的生存规则。

演讲视频完整版:

00:04:14 计算机平台演变与推理驱动的人工智能革命

00:17:35 人工智能智能体与多模态企业级应用架构

00:28:24 物理人工智能:从世界模型到自动驾驶实践

00:47:34 具身智能机器人与工业级物理人工智能生态

00:57:26 维拉·鲁宾架构:下一代超级计算核心芯片解析

01:09:00 极端协同设计与高性能网络互联系统

01:21:14 语义存储革新与超级计算工厂的效能飞跃

以下是本次主题演讲的核心洞见:

平台转型 :计算行业每10-15年重置一次,当前正处于人工智能与加速计算双重转型的交汇点,传统五层技术栈正在被重新发明。

具身智能与物理AI :2025年是具身智能的爆发年,通过 Cosmos 世界基础模型和合成数据生成技术,AI 开始理解物理法则并与现实世界互动。

自动驾驶飞跃 :发布了具备推理能力的自动驾驶 AI “Alpamayo”,实现了从传感器输入到执行器输出的端到端训练与逻辑解释。

Vera Rubin架构 :新一代 6 芯片系统实现全面投产,通过“极端代码设计”突破了摩尔定律放缓的限制,大幅提升了 AI 训练与推理的能效比。

“计算行业每10到15年重置一次,当前我们正处于加速计算与人工智能双重转型的交汇点。”

“2025年将是具身智能的爆发年,AI开始理解物理法则并与现实世界深度互动。”

“开源模型已经达到前沿水平,DeepSeek R1等模型的进步激活了全球范围内的AI创新运动。”

“未来的应用将建立在智能体(Agents)之上,它们具备推理、规划并使用工具解决复杂问题的能力。”

“自动驾驶的未来在于具备推理能力的AI,它不仅是传感器的反馈,更是对物理世界的逻辑解释。”

“‘Vera Rubin’架构代表了极端的协同设计,我们在摩尔定律放缓的背景下,实现了算力的指数级跃升。”

范式转移:从“编程软件”到“训练软件”

黄仁勋指出,计算的基础形态已经发生了根本性的重塑。过去,我们编写代码、预编译程序并在CPU上运行;而现在,我们训练软件,并在GPU上运行。这种转变意味着价值十万亿美元的计算领域正在进行现代化改造。

现在的应用程序需要理解上下文,并且每一次都从零开始生成每一个像素和标记 黄仁勋强调。这意味着每年数千亿美元的研发预算正在从传统方法转向人工智能。在这个新世界中,人工智能不再仅仅是一个应用程序,而是构建所有应用程序的基石。

开源模型的崛起与“智能体”架构


去年是人工智能历史上的重要节点,尤其是开源模型的进步。黄仁勋特别提到了DeepSeek R1的突破:“它是第一个具有推理系统的开源模型,让全世界感到惊讶。开源模型已经达到了前沿水平,这让每个国家和企业都能参与到这场革命中。”

英伟达的角色正在发生转变,它不仅是芯片供应商,更是前沿人工智能模型的构建者。黄仁勋展示了英伟达如何通过开源模型、数据和工具库(如Nemo、Cosmos)来赋能全球生态。他认为,未来的企业UI将不再是繁琐的表格或命令行,而是“智能体系统”。

智能体系统就是界面,它能推理如何解决问题,而不只是机械地执行指令。 在现场演示中,一个基于英伟达架构的个人助理展示了如何跨模型协作:处理私密邮件时调用本地模型,处理复杂创意时调用云端前沿模型,同时控制物理机器人完成家务。这种“多模型、多云、混合云”的架构,正是未来应用的基本框架。

物理人工智能:物理世界的“ChatGPT时刻”


如果说大语言模型让AI学会了说话,那么物理人工智能(Physical AI)则让AI学会了行动。黄仁勋认为,物理AI的“ChatGPT时刻”已经迫近。

物理人工智能不仅是与世界互动,更是要理解物理定律。 为了教AI学会常识——如物体恒存性、因果关系和重力——英伟达构建了三台计算机的闭环:一台用于训练,一台用于模拟(Omniverse),一台用于执行(机器人电脑)。

由于真实世界的物理数据极其稀缺,英伟达推出了Cosmos世界基础模型。Cosmos将计算转化为数据,通过合成数据生成技术,我们可以在虚拟世界中模拟数万亿英里的驾驶或机器人的各种极端操作场景。 这种“以物理定律为约束”的模拟,解决了机器人训练中最昂贵、最慢的数据获取难题。

Alpamayo:赋予汽车“思考”的能力

在自动驾驶领域,英伟达发布了具备推理能力的AI模型——Alpamayo。这是世界上第一个实现了“端到端训练”且具备逻辑解释能力的自动驾驶系统。

汽车不仅要学会像人类一样自然驾驶,更要在遇到突发状况时进行推理,并告诉你它为什么要这么做。 黄仁勋透露,英伟达与梅赛德斯-奔驰(Mercedes-Benz)深度合作的这一系统将在2025年第一季度正式上路。为了确保绝对安全,英伟达采用了双重栈架构:一个端到端训练的AI模型负责自然驾驶,一个基于规则的经典安全堆栈负责兜底护栏。这种多样性和冗余性,是英伟达对未来十年交通自动化的承诺。

Vera Rubin架构:突破摩尔定律的极限

演讲的高潮部分是全新高性能计算架构Vera Rubin的发布。面对摩尔定律的放缓,英伟达采取了“极端协同设计”(Extreme Co-design)的策略。

Vera Rubin架构是一个由六个芯片组成的复杂系统,包括性能翻倍的Vera CPU和算力提升5倍的Rubin GPU。“在晶体管数量仅增加1.6倍的情况下,我们实现了5倍的推理性能飞跃,这完全归功于极端的代码设计和新型张量核心结构。”

此外,英伟达还重塑了数据中心的基础设施,推出了硅光子交换机和针对AI优化的以太网Spectrum X。“我们正在用热水冷却超级计算机,这使我们能节省全球约6%的数据中心电力。” 这种全栈式的创新,使得在给定时间内训练超大规模模型所需的系统数量减少到原来的四分之一。

从设计芯片的EDA工具到制造机器人的数字化工厂,英伟达正与西门子、新思、楷登等巨头合作,将物理AI带入完整的工业生命周期。

“我们正处于一场新的工业革命的开端,”黄仁勋最后总结道,“人工智能正在重塑从芯片到基础设施、再到应用的所有环节。我们的任务是构建完整的技术栈,以便你们可以为全世界创造出令人难以置信的应用。”

Web3天空之城全文整理 计算机行业的平台转型与AI现代化

拉斯维加斯的朋友们,大家好!新年快乐!欢迎来到国际消费电子产品展(CES)!我们这里有大约15场主题演讲的内容要塞进来。

我很高兴见到你们所有人。你们这个礼堂里有3,000人。庭院里有2,000人在观看我们。据称,在四楼本该是播放视频的楼层,还有另外1,000人在观看这次主题演讲,当然,全球还有数百万人将观看这次演讲以开启新的一年。

大约每10到15年,计算机行业就会重置一次。

一个新的平台转变会发生。从大型机到个人电脑,从个人电脑到互联网,从互联网到云计算,再到移动设备。每一次,应用程序的世界都会瞄准一个新的平台。这就是为什么它被称为平台转变。你为一台新计算机编写新的应用程序。

只不过这一次,实际上同时发生了两次平台转变。我们现在转向人工智能,应用程序将建立在人工智能之上。起初,人们认为人工智能就是应用程序,事实上,人工智能确实是应用程序,但你将会在人工智能之上构建应用程序,但除此之外,软件的运行方式和开发方式也发生了根本性的改变。

整个计算机行业的五层技术栈正在被重新发明。你不再是编程软件,而是训练软件。你不再在中央处理器上运行它,而是在图形处理器上运行。而且,过去应用程序是预先录制、预先编译并在你的设备上运行,而现在应用程序需要理解上下文,并且每一次都从零开始生成每一个像素、每一个标记。

由于加速计算和人工智能,计算的基础形态已经发生了根本性的重塑。那五层蛋糕的每一层现在都在被重新发明。这意味着过去十年中价值约十万亿美元的计算领域正在以这种新的计算机方式进行现代化改造。这意味着每年数千亿美元,大约两千亿美元的风险投资正在投入到现代化和发明这个新世界中去。这意味着价值十万亿美元的产业,其中百分之几是研发预算,正在转向人工智能。

人们会问,钱从哪里来?这就是资金的来源。人工智能的现代化进程,研发预算从传统方法转向现在的人工智能方法的转变。大量资金涌入这个行业,这解释了我们为何如此忙碌。去年也不例外。去年是不可思议的。去年,有一张幻灯片即将展示。这就是不练习时发生的情况。这是今年的第一次主题演讲。我希望这是你今年的第一次主题演讲。否则,你可能已经相当忙碌了。这是我们今年的第一次主题演讲。年。我们要把蜘蛛网清干净了。

所以2025年是不可思议的一年。这只是,似乎所有事情都同时发生了,事实上,可能确实如此。首先,当然是损失的扩大。2015年,我真正认为会带来变革的第一个语言模型产生了巨大的影响。它被称为Bert。2017年出现了变形金刚。直到五年后,也就是2022年,才出现了ChatGPT时刻,它让全世界都意识到了人工智能的可能性。一年后发生了一件非常重要的事情。

ChatGPT的第一个01模型,第一个推理模型,是完全革命性的,它发明了一个叫做测试时缩放(test time scaling)的想法,这是一个非常符合常识的东西。

我们不仅预先训练模型以进行学习,还使用真实的强化学习对其进行后训练,使其能够学习技能。现在我们也有了测试时缩放,换句话说就是思考。你是在实时思考。人工智能的每一个阶段都需要大量的计算能力。而计算定律持续扩展。大型语言模型持续改进。

与此同时,又出现了一项突破。这项突破发生在2024年。具身智能系统开始涌现。2025年,它开始涌现。渗透、扩散到几乎无处不在。那些具备推理能力、查找信息、进行研究、使用工具、规划未来、模拟结果的具身模型,突然间开始解决非常非常重要的问题。

我最喜欢的具身模型之一叫做Cursor(光标),它彻底改变了我们在英伟达进行软件编程的方式。具身智能系统将从这里真正起飞。当然,还有其他类型的人工智能。我们知道大型语言模型并非信息的唯一类型。无论宇宙中存在何种信息,无论宇宙存在何种结构,我们都可以训练一种大型语言模型,一种语言模型的形态,去理解该信息,理解其表征,并将其转化为人工智能。

其中一个最大、最重要的就是物理人工智能,即理解自然规律的人工智能。然后,当然,物理人工智能是关于人工智能与世界的互动,但世界本身包含信息,编码信息,这就被称为人工智能物理学。在物理人工智能的案例中,你有与物理世界互动的AI,还有人工智能物理学,即理解物理定律的AI。

开源模型的崛起与物理基础模型

然后是去年的最后一件,也是最重要的事情之一,即开源模型的进步。

我们现在知道,当开源、开放创新、全球每家公司和每个行业的创新同时被激活时,人工智能将无处不在地扩散。开源模型去年真的腾飞了。事实上,去年我们看到了DeepSeek R1的进步,它是第一个具有推理系统的开源模型。它让全世界感到惊讶,并真正激活了整个运动。这是一项非常非常令人兴奋的工作。我们对此感到非常高兴。

现在,世界各地都有各种各样的开源模型系统,我们现在知道开源模型也已经达到了前沿水平。仍然比前沿模型落后整整六个月,但每隔六个月,就会有新的模型出现,而且这些模型变得越来越智能。正因为如此,你可以看到下载量已经激增。下载量增长如此之快,是因为初创公司想要参与人工智能革命,大公司想要,研究人员想要,学生想要,几乎所有国家都想要。智能,即数字形式的智能,怎么可能把任何人落下?因此,开源模型去年确实彻底改变了人工智能的面貌。整个行业将因此被重塑。

现在,我们很早以前就有这种预感了。你可能听说过,几年前,我们就开始构建和运营自己的人工智能超级计算机了。我们称之为DGX云。很多人问,你们是要进军云计算业务吗?答案是否定的。我们正在为我们自己的用途构建这些DGX超级计算机。事实证明,我们有数十亿美元的超级计算机正在运行,以便我们能够开发我们的开源模型。我对我们所做的工作感到非常满意。

由于我们在众多不同的领域从事前沿人工智能模型的研发工作,这开始吸引全球和各行各业的关注。我们在蛋白质、数字生物学领域所做的工作,例如La Pratina,能够合成和生成蛋白质。Open Fold 3,用于理解蛋白质的结构。Evo 2。如何理解和生成多个。多个蛋白质,否则就是细胞表征的开端。地球2,理解物理定律的人工智能,我们用ForecastNet所做的工作,我们用CoreDiv所做的工作,真正彻底改变了人们进行天气预测的方式。

Nemotri,我们现在在那里做着开创性的工作,第一个混合Transformer SSM模型,它速度极快,因此可以长时间思考,或者可以短时间快速思考并产生非常聪明、智能的答案。Nemotron 3是开创性的工作,您可以期待我们在不久的将来推出Neumotron 3之外的其他版本。Cosmos,一个前沿的、开放的、世界基础模型,一个理解世界如何运作的模型。Groot,一个类人机器人系统,关节运动、移动性、行走能力,这些模型,这些技术现在正在被整合,并且在所有这些案例中,都向全世界开放。前沿的人机和机器人模型向全世界开放。

然后今天,我们将谈论一点关于Alpamio,我们一直在自动驾驶汽车领域所做的工作。我们不仅开源这些模型,我们还开源用于训练这些模型的数据。因为只有通过这种方式,你才能真正相信这些模型是如何产生的。我们将这些模型产生的一切都开源了。模型,我们帮助您基于它们创建衍生模型。

我们拥有一整套库。我们称之为 Nemo 库,物理学 Nemo 库,以及 Clara Nemo 库,每种都是生物 Nemo 库。这些库中的每一个都是人工智能的生命周期管理系统,因此您可以处理数据、生成数据、训练模型、创建模型、评估模型、设置护栏保护模型,直到部署模型。这些库中的每一个都极其复杂,而且所有这些都是开源的。

因此,现在在这个平台之上,英伟达是一家前沿人工智能模型的构建者,我们以一种非常特殊的方式构建它。我们完全公开地构建它,以便我们能够使每家公司、每个行业、每个国家都能参与到这场人工智能革命中来。我为我们正在那里所做的工作感到非常自豪。事实上,如果您注意到图表,图表显示我们对该行业的贡献是首屈一指的,您会看到我们将继续这样做,甚至会加速。这些模型也是世界级的。所有系统都宕机了。

在圣克拉拉这从没发生过。是因为拉斯维加斯吗?

肯定有人想在外面赢大奖。所有系统都宕机了。

我想我的系统仍然宕机,但没关系。我会随机应变。所以这些模型不仅具有前沿能力,不仅是开放的,它们还登上了排行榜榜首。这是我们非常自豪的一个领域。它们在智能方面登上了排行榜榜首。

我们有一些重要的模型正在理解多模态文档,也就是PDF文件。世界上最有价值的内容都以PDF的形式存储着。但需要人工智能才能发现其中的内容、解释其中的内容并帮助您阅读它。因此,我们的PDF检索器、PDF解析器,我们世界一流的,我们的语音识别模型,绝对是世界一流的。我们的检索模型,基本上是搜索、语义搜索、人工智能搜索,是现代人工智能时代的数据库引擎,世界一流。所以我们一直在排行榜上名列前茅。这是我们非常自豪的一个领域。

人工智能代理(Agents)与个人助理演示

而所有这一切都是为了帮助您构建人工智能代理。

这确实是一个开创性的发展领域。起初,当ChatGPT出现时,人们说,天哪,它产生了非常有趣的结果,但它产生了大量的幻觉。

它产生幻觉的原因,当然,它过去可以记住所有事情,但它无法记住现在未来会发生的所有事情。

因此,它需要以研究为基础。在回答问题之前,它必须进行基础研究。关于是否需要进行研究的推理能力;是否需要使用工具;

如何将一个问题分解成步骤;这些步骤中的每一步,都是人工智能模型知道如何完成的事情,然后它们共同组合成一系列步骤,以执行它以前从未做过的事情。

那是它从未接受过训练去做的事情。这就是推理的神奇能力。我们可能会遇到一个从未见过的情况,并将其分解成我们知道如何处理的情况、知识或规则,因为我们过去经历过。因此,现在的人工智能模型具备了极其强大的推理能力。

智能体的推理能力为所有这些不同的应用打开了大门。我们不再需要在第一天就训练人工智能模型了解一切,正如我们自己也不需要在第一天就了解一切一样,我们应该能够在任何情况下,推理出如何解决那个问题。大型语言模型现在已经实现了这一根本性的飞跃。使用强化学习、思维链,以及搜索、规划和所有这些不同的强化学习技术的能力,使我们能够具备这种基本能力,而且现在也完全开源了。

但真正了不起的是另一件事。发生的又一个突破。我第一次看到它是在 Ervin 的 Perplexity(一个人工智能搜索公司)那里,那是一家非常出色、极具创新性的公司。当我第一次意识到他们同时使用了多个模型时,我觉得这完全是天才之举。当然我们会这样做。当然,一个人工智能在推理链的任何部分要解决它想解决的问题时,也会调用世界上所有伟大的人工智能。这就是原因所在。为什么人工智能真的是多模态的,这意味着它们理解语音、图像、文本、视频、3D图形和蛋白质。它是多模态的。它也是多模态的,这意味着它们应该能够使用最适合任务的任何模型。

因此,它本质上是多云的,因为这些人工智能模型存在于所有这些不同的地方,它也是混合云,因为如果你是一家企业公司,或者你制造了一个机器人,或者无论那个设备是什么,它有时在边缘,有时在无线电基站,也许有时在企业里,或者可能是在一个医院,你需要实时地将数据保存在你身边。

无论这些应用是什么,我们现在都知道这就是未来人工智能应用的样子。

或者从另一个角度来看,因为未来的应用是建立在人工智能之上的,这就是未来应用的基本框架。这种基本框架,这种能够完成我所谈论的事情的生成式人工智能的基本结构,它是多模型的,已经极大地提升了所有类型人工智能的性能。现在,由于所有开放的模型和我们提供的所有工具,你也可以定制你的人工智能,教你的人工智能没有人教的技能。没有其他人以那种方式使其人工智能变得智能或聪明。你可以为自己做这件事。这就是我们用 Nemotron、Nemo 以及我们用开源模型所做的所有事情的目的所在。你在它前面放一个智能路由器,这个路由器本质上是一个管理器,它根据你给出的提示的意图,决定哪个模型最适合该应用、最适合解决该问题。好的?所以现在,当你考虑这种架构时,你拥有什么?

当你考虑这种架构时,突然之间,你拥有了一个人工智能,一方面你可以完全根据自己的需求进行定制。

你可以教它为你公司做你自己的特定技能。

一些属于领域机密的东西,一些你拥有深厚领域专业知识的东西。

也许你拥有训练该人工智能模型所需的所有数据。另一方面,你的人工智能在定义上始终处于前沿水平。一方面,你总是在最前沿。另一方面,你总是定制化的,而且它应该可以直接运行。所以我们想提供一个最简单的示例供您使用。我们称这个完整的框架为“蓝图”。我们的蓝图已经集成到世界各地的企业SaaS平台中,我们对目前的进展感到非常满意。但我们要做的是向您展示一个简短的示例。这是任何人都可以做的事情。

让我们来构建一个个人助理。我希望它能帮我处理日历、电子邮件、待办事项列表,甚至照看我的家。我使用 brev 将我的 DGX Spark 变成一个个人云。这样,无论我使用的是云GPU还是DGX Spark,我都可以使用相同的界面。我使用前沿模型API来轻松入门。我想让它帮我处理电子邮件,所以我为我的代理程序创建了一个可以调用的电子邮件工具。

我希望我的电子邮件保持私密,所以我将添加一个在Spark上本地运行的开源模型。现在,对于任何任务,我都希望代理程序为正确的任务使用正确的模型,所以我将使用一个基于意图的模型路由器。

这样,需要电子邮件的提示就会保留在我的Spark上,而其他所有内容都可以调用前沿模型。我希望我的助手能够与我的世界互动,所以我将它连接到Hugging Face的Ritchie迷你机器人。我的代理程序通过工具调用来控制Ritchie的头部、耳朵和摄像头。我想给Ritchie一个声音,我非常喜欢11 Labs,所以我将连接它们的API。你好,我是Ritchie,运行在DGX Spark上。嘿Ritchie,我今天的待办事项清单上有什么?你今天的待办事项清单。去买些杂货、鸡蛋、牛奶、黄油,然后把新剧本发给詹森。我们把这个更新发给詹森。告诉他们我们今天下班前会准备好给他。我们会照办的。里奇,还有个草图。你能把它变成一个建筑效果图吗?

当然可以。

这难道不令人难以置信吗?

企业AI架构与物理人工智能

现在,奇妙之处在于这现在是完全微不足道的。

这现在是完全微不足道的。然而,就在几年前,这一切还是不可能实现的。绝对是无法想象的。这个基础框架,这种使用语言模型构建应用的基础方式,

使用语言模型,使用那些经过预训练且专有的前沿语言模型,将其与定制的语言模型结合,融入到一个代理框架、一个推理框架中,该框架允许你访问工具和文件,甚至可能连接到其他代理。这基本上就是...的架构:是现代应用的或人工智能应用的架构。

而我们创建 these 应用的能力是极其迅速的。请注意,如果你给它这个应用,提供它从未见过的信息,或者提供一个与你所想结构不完全一致的结构,它仍然可以对这些数据、这些信息进行推理,并尽力去理解如何解决问题。人工智能。因此,这个基础框架正在被整合,我刚才描述的一切,我们有幸与一些世界领先的企业平台公司合作。

例如 Palantir。

他们整个的人工智能和数据处理平台正在被集成,并由英伟达加速。Service Now,世界领先的客户服务和员工服务平台。Snowflake,世界顶级的云数据平台,那里正在进行着令人难以置信的工作。

CodeRabbit,我们在英伟达全方位使用 CodeRabbit。CrowdStrike 正在创建人工智能来检测、发现人工智能威胁。

NetApp,他们的数据平台现在在其之上集成了英伟达的语义人工智能和智能体系统,供他们进行客户服务。

但重要的是这一点。

这不仅是现在开发应用程序的方式,这将是您平台的(新的)用户界面。

所以,无论是Palantir、Service Now、Snowflake还是我们合作的许多其他公司,智能体系统就是界面。它不再是Excel,不再是那些让你输入信息的方格。也许它不再只是命令行。所有这些多模态信息现在都成为可能。你与你的平台、平台进行交互的方式更加,如果你愿意这么说,更加简单,就像你与人互动一样。这就是企业人工智能正被智能体系统彻底改变的地方。

接下来是物理人工智能。这是我已经谈论了好几年的一个领域。事实上,我们已经在这一领域工作了八年。问题在于,你如何将计算机内部的智能体,那个通过屏幕和扬声器与你交互的东西,转变为能够与现实世界互动的实体,这意味着它能够理解世界运行的基本常识。物体恒存性。

如果我移开视线再看回来,那个物体依然在那里。

因果关系。如果我推它,它就会倒下。它理解摩擦力和重力。它理解惯性。它理解在路上行驶的重型卡车需要更长的时间才能停下来。它理解一个球会一直滚动。这些概念即使对小孩来说也是常识,但对于人工智能来说,却是完全未知的。

因此,我们必须创建一个系统,允许人工智能学习物理世界的常识,学习它的规律,当然,也能够从数据中学习,而这些数据相当稀缺,并且要能够评估该人工智能是否有效,这意味着它必须在一个环境中进行模拟。

如果人工智能不具备模拟物理世界对其行为的响应的能力,它怎么会知道它所执行的行为与其应该做的行为是一致的呢?模拟其行为的响应确实非常重要。否则,就没有办法评估它。它每次都不同。

因此,这个基本系统需要三台计算机。一台计算机,当然是我们知道英伟达(Nvidia)用于训练人工智能模型的计算机。另一台计算机我们知道是用于模型的推理。模型的推理本质上是一台机器人的计算机,它在汽车中运行,或在机器人中运行,或在工厂中运行,在任何边缘位置运行。但必须有另一台专为模拟而设计的计算机。而模拟是英伟达所做几乎所有事情的核心。这是我们最熟悉的地方。模拟是我们用物理人工智能所做几乎一切的基础。所以我们有三台计算机,以及运行在这些计算机上的多个堆栈、这些库,使它们变得有用。

Omniverse 是我们基于物理学的数字孪生模拟世界。如我之前提到的,Cosmos 是我们的基础模型,不是语言的基础模型,而是世界的底层模型。它也与语言相协调。你可以说一些诸如“你知道球发生了什么”之类的话,它们会告诉你球正在沿着街道滚动。所以,一个世界基础模型,当然,还有机器人 Modics 模型。我们有两个。

其中一个叫做 Groot。另一个我将要介绍的是 Alpamio。现在,我们在物理人工智能方面必须做的最重要的事情之一,是首先创建数据来训练人工智能。

这些数据从哪里来呢?而不是像我们创建了大量文本一样,我们认为这些文本是人工智能可以从中学习的真实基础数据。我们如何教人工智能物理学的基本事实?有很多很多的视频。有很多很多的视频,但还远远不足以捕捉我们所需要的多样性和交互类型。

因此,伟大的思想家们齐聚一堂,将原本的计算转变成了数据。现在,利用以物理定律为基础并受其约束、以基本事实为基础并受其约束的合成数据生成技术,我们现在可以巧妙地选择生成数据,然后用这些数据来训练人工智能。因此,例如,进入这个人工智能、这个宇宙人工智能世界模型(在左边这里)的是一个交通模拟器的输出。

现在,这个交通模拟器还远远不足以让人工智能从中学习。我们可以将这个输入到宇宙基础模型中,并生成在物理上基于和物理上合理的(环境),人工智能现在可以从中学习。有非常多的这样的例子。让我向您展示宇宙(模型)能做什么。

物理人工智能的ChatGPT时刻已接近。但挑战是明确的。物理世界是多样化且不可预测的。收集真实世界的训练数据是缓慢且昂贵的,而且永远都不够。答案是合成数据。它始于NVIDIA Cosmos,一个用于物理人工智能的开放前沿世界基础模型,它使用互联网规模的视频、真实驾驶和机器人数据以及3D模拟进行预训练。Cosmos学习了一种统一的世界表征,能够对齐语言、图像、3D和动作。它执行生成、推理和轨迹预测等物理人工智能技能。

从单张图Cosmos可以生成逼真的视频。

从3D场景描述,可以生成物理上一致的运动。来自驾驶遥测和传感器日志、环绕视频。

来自规划模拟器、多摄像头环境,或者来自场景提示,它能让边缘案例生动起来。

开发者可以在Cosmos中运行交互式的闭环模拟。当采取行动时,世界会做出响应。Cosmos进行推理。它分析边缘场景,将其分解为熟悉的物理交互,并推理接下来可能发生什么。Cosmos将计算转化为数据,为自动驾驶汽车训练长尾场景,并训练机器人在每种场景中学习如何适应。

这太不可思议了。Cosmos是全球领先的基础模型。它的下载量已达数百万次。被广泛应用。面向全球,为这个物理人工智能的新时代做好准备。我们自己也在使用它。我们自己用它来制造我们的自动驾驶汽车。利用它进行场景生成和评估,我们可以实实现并在计算机内部有效地行驶数十亿、数万亿英里。

自动驾驶 AI:Alpamayo 与梅赛德斯合作

我们取得了巨大的进步。今天我们发布 Alpamio,世界上第一个具有思考、推理能力的自动驾驶汽车人工智能。Alpamio 经过端到端训练,字面意义上是从摄像头输入到执行器输出。

摄像头输入,它自己驾驶了大量的里程,我们进行人工驾驶,使用人类演示数据。

我们还有 Cosmos 生成的大量里程数据。除此之外,还非常非常仔细地标记了数十万个示例,以便我们能教汽车如何驾驶。Alpamio 做了一些非常特别的事情。它不仅接收传感器输入并激活方向盘、刹车和加速,它还会推理出即将采取的行动,它会告诉你将要采取什么行动,得出该行动的原因,当然,还有轨迹。所有这些都直接耦合,并通过大量人类训练数据以及宇宙生成数据进行非常具体地训练。其结果确实是令人难以置信的。

你的汽车不仅会像你期望的那样驾驶,而且因为它直接从人类演示中学习,所以驾驶得非常自然。但在每一种场景中,当它遇到该场景时,它会进行推理,告诉你它将要做什么,并推理出你将要做什么。

现在,这之所以如此重要,是因为驾驶的“长尾效应”。

在那种情况下,我们不可能收集到所有国家和所有可能发生的所有人群的所有可能发生情况的每一个场景。然而,然而,它非常不可能,每一种场景如果分解成一堆其他更小的场景,对你来说都是很正常的理解。因此,这些长尾场景将被分解为汽车知道如何处理的相当正常的情况。它只需要对此进行推理。那么,让我们来看一看。接下来你们将看到的一切都是一镜到底的。这是不撒手的。

我们八年前开始研发自动驾驶汽车。

这样做的原因是因为我们很早就判断出深度学习和人工智能将要重塑整个计算技术栈。如果我们想要理解如何实现自主导航,以及如何引导行业迈向这个新未来,我们就必须擅长构建整个技术栈。正如我前面提到的,人工智能是一个五层的蛋糕。最底层是基础动力和硬件外壳。在机器人学的案例中,最底层就是汽车本身。再往上一层是芯片。图形处理器、网络芯片、中央处理器,所有这些东西。

再往上的一层是基础设施。

如我之前提到物理人工智能那样,在这种特定情况下,该基础设施就是Omniverse和Cosmos。然后在它们之上是模型。

在我刚才展示的这些模型之上,这里的模型被称为Alpamayo。而Alpamayo今天已开源。

这项令人难以置信的工作,耗费了数千人。为了作一对比,我们的自动驾驶汽车团队就有数千人。我们的合作伙伴Ola,我想Ola就在观众席中的某个地方,梅赛德斯(奔驰),在五年前同意与我们合作,来实现这一切。我们想象,总有一天路上行驶的十亿辆汽车都将是自动驾驶的。你可以选择它是一个你指挥、从别人那里租来的自动驾驶出租车,或者你可以拥有它,它自己驾驶。或者你可以决定自己驾驶。但每一辆车都将具备自动驾驶能力。每一辆车都将由人工智能驱动。

因此,在这种情况下,模型层是 Alpamio,其上方的应用是梅赛德斯-奔驰。因此,整个技术栈是我们英伟达的第一个整体技术栈项目。

我们一直在为此付出努力,我非常高兴 VDIA 的第一辆自动驾驶汽车将在第一季度上路,然后在第二季度进入欧洲,美国是在第一季度,然后欧洲是第二季度,我想是第三和第四季度进入亚洲。有力的是,我们将继续使用下一代 Alpamayo 版本和之后的版本对其进行更新。我对此深信疑。这将是最大的机器人产业之一,我很高兴我们参与其中。它教会了我们如何帮助世界其他地区构建机器人系统方面的海量知识。那种深刻的理解,即知道如何自己构建它,自己构建整个基础设施,以及知道机器人系统需要什么样的芯片。在这种特定情况下,是双重的Orin,下一代的双重Thor。

这些处理器是为机器人系统设计的。

并且是为最高级别的安全能力而设计的。

这辆车刚刚获得了评级。它刚刚投入生产。

梅赛德斯-奔驰CLA刚刚被欧洲新车安全评鉴协会(NCAP)评为世界上最安全的汽车。据我所知,它是唯一一个拥有每一行代码、芯片、系统、系统、每一行代码都通过安全认证的系统。整个模型系统基于多样化和冗余的传感器,软驾驶汽车堆栈也是如此。阿尔帕米奥(Alpamio)堆栈是端到端训练的,并具备惊人的能力。然而,除非你永远驾驶它,否则没人知道它是否能保证绝对安全。

因此,我们设置护栏的方式是依靠另一个软件堆栈,一个完整的自动驾驶(AV)堆栈作为底层支撑。整个自动驾驶堆栈都构建为完全可追溯,我们花了大约五年时间构建它,实际上是花了六、七年时间来构建第二个堆栈。这两个软件堆栈是相互镜像的,然后我们有一个策略和安全评估器来决定。

这是我非常有信心并能论证其能非常安全驾驶的事情吗?

如果是,我将让阿尔帕米奥(Alpamio)来执行。如果是我就没有太大信心的情形,并且安全策略评估器决定我们要回到一个非常简单、更安全的护栏系统,那么它就会返回到经典的自动驾驶堆栈。我们是世界上唯一同时运行这两个自动驾驶堆栈的汽车,而且所有安全系统都应该具备多样性和冗余性。我们的愿景是,总有一天,每一辆汽车、每一辆卡车都将实现自动化,我们一直在为实现这个未来而努力。

当然,在梅赛德斯-奔驰的案例中,整个堆栈是垂直集成的。我们共同构建了整个堆栈。我们正准备部署这辆车。我们正准备运营这个技术栈。我们将长期维护这个技术栈。我们将生存下去。

机器人产业与工业数字孪生

然而,如同我们公司所做的其他一切事情一样,我们构建了整个技术栈,但整个技术栈对生态系统是开放的。

并且与我们合作构建L4级自动驾驶和机器人出租车(Robotaxies)的生态系统正在扩大,并且无处不在。我完全期望这会是,这对我们来说已经是一个巨大的业务了。这对我们来说是一个巨大的业务,因为他们用它来训练我们的,训练数据、处理数据以及训练他们的模型。在某些情况下,他们用它来进行合成数据生成,在某些汽车公司中,他们几乎只是构建车内所安装的计算机和芯片。

数据生成在某些情况下,在某些汽车公司中,他们几乎只是构建车内所安装的计算机和芯片。有些公司与我们进行全栈合作。有些公司与我们合作,(或合作)其中的一部分。所以你决定使用多少并不重要。我唯一的要求是在任何可能的地方都使用一点视频。而且,但整个事情是开放的。现在,这将是第一个大规模、主流的、人工智能的、物理性人工智能市场。我想我们现在都可以同意,这已经完全到来了。而这种从非自动驾驶汽车过渡到自动驾驶汽车的拐点,很可能就发生在这个时间点附近。在接下来的10年里,我相当确定,世界上将有非常非常大比例的汽车实现自动驾驶或高度自动驾驶。

但这就是我刚才描述的,使用三台计算机、使用合成数据生成和仿真的基本技术,它适用于所有形式的机器人系统。它可以是一个仅仅是机械臂、一个操作器的机器人。也许它是一个移动机器人。也许它是一个完全拟人化的机器人。因此,机器人系统的下一次发展、下一个时代将是机器人。而这些机器人将会有各种不同的尺寸。我邀请了一些朋友。他们来了吗?

到这边来。以前,现在,其中一件事,其中一件事是,你们有“杰森一家”(Jetsons),他们里面有小小的杰森电脑。它们在“元宇宙”(Omniverse)中进行训练。那这个怎么样?让我们向大家展示一下你们学习如何成为机器人的那个模拟器。你们想看看那个吗?我们来看看那个。请运行它。

我不知道。它是否都完全在机器人内部。还有那个机器人?

那就是你们学习成为机器人的方式?你们所有的一切都是在“云端”(Omniverse)里完成的吗?还有那个机器人?还有那个机器人,是吗?艾萨克、Sim和艾萨克实验室。还有任何想制造机器人的人,没有人会像你一样可爱。但现在我们有了所有,看看我们所有正在制造机器人的朋友们。我们正在制造大的。不,就像我说的,没有人像你们一样可爱。但我们有神经机器人(neurobot),我们有,我们那边有助教机器人(adjubot)。我们这边有乐金(LG)。他们刚刚宣布了一款新机器人。卡特彼勒(Caterpillar),他们拥有有史以来最大的机器人。然而,那个机器人是给您家里送餐的。它连接着优步吃送餐服务(Uber Eats),它就是冲浪机器人(Surf Robot)。我喜欢那些家伙。敏捷性,波士顿动力,令人难以置信。

你有手术机器人,你有来自法国的机械臂机器人。你有通用机器人公司的机器人,数量惊人的不同类型的机器人。

所以这是下一章。

我们将会在未来更多地谈论机器人技术,但它不仅仅是关于机器人——我知道一切都与你们有关——它是关于实现目标,以及世界上最重要、将被物理人工智能和人工智能物理学彻底变革的行业之一,就是英伟达(Nvidia)启动我们所有人的那个行业。如果没有我接下来要谈到的这些公司,这一切将是不可能的,我非常高兴所有这些公司,从楷登电子(Cadence)开始,都将加速一切。楷登电子(Cadence)的 CUDA X 已经集成到他们所有的仿真和求解器中。他们将使用英伟达的物理人工智能来进行不同的物理工厂和工厂模拟。

你将看到人工智能物理学被集成到这些系统中。因此,无论是 EDA 还是 STA,以及未来在机器人系统中,我们将拥有基本上使你们成为可能的相同技术。现在彻底革新这些设计堆栈,新思(Synopsys)。没有新思,新思和楷登电子是完全。在芯片设计的世界中是完全不可或缺的。新思科技(Synopsis)在逻辑设计和知识产权(IP)方面处于领先地位。在楷登电子(Cadence)方面,他们在物理设计、布局布线、仿真和验证方面处于领先地位。

楷登电子在仿真和验证方面非常出色。他们两者都在向系统设计和系统仿真领域迈进。因此,在未来,我们将在新思科技内部设计您的芯片,我们将在这些工具内部设计您的系统,并对所有内容进行仿真和模拟。这就是您的未来。您将诞生于这些平台之中。非常了不起,因此,我们非常高兴能与这些行业合作。

正如我们将英伟达(NVIDIA)集成到 Palantir 和 Service Now 中一样,我们将英伟达集成到计算最密集的仿真行业——新思科技和楷登电子中。今天我们宣布,西门子(Siemens)也在做同样的事情。我们将把 KutaX、物理人工智能、代理人工智能、Nemo、Nemotron 深度集成到西门子的世界中。这样做的原因是……首先,我们将设计芯片,未来所有这些都将由英伟达加速。您对此会非常满意。我们将拥有自主式芯片设计师和系统设计师与我们一起工作,帮助我们,帮助我们进行设计,正如我们今天拥有自主式软件工程师来帮助我们的软件工程师编写代码一样。

因此,我们将拥有自主式芯片设计师和系统设计师。我们将在其中创造你。但然后我们必须制造你。我们必须建造制造你的工厂、生产设施。我们必须设计制造生产线来组装你们所有人。而这些制造工厂本质上将是巨大的机器人。

难以置信,我知道,我知道。

所以你将在计算机中被设计。你将在计算机中被制造出来。你将在计算机中接受测试和评估。在您必须花费任何时间应对重力之前很久,很久以前。我知道。你知道如何应对重力吗?你会跳吗?

你会跳吗?你会跳吗?行了,别炫耀了。

那么现在这个行业,成就英伟达成为可能的这个行业,我非常高兴的是,我们现在创造的技术的复杂性和能力已经达到了一个新的水平,我们现在可以帮助他们彻底变革他们的行业。所以,从他们开始的地方,我们现在有机会回去帮助他们彻底变革他们的行业。让我们来看看我们将与西门子一起做的事情。来吧。

物理人工智能的突破正使人工智能从屏幕走向我们的物理世界。而且恰逢其时,在全球各地建设各种芯片、计算机、救命药物和人工智能工厂之际。随着全球劳动力短缺日益加剧,我们比以往任何时候都更需要由物理人工智能和机器人技术驱动的自动化。人工智能与全球最大工业的交汇之处,正是英伟达和西门子合作的基础。近两个世纪以来,西门子一直在建设全球的工业。现在,它正在为人工智能时代对其进行重塑。西门子已实现集成。

将英伟达-KudaX 库、人工智能模型和 Omniverse 集成到其电子设计自动化(EDA)、计算机辅助工程(CAE)和计算机辅助工程(C-A-E)以及数字孪生工具和平台组合中。我们共同将物理人工智能带入完整的工业生命周期。

从设计和仿真,到生产和运营,再到生产和运营。

我们正处于一场新的工业革命的开端,即由英伟达和西门子为下一代工业构建的物理人工智能时代。难以置信,对吧,各位?你们怎么看?我会抓紧了,就抓紧了。所以,如果你看看全球的模型,毫无疑问。毫无疑问。开放人工智能是当今领先的令牌生成器。生成的开放人工智能令牌比任何其他事物都要多。第二大群体,第二大可能是开源模型。我的猜测是,随着时间的推移,由于有如此多的公司、如此多的研究人员、如此多的不同类型的领域和模式,开源模型将占据绝对的主导地位。

下一代计算架构: Vera Rubin

我们来谈谈一位非常特别的人物。你们想这么做吗?

我们来谈谈Vera Rubin。

她是一位美国天文学家。她是第一位观测到。她注意到星系的尾部移动速度与星系的中心差不多快。我知道。这说不通。这说不通。

牛顿物理学会说,就像太阳系一样,离太阳更远的行星绕太阳公转的速度比离太阳更近的行星慢。

因此,除非存在我们称之为暗体、暗物质的看不见的物质占据空间,否则这种情况就没有意义,尽管我们看不到它。

所以,我们以Vera Rubin的名字命名了我们的下一台计算机。这不是个好主意吗?

我知道。

Vera Rubin的设计旨在应对我们面临的这一根本性挑战。人工智能所需的计算量正在急剧增加。对英伟达图形处理器(GPU)的需求正在急剧增加。需求激增是因为模型每年都在以10倍,一个数量级的速度增长。更不用说,正如我提到的,O1的推出是人工智能的一个转折点。推理不再是一次性的答案,而是一个思考过程。

为了教会人工智能如何思考,在后训练中引入了强化学习和非常可观的计算量。

这不再是监督微调,或者称为模仿学习或监督训练。你现在有了强化学习,本质上是计算机尝试不同的迭代,它在学习如何执行任务。结果是,预训练、后训练和测试时间扩展所需的计算量爆炸式增长。现在我们进行的每一次推理,不再是一次性的,你可以看到人工智能思考的令牌数量,我们很欣赏这一点,它思考得越久,往往会产生更好的答案。因此,测试时间扩展导致每年生成的令牌数量增加5倍。更不用说。

与此同时,人工智能竞赛正在进行中。每个人都在努力达到下一个水平。每个人都在努力达到下一个前沿领域。每当他们到达下一个前沿领域,上一代人工智能的代币成本就开始下降。每年大约下降10倍。每年下降10倍实际上告诉你一些不同的信息。这说明竞争非常激烈。每个人都在努力达到下一个水平,并且有人正在达到下一个水平。

因此,所有这一切都是一个计算问题。你计算得越快,就能越早到达下一个前沿领域的下一层。

所有这些事情都在同时发生。所以,我们决定我们必须每年都推进计算的最先进水平,不能落后一年。现在,我们在一年前半就开始交付GB-200了。现在,我们正处于全面制造阶段。Vera Rubin的。如果Vera Rubin能在今年内完成,那么它现在必须已经投产了。因此,今天我可以告诉大家,Vera Rubin已全面投产。你们想看看Vera Rubin吗?请进。请播放。

恰好赶上人工智能的下一个前沿领域。这是我们如何构建它的故事。

这种架构是一个由六个芯片组成的系统,经过精心设计以协同工作,诞生于极端的代码设计。它始于维拉(Vera),这是一种定制设计的中央处理器(CPU),性能是上一代的两倍,以及Rubin图形处理器(GPU)。Vera Rubin从一开始就经过协同设计,以更快、更低延迟地实现双向和一致的数据共享。然后,17000个组件聚集在Vera Rubin计算板上。高速机器人以微米级的精度放置组件,然后由两颗 Rubin GPU 完成组装,构成 Vera CPU。它能够提供 100 拍浮(Petaflops)的 AI 算力,是其前代的五倍。人工智能需要数据。快。ConnectX9 为每颗 GPU 提供每秒 1.6 太比特(terabits per second)的横向扩展(scale-out)带宽。Bluefield 4DPU 卸载了存储和安全任务,使计算能够完全专注于人工智能。Vera Rubin 计算托盘进行了彻底重新设计,取消了电缆、软管或风扇,配备了 Bluefield 4 DPU、8 个 ConnectX9、2 个 Vera CPU 和 4 个 Rubin GPU。Vera Rubin 人工智能超级计算机的计算构建模块。

接下来是第六代 MV 链路交换机。传输的数据量超过全球互联网,连接 18 个计算节点,可扩展多达 72 颗 Rubbin GPU,作为一个整体运行。然后是 Spectrum X 以太网光模块(Photonics)。这是世界上首款拥有 512 条通道和 200 千兆位(gigabit)兼容共封装光模块的以太网交换机,可横向扩展数千个机架,构建成一个人工智能工厂。自设计启动以来历经 15,000 工程师年,首台 Vera Rubin MVL 72 机架上线。六款突破性芯片,18个计算托架,9个MV-link交换模块,220万亿晶体管,重近两吨。迈向人工智能下一前沿的巨大飞跃。Rubin在这里。

极端协同设计与性能参数解析

你们觉得怎么样?

这是一个Rubin计算单元,包含1152个图形处理器(GPU)。在16个机架中。正如你们所知,每个机架包含一个72核的Vera Rubin 或72个Rubin单元。每个Rubin单元是两个实际连接在一起的图形处理器芯片。

我将向你们展示

但有些事情,我稍后会告诉你们。我不能马上告诉你们所有事情。

我们设计了六种不同的芯片。首先,我们公司内部有一条规定,而且是一条很好的规定。新一代产品中,芯片的更改数量不应超过一到两个。但问题在于此。正如您所看到的,我们描述了每个芯片中晶体管的总数,而我们知道摩尔定律在很大程度上已经放缓了。因此,我们逐年能够获得的晶体管数量不可能跟上。跟上大 10 倍的模型。跟不上每年生成多五倍的词元(tokens)。

跟不上词元成本下降会如此激进的事实。

除非我们部署激进、极端的代码设计,基本上同时在所有芯片、在整个技术栈中进行创新,否则整个行业不可能以这种速度继续发展,这也是我们决定在这一代产品中别无选择,必须重新设计每一块芯片的原因。现在,我们刚才描述的每一块芯片本身就可以成为一场新闻发布会。在过去,可能有一整家公司专门致力于做这件事。它们每一个都是彻底的革命性的,并且是同类产品中的佼佼者。Vera 中央处理器,我为它感到非常自豪。在一个功耗受限的世界里,在一个受限的世界里。Gray 的中央处理器在功耗受限的世界中实现了两倍的性能。它的每瓦性能是世界上最先进的中央处理器的两倍。它惊人的数据速率令人难以置信。它的设计初衷是用于处理超级计算机。

Vera 曾是一款出色的全球定位系统(GPS),Grace 曾是一款出色的图形处理器(GPU)。现在,Vera 大幅提升了单线程性能,提升了内存容量,提升了所有一切。

这是一个巨大的芯片。

这就是 Vera 中央处理器。这是一个中央处理器。这与Rubin GPU相连。看看那个东西。

它是一个巨大的芯片。现在真正特别的是,我会浏览这些,我想需要三只手,四只手才能做到这一点。这是Vera CPU。它有88个CPU核心。并且CPU核心被设计成多线程的。但是Vera的多线程特性被设计成使得176个线程中的每一个都能获得其全部性能。所以这基本上就像有176个核心,但只有88个物理核心。所以这些核心是使用一种称为空间多线程的技术设计的。但是I/O。性能令人难以置信。这是Rubin GPU。它的浮点性能是Blackwell的5倍。但重要的是看最终结果。最终结果是,它的晶体管数量仅是Blackwell的1.6倍。这在一定程度上说明了当今半导体物理学的水平。

如果我们不对整个系统中的基本上每一块芯片进行代码设计,进行极端的代码设计,那么我们如何才能每年交付性能提升,最多只有1.6倍的水平呢?因为那是你拥有的晶体管总数。即使你每个晶体管的性能提升一点点,比如25%,你也不可能从你获得的晶体管数量中实现100%的良率。因此,1.6倍的提升给每年的性能提升设定了一个上限,除非你采取一些极端的措施。我们称之为极端代码设计。

我们所做的一件事,这是一项伟大的发明,叫做NVFP4张量核心(tensor core)。我们芯片内部的Transformer引擎不仅仅是简单地将我们放入数据路径中的4英尺、浮点数。它是一个完整的处理器,一个处理单元,它知道如何动态地、自适应地调整其精度和结构,以处理转换器(transformer)的不同层次,这样你就可以在任何可以损失精度的地方实现更高的吞吐量,并在任何需要的地方恢复到尽可能高的精度。这种动态执行该操作的能力。你无法在软件中做到这一点,因为显然它的运行速度太快了。因此,你必须能够在处理器内部自适应地完成它。这就是NV-FP4。当有人提到FP4或FP8时,对我们来说几乎没有任何意义。这样做的原因在于张量核心结构以及使之起作用的所有算法。MVP4,我们已经就此发表了论文。它所能保持的吞吐量和精度的水平是完全不可思议的。这是开创性的工作。我不会对业界希望我们将这种格式和结构在未来变成行业标准感到惊讶。这完全是革命性的。这就是为什么尽管我们的晶体管数量只增加了1.6倍,我们仍然能够实现如此巨大的性能飞跃。

硬件工程与冷却技术的革新

那么这就是,现在,一旦你拥有了一个出色的处理节点,这就是处理器节点,在里面,所以这,举个例子,让我这样做,这是非常非常沉重的,你必须是一个身体状况非常好的首席执行官才能做这份工作,所以这个东西是,我猜这可能,我猜这可能,我不知道,几百磅,我觉得这很有趣。来吧。

本可以的。每个人都在往下走。我不这么认为。好吧。所以,所以看看这个。这是最后一个。我们彻底改造了整个MGX机箱。这个节点,43根线缆,零线缆。六根管子,这里只有两根,组装这个需要两个小时。如果你运气好,需要两个小时,需要两个小时。你很可能会组装错。你将不得不重新测试、测试、测试,然后重新组装。所以装配过程极其复杂。考虑到这是我们第一批以这种方式解构的超级计算机之一,这是可以理解的。这个,从两个小时,缩短到五分钟。

80%液冷,100%液冷。

真是,真是个突破。这是新的计算机箱。连接所有这些设备到机架顶部交换机(即东西向流量)的是名为 Spectrum X-NIC 的设备。这是全球最好的网卡。毫无疑问,英伟达对很久以前加入我们的 Mellanox 的收购,他们的用于高性能计算的网络技术是全球最无可匹敌。算法、芯片设计、所有的互连,以及在其上运行的所有软件堆栈,都具有直接内存访问(DMA)功能,绝对,绝对是首屈一指的,全球最好的。现在它具备了可编程远程直接内存访问(RDMA)和数据路径加速器的能力,这样像 AI 实验室这样的合作伙伴就可以创建自己的算法来控制数据在系统内的移动方式。但这是完全世界级的 ConnectX。ConnectX9 和 Vero CPU 是共同设计的,我们从未透露过,直到 CX9 出现才发布,因为我们是为一种新型处理器共同设计它的。

ConnectX9,或者 CX8 和 Spectrum X,彻底改变了以太网在人工智能领域的应用方式。

人工智能的以太网流量要大得多,需要更低的延迟。瞬间的流量激增与以太网所见过的任何情况都不同。

因此,我们创建了 Spectrum X,它就是人工智能以太网。两年前,我们发布了 Spectrum X。

英伟达如今是世界上规模最大的网络公司。因此,它非常成功,并在许多不同的部署中得到了应用。它正在席卷人工智能领域。

性能令人难以置信,尤其是在您拥有一个 200 兆瓦的数据中心,或者一个千兆瓦的数据中心时,这些都是价值数十亿美元的。

我们假设一个千兆瓦的数据中心价值 500 亿美元。如果网络性能允许您在使用 SpectrumX 的情况下额外提升 10%,那么实现 25% 的更高吞吐量并不少见。如果我们仅仅提升 10%,那也价值 50 亿美元。网络方面的投入几乎是免费的,这就是为什么,所有人都使用 Spectrum X。这真是一件不可思议的事情。现在我们将发明一种新的类型,一种新的数据处理类型。因此,SpectromX 适用于东西向流量。我们现在有了一个名为 Bluefield 4 的新处理器。

Bluefield 4 允许我们接管一个大型的、非常大的数据中心,将其不同部分隔离,以便不同的用户可以使用其不同的部分。

确保如果他们决定虚拟化,所有内容都可以被虚拟化。这样您就可以卸载大量用于南北向流量的虚拟化软件、安全软件和网络软件。因此,每个计算节点都标配 Bluefield 4。Bluefield 4 还有第二个应用,我马上会讲到。这是一个革命性的处理器,我对此感到非常兴奋。这是 NVLink 6-6 开关。

就在这里。

这个开关,这个交换芯片,在MVLink交换机内部有四个。这些交换芯片中的每一个都拥有历史上最快的30秒(性能)。全世界的速率才勉强达到200吉字节。这是一个400吉比特每秒的交换机。之所以这非常重要,是因为它能让我们所有的图形处理器(GPU)都能在完全相同的时间与所有其他图形处理器进行通信。这个机架背板上的交换机使我们能够以两倍的速度传输相当于全球互联网数据两倍的总量,即全球所有互联网数据总量的两倍。你获取整个地球互联网的横截面带宽。大约是每秒100太字节。这是每秒240太字节。所以这在一定程度上让人有所认识。这样做的目的是让每一个图形处理器都能与每一个其他的图形处理器在完全相同的时间内协同工作。

可以吗?然后在此之上,在此之上,所以这是一个机架。

这是一个机架。

正如你们所见,这些机架中的每一个,这个机架中的晶体管数量是1.7倍。

你能帮我做这个吗?

所以这通常是大约两吨。

但今天它是两吨半,因为他们运输的时候忘记把里面的水排掉了。

所以我们从加利福尼亚运送了很多水。你能听到它在吱吱叫吗?当你转动两吨半的物体时,它会有点吱吱叫。

你可以做到的。我们不会让你做两次。好的。那么,那么,在这些后面是MV-链路(MV-link)主干线。基本上是两英里的铜缆。铜是我们所知道的最好的导体。而且这些都是屏蔽的铜缆,结构化的铜缆。这是有史以来在计算系统中用过的最多的。我们的冗余单元以每秒400吉比特的速度驱动铜缆,从机架顶部一直到机架底部。这太不可思议了。所以这总共有两英里的铜缆,5,000根铜缆。

这使得中压(MV)链路骨干成为可能。这是真正开启下一代交换机(NGX)系统的革命。

现在,我们决定创建一个行业标准系统,以便整个生态系统、我们所有的供应链都能在这些组件上实现标准化。

构成这些MGX系统的组件总共有大约80,000种。如果每年都更换它,那将是彻底的浪费。从富士康、广达、纬创,名单还在继续,到惠普、戴尔和联想,所有主要的计算机公司。每个人都知道如何构建这些系统。所以,尽管性能要高得多,但我们能够将Rubin 集成到其中,而且非常重要的是,功耗也高了一倍。Vera Rubin的功耗是格蕾丝·布莱克威尔(Grace Blackwell)的两倍。然而,这也是一个奇迹,它所需要的风量,即空气流动,大致相同。

而且非常重要的一点是,进入其中的水的温度也是一样的,45摄氏度。使用45摄氏度的水,数据中心就不需要水冷机了。

我们基本上是用热水来冷却这台超级计算机,这效率高得惊人。所以这就是新的机架。晶体管数量是1.7倍,但峰值推理性能提高了五倍,峰值训练性能提高了三倍半。

可以吗?它们在顶部通过Spectrum X连接。

这是世界上第一个使用台积电(TSM)新工艺制造的芯片,我们共同创新的工艺称为COOP。这是一种硅光子学、集成的硅光子学工艺技术。

这使我们能够直接将硅光子技术应用于芯片。这是512个端口,速率为200千兆比特每秒。这就是新的以太网人工智能交换机,Spectrum X以太网交换机。再看这个巨大的芯片。但真正令人惊奇的是,它直接连接了硅光子技术。激光器进来。激光器从这里进来。激光器从这里进来。光学元件在这里,它们连接到数据中心的其余部分。我马上会向您展示这个,但它在机架的顶部。这是新的。

Spectrum X,硅光子交换机。

语义存储与 KV 缓存上下文内存

好的?我们还有一些新的东西想告诉您。

正如我之前提到,几年前我们推出了 Spectrum X,以便我们能够重塑网络构建的方式。

以太网非常易于管理,每个人都有以太网协议栈,世界上每个数据中心都知道如何处理以太网。我们当时唯一使用的技术是英飞凌(Infiniband),它用于超级计算机。

英飞凌的延迟非常低,但当然,英飞凌的软件协议栈,其整个可管理性对于使用以太网的人来说非常陌生。因此,我们决定首次进入以太网交换机市场。Spectrum X 一经推出便迅速获得成功,正如我所说,它使我们成为世界上最大的网络公司。下一代 SpectrumX 将延续这一传统。但正如我早些时候所说,人工智能已经重塑了整个计算堆栈,计算堆栈的每一层。可以合理地推断,当人工智能开始在世界各地的企业中部署时,它也将重塑存储的构建方式。人工智能不使用 SQL。人工智能使用语义信息。当使用人工智能时,它会创建这种临时知识、临时内存,称为 KV 缓存,即键值组合,但它是一个 KV 缓存。

基本上,就是那个缓存。人工智能,也就是人工智能的工作记忆。而人工智能的工作记忆存储在HBM内存中。对于每一个单独的词元(token),GPU都会读取模型中的整个模型。它读取整个工作记忆,然后产生一个词元。然后它将这个词元存回KV缓存中。然后下一次它执行这个操作时,它会读取整个,它会读取整个内存,读取它,然后将其串流通过我们的GPU,再生成另一个词元。它会反复地这样做,一个接一个地产生词元,显然,如果你与该人工智能进行长时间的对话,随着时间的推移,这个记忆,这个上下文记忆,将会急剧增长。更不用说模型本身在增长,我们使用的轮次数量也在增加。人工智能正在增加。我们希望这个人工智能陪伴我们一生,并记住我们与它有过的每一次对话,我让它进行的每一次研究。当然,将要共享这台超级计算机的人数还会持续增加。因此,这个最初能够容纳在HBM(高带宽内存)中的上下文内存,已经不再足够大了。

去年,我们创造了Grace Blackwell中非常快的内存,我们称之为快速上下文内存。

这就是我们将Grace直接连接到Hopper的原因,这就是我们将Grace直接连接到Blackwell的原因,以便我们能够扩展上下文内存。但即使那样也不够。所以下一个解决方案,当然是连接到网络,即南北网络,连接到公司的存储。但是,如果您同时运行大量人工智能,该网络的运行速度将不再足够快。所以答案非常明确,那就是采取不同的做法。因此,我们创建了Bluefield 4,以便我们可以在机架中直接拥有一个非常快速的KV缓存上下文内存存储。

所以我在一秒钟后就会向您展示,但存在一个全新的存储系统类别。

业界对此感到非常兴奋,因为这对于当今进行大量 Token 生成的几乎所有人来说都是一个痛点,人工智能实验室、云服务提供商都深受由 KV 缓存(KV Cache)移动所产生的网络流量的影响。

因此,我们设想创建一个新的平台、一个新的处理器,来运行整个 Dynamo KV 缓存上下文内存管理系统,并将其非常靠近机架的其他部分,这完全是革命性的。

所以,这都是计算节点。它们每一个都是 NVLink 72。

所以这是 Vera Rubin,MVLink 72,144 个 Rubin GPU。这就是存储在这里的上下文内存。

在它们每一个的后面都是四个蓝色区域。每个蓝色区域后面是 150 GB,150 TB 的内存,即上下文内存。对于每个 GPU,一旦你进行分配,每个 GPU 将获得额外的 16 TB。现在在这个节点内部,每个GPU基本上都有一个太字节的容量。现在,有了这个回程,你直接在同一东西向流量上以完全相同的数据速率,每秒200吉字节进行存储。在整个计算节点的结构中,你将获得额外的16太字节的内存,好的?这是管理平面。这些是Spectrum X交换机,它们将所有设备连接在一起。而在另一边,末端的这些交换机将它们连接到数据中心的其余部分。好的?所以这就是Vera Rubin。

现在,关于它,有几件事真的非常了不起。因此,我提到的第一件事是,整个系统的能源效率提高了两倍,从某种意义上说,其温度性能也提高了两倍,因为尽管功耗是两倍高,使用的能量是两倍高,计算量比那高出很多倍,但进入的冷却液仍然是45摄氏度。这使我们能够节省全球约6%的数据中心电力。所以这是一件非常重大的事情。

第二个非常重大的进展是,整个系统现在是机密计算安全的,这意味着所有数据在传输中、静止时以及计算过程中都经过了加密。并且每一条总线现在都经过了加密。每一个PCI Express、每一个NV Link、每一个,CPU和GPU之间的NV Link、GPU之间的连接。现在一切都经过了加密。因此,它是机密计算安全的。这使得公司感到安全,因为即使他们的模型是由其他人部署的,也绝不会被任何其他人看到。好吗?因此,这个特定的系统不仅能源效率极高,而且还有另一件令人难以置信的事情。由于人工智能工作负载的性质,它会随着一个称为“全约简”(all reduce)的计算层而瞬间出现峰值。电流的量、使用的能量,但同时是真正地超出了常态的。通常情况下,它们会激增25%。我们现在已经在整个系统上实现了电源平滑处理,这样您就不必过度配置25倍,或者如果您过度配置了25倍,您也不必浪费或闲置25%的能源。所以现在你可以填满整个功耗预算,而无需过度,无需继续,无需超出该范围进行配置。

训练效率、成本对比与结语

然后最后一件事,当然是性能。所以我们来看看性能。这一点。这些图表是只有构建人工智能超级计算机的人才会喜欢的。这需要我们对每一块芯片、对所有系统的完全重新设计,以及重写整个技术栈,才得以实现。基本上,这一列是训练人工智能模型。你训练人工智能模型越快,你就能越快地将下一个前沿技术推向世界。这是你的上市时间。这就是技术领导力。这是您的定价。能力。

因此,在绿色的情况下,这本质上是一个拥有10万亿参数的模型。

我们从DeepSeek(深度探索)将其规模扩大,DeepSeek,这就是我们称之为DeepSeek++的原因,训练了一个拥有10万亿参数的模型,使用了十万万亿个词元。好的。这是我们对构建下一个前沿模型所需投入的模拟预测。下一个前沿模型,埃隆已经提到过,GROC(格罗克)的下一个版本,我认为是GROC 5,是每锤7万亿参数。所以这是10。绿色代表Blackwell。而在Rubin的情况下,请注意,吞吐量要高得多,因此,在给定的一组系统(此处为训练所需系统数量)中,只需要四分之一的系统就能在一个月内训练完模型。

好的吗?因此,时间对每个人来说都是一样的。

现在,您能多快训练该模型以及您能训练多大的模型,将决定您何时能率先达到前沿水平。第二部分是你的工厂吞吐量。Blackwell 又变绿了。工厂吞吐量之所以重要,是因为在千兆瓦的情况下,你的工厂价值500亿美元。

一个价值500亿美元的数据中心只能消耗一千兆瓦的电力。因此,如果你的每瓦性能、每瓦吞吐量非常好,与相当差的相比,这直接转化为你的收入。

你数据中心的收入与第二列直接相关。在 Blackwell 的情况下,它比 Hopper 高出约10倍。在 Rubin 的情况下,它将再次提高约10倍。好的。在代币成本方面,生成代币的成本效益如何,Rubin 约为十分之一,正如……是的。

这就是我们将如何把所有人带到下一个前沿,将人工智能推向新水平的方式。

当然,还要以高能效和高成本效益来建设这些数据中心。这就是全部了。这就是今天的英伟达。

你们知道,我们提到我们制造芯片,但正如你们所知,英伟达现在制造的是整个系统。

人工智能是一个完整的技术栈。我们正在对从芯片到基础设施、再到模型和应用的方方面面进行人工智能的重塑。我们的工作是构建完整的技术栈,以便在座的各位可以为全世界创造出令人难以置信的应用。感谢大家的到来。祝大家有一个愉快的国际消费电子展(CES)。现在,在我让大家离开之前,我们有很多幻灯片没有用上。所以我们这里放了一些花絮片段。我想这对你们来说会很有趣。祝大家CES(国际消费电子展)愉快。收工。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。