当前位置: 首页 » 资讯 » 科技头条 » 正文

英伟达称Blackwell每兆瓦吞吐量是Hopper的50倍

IP属地 中国·北京 编辑:胡颖 IT之家 时间:2026-02-18 16:07:48

IT之家 2 月 18 日消息,英伟达于 2 月 16 日发布博文,宣布其 Blackwell Ultra AI 架构(GB300 NVL72)在能效与成本上实现显著突破,通过 DeepSeek-R1 模型测试,相比前代 Hopper GPU,其每兆瓦吞吐量提升 50 倍,百万 tokens 成本降低至 35 分之一。

此外,英伟达还预告了下一代 Rubin 平台,预计其每兆瓦吞吐量将比 Blackwell 再提升 10 倍,进一步推动 AI 基础设施的演进。

IT之家注:每兆瓦吞吐量(Tokens / Watt)是衡量 AI 芯片能效比的核心指标,指每消耗一瓦特电力能处理多少 Token(文本单位)。数值越高,代表能效越好,运营成本越低。

英伟达在博文中指出,性能飞跃的关键,是升级技术架构。Blackwell Ultra 通过 NVLink 技术,将 72 个 GPU 连接成统一的计算单元,互联带宽高达 130 TB/s,远超 Hopper 时代的 8 芯片设计。此外,全新的 NVFP4 精度格式配合极致的协同设计结构,进一步巩固了其在吞吐性能上的统治地位。

AI 推理成本方面,相比 Hopper 架构,新平台将每百万 Token 的成本削减至 35 分之一;即便与上一代 Blackwell(GB200)相比,GB300 在长上下文任务中的 Token 成本也降低至 1.5 分之一,注意力机制处理速度翻倍,适配代码库维护等高负载场景。

OpenRouter 的《推理状态报告》指出,与软件编程相关的 AI 查询量在过去一年中激增,占比从 11% 攀升至约 50%。这类应用通常需要 AI 代理在多步工作流中保持实时响应,并具备跨代码库推理的长上下文处理能力。

英伟达为应对这一挑战,通过 TensorRT-LLM、Dynamo 等团队的持续优化,进一步提升了混合专家模型(MoE)的推理吞吐量。例如,TensorRT-LLM 库的改进,让 GB200 在低延迟工作负载上的性能在短短四个月内提升了 5 倍。

标签: 能效 性能 处理速度 格式 协同 数值 指标 架构 核心 技术 关键 连接成 状态 软件 模型 单元 报告 编程 专家 注意力 机制 消耗 成本 文本 单位 代表 芯片 精度 结构 平台 博文 地位

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。