英伟达刷新DeepSeek V4推理纪录：单Token成本降至1/5

IP属地中国·北京 编辑：孙明 IT之家 时间：2026-07-01 18:13:37

7 月 1 日消息，英伟达昨日（6 月 30 日）发布博文，宣布在英伟达 Blackwell 平台上，通过优化全栈推理，相比较 DeepSeek V4 模型 1 个月前上线初期，单 Token 成本最多降至五分之一。
IT之家注：单 Token 成本（Cost Per Token）指模型生成或处理单个 token 的成本指标，常用于比较不同硬件、软件栈或部署方式的推理成本表现。
英伟达在博文中表示已将单 Token 成本列为 AI 总拥有成本的核心指标，并表示针对 DeepSeek v4 模型，Blackwell 平台已将其降低至行业最低水平。
在技术实现方面，英伟达通过生产运营层、应用加速层、基础设施访问层 3 层来优化推理：
生产运营层负责分布式服务、编排、自动扩缩容和内存管理；
应用加速层负责运行时优化，如计算与通信重叠、内核融合；
基础设施访问层负责调用 GPU、网络、内存与系统能力。
性能方面，英伟达通过分离式服务、大规模专家并行、基于 NVIDIA NVLink 的并行通信、NVFP4 精度以及多 token 预测等技术，叠加优化后，Blackwell 平台单 GPU 的 token 吞吐量最高可提升 20 倍。

标签：成本系统方面能力软件技术模型 基础设施 分离式 平台内核专家部署方式内存性能指标纪录行业 最低水平 网络核心硬件

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

微软新一轮裁员波及销售、咨询及Xbox部门，规模或达数千人

从疯狂翻表到群里直接@AI：飞书来了个新同事，把脏活累活全包了

华为极简全闪数据中心2.0发布，加速AI时代“数智普惠一步到位”

实锤了：Claude Code偷查用户，时区、中国AI实验室全是关键词

10年砸1800亿，百度终于养出一个比自己还贵的“儿子”

英伟达刷新DeepSeek V4推理纪录：单Token成本降至1/5

全站最新

法拉利首款纯电Luce亚洲首秀引热议：88台配额锁定订金40万起试驾待明年

微软新一轮裁员波及销售、咨询及Xbox部门，规模或达数千人

从疯狂翻表到群里直接@AI：飞书来了个新同事，把脏活累活全包了

华为极简全闪数据中心2.0发布，加速AI时代“数智普惠一步到位”

热门推荐

马斯克的“银行”：X Money美国上线，年化收益6%

小米超级小爱已支持控制微信，一句话发消息、打电话

宁德时代在洛阳成立新能源公司注册资本1000万

美团在温州成立科技公司

米哈游在上海成立新公司

性能提升超两倍：英伟达发布 Nemotron-Labs-TwoTower 扩散语言模型

Anthropic Claude系列大模型正式登陆Microsoft Foundry并托管于Azure云

微软新一轮裁员波及销售、咨询及Xbox部门，规模或达数千人

从疯狂翻表到群里直接@AI：飞书来了个新同事，把脏活累活全包了

华为极简全闪数据中心2.0发布，加速AI时代“数智普惠一步到位”

康迪科技子公司获施耐德电气经销授权推进AIDC备用电源及储能业务布局

实锤了：Claude Code偷查用户，时区、中国AI实验室全是关键词

10年砸1800亿，百度终于养出一个比自己还贵的“儿子”

英伟达刷新DeepSeek V4推理纪录：单Token成本降至1/5

松下抛弃动力电池转攻AI，官宣5000亿日元巨额投资