华为云Tokens服务接入384超节点，中国算力需求过去一年半已激增300倍

IP属地中国·北京 编辑：孙雅凤凰网科技 时间：2025-08-28 12:23:51

8月28日，在8月27日举办的第四届828 B2B企业节上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点。通过新型xDeepServe架构，单芯片Token处理性能提升至2400TPS（每秒处理Token量），时延降至50ms，较年初1920TPS实现显著突破。
此次突破也发生在国内算力需求激增300倍的背景之下。过去18个月，中国AI算力需求呈现指数级增长。数据显示，2024年初中国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已突破30万亿，反映了我国人工智能应用规模快速增长，也对算力基础设施的需求提出了更大的挑战。
在以往按卡时计费的基础上，今年3月，华为云正式推出了基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。
实际上，性能的突破考验的从不是单点的能力，而是从软件到硬件的全面重构，这恰恰是华为“大杂烩”能力的优势所在。
更为通俗的说，CloudMatrix384超节点架构就像是华为构建的一个“全自动化超级工厂”，通过 UB 总线（超级传送带）连接 384 个 AI 芯片和 192 个 CPU，让数据像流水一样自由流动，彻底打破传统机房“服务器格子间”的物理限制。xDeepServe架构可以把大模型推理比喻成一个汽车组装车间，不同车间对应不同任务，有的专注语义理解，有的专注基础计算，有的专注专业任务，如果遇到复杂如长文本这类的任务，可随时给某个车间的公认加配NPU，避免资源浪费，最终实现单芯片的性能跃迁。另外，分布式引擎FlowServe会把CloudMatrix384 切成完全自治的 DP 小组，每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈，完全自给自足，做到千卡并发也不“拥堵”。
目前，华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。
华为云积累了大量模型性能优化、效果调优的技术和能力，从而实现“源于开源，高于开源”，让更多大模型可以在昇腾云上跑得更快更好。
就在近日，国务院刚刚印发了《关于深入实施“人工智能+”行动的意见》，这意味着以Token为动力的智能社会已经到来，而华为云的系统级创新能力和全新的Tokens服务有助于AI加快落地。

标签：华为 token 模型 ai 算力车间架构 单芯片 日均性能

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

欧洲航天局与挪威签署意向书，计划建设北极航天中心

TCL推出QD-Mini LED艺术电视A400 Pro，7999元起

两个“卖铲”程序员，不营销却不到2年撬动7个亿

没红绿灯的太空开始“堵车”了，“感知卫星”成了商业航天的新战场

Windows新Bug密码登录图标不见：微软建议“盲操”

一加Ace 6T手机配备3D超声波指纹、满级防尘防水等

全站最新

欧洲航天局与挪威签署意向书，计划建设北极航天中心

TCL推出QD-Mini LED艺术电视A400 Pro，7999元起

两个“卖铲”程序员，不营销却不到2年撬动7个亿

没红绿灯的太空开始“堵车”了，“感知卫星”成了商业航天的新战场

热门推荐

拥抱万亿级消费大市场，汽车产业迎广阔新机遇

欧洲航天局与挪威签署意向书，计划建设北极航天中心

迈威生物抗ST2单抗创新药9MW1911公布IIa期临床研究结果

TCL推出QD-Mini LED艺术电视A400 Pro，7999元起

四中全会精神解读·市场最前沿|织起全国一张网，看算力普惠按下“加速键”

迈威生物创新药9MW1911公布IIa期临床研究结果

两个“卖铲”程序员，不营销却不到2年撬动7个亿

机器人集结视频被美国人质疑造假中国公司回应

没红绿灯的太空开始“堵车”了，“感知卫星”成了商业航天的新战场

Windows新Bug密码登录图标不见：微软建议“盲操”

一加Ace 6T手机配备3D超声波指纹、满级防尘防水等

科研小家的追“光”路

鸿蒙智行新款享界S9已开始发运将在全国陆续开始交付

蔚来全新ES8已交付超过20000辆用时仅70天

李斌盈利的底气：乐道越卖越多，“蔚来”越卖越少？