清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军，NPU推理提速4.1倍

IP属地中国·北京 编辑：赵云飞 Chinaz 时间：2026-05-25 10:31:51

清华大学存储实验室与腾讯混元AI Infra团队近日联合宣布，在国际机器学习系统顶级会议MLSys2026举办的MoE模型推理优化挑战赛中荣获全球冠军。
面对万亿参数时代混合专家（MoE）架构在异构芯片(NPU)上的推理性能瓶颈，联合团队针对官方指定模型及NPU硬件设计了全链路优化方案。通过引入按专家拆分双核任务的E-Shard策略、PSUM三维张量批量读出、打散输出至多Bank并发的GEMV路径，以及利用标量引擎降低初始搬运延迟等组合拳，团队成功攻克了数据搬运不充分、激活反复搬运等底层算子痛点。
同时，针对注意力模块，团队重构片上数据布局并融合Transformer关键算子，实现了比特级高精度对齐。
图3:MoE 优化结构示意图，包含E-Shard专家切分、连续 DMA、PSUM/GEMV并发、冷启动流水和预取控制。
在此次角逐中，团队还联合研发了基于Agent的推理算子优化器“Knight”，通过方案提出、代码落地与复盘迭代的自动化闭环，大幅拓展了优化搜索空间。最终，该方案将模型端到端推理时间由14.91s缩短至3.56s，性能加速达4.1倍;单步解码延迟从12.63ms降至5.45ms，权重加载期间的DMA引擎利用率攀升至约80%。
击败Stanford、MIT等国际顶尖高校夺冠，不仅彰显了我国团队在大模型底层系统适配与算子优化上的深厚积累，也为未来超节点算力平台部署万亿参数MoE模型提供了极具价值的工程范式。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

AMD与联想强强联手，BW2026首发锐龙AI Max新品，开启AI笔记本新体验

工信部第409批车辆公告出炉：小米澎程系列领衔，多款新车集中亮相

全站最新

比亚迪携五款新能源车型登陆阿塞拜疆助力当地开启绿色出行新篇章

捷达M6申报图亮相：轴距2820mm空间宽敞，2026年下半年将入市

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

热门推荐

联想YOGA Pro 15锐龙AI本亮相：50TOPS算力+64GB内存轻薄机身满足多元创作需求

小红书首届全员黑客松来袭，50万大奖+直通孵化项目等你挑战

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

长征十号乙海上网系回收成功，外媒关注：中国航天迈出追赶SpaceX新步伐

智元精灵G2获中美欧多地认证开启具身智能机器人全球商用新篇章

从预热到官宣！小米澎程N90与N70的“空间魔法”全揭秘

小米澎程N90 Max官图亮相，前脸车侧车尾全视角一览无余

Meta收购Virtue AI核心团队，为超级智能计划筑牢安全防线

十亿级参数纯华语AI音乐大模型问世，打通字节七大平台开启创作新篇

字节跳动公益基金会捐2000万支援灾区平台带动超200万人捐款助力

AI竞争白热化！扎克伯格“现身”X宣传，马斯克互动调侃成焦点

雷军分享小米澎程N90座舱：七座布局多样场景满足六至七口人需求

小米澎程首款SUV SkyNomad N90命名公布，座舱空间多元场景自由切换