千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

IP属地中国·北京 智通财经 时间：2026-05-02 00:07:41

智通财经APP获悉，4月29日，千问大模型宣布，正式开源 FlashQLA ，一个基于 TileLang 实现的高性能线性注意力算子库。FlashQLA 将 GDN Chunked Prefill 的前向和反向进行了合理的算子融合与性能优化，在 NVIDIA Hopper 上实现多场景相较于 FLA triton Kernel 2-3× 前向加速和 2× 反向加速。对于预训练场景和端侧 agentic 推理效率提升明显。
千问团队表示，自 Qwen3-Next 发布以来，Gated Delta Network (GDN) 已成为 Qwen 全系列的主力注意力层，从 Qwen3-Next-80B-A3B 一路延伸到后续推出的 Qwen3.5 / Qwen3.6 系列。随着模型规模扩展到 397A17B、122A10B、35B、27B，GDN 在端到端训练与推理中的开销也变得不可忽视。
据介绍，本次发布的核心亮点在于：Gate驱动的自动化卡内序列并行。利用 GDN gate 的指数衰减性质，FlashQLA 在 TP、长序列、小头数等场景下自动开启卡内序列并行，提高 GPU SM 利用率；硬件友好的代数改写。对 GDN Chunked Prefill 的前向和反向流程进行一定程度的改写，在不影响数值精度的前提下有效降低了 Tencosr Core、 CUDA Core 及 SFU 开销。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI 批量造 App，也在批量埋雷

OpenAI内部Token流向剧变，Codex几乎“通吃”

马斯克获准收购初创公司Mesh，加码AI数据中心光通信布局

奥特曼回应GPT‑5.6发布受限：不喜欢美政府挑选客户

长城H10内饰设计详解：配备智能冰箱、17.3英寸吸顶屏等

18.2%涨幅：IDC预估苹果iPhone 18 Pro起价上涨200美元

全站最新

AI 批量造 App，也在批量埋雷

OpenAI内部Token流向剧变，Codex几乎“通吃”

马斯克获准收购初创公司Mesh，加码AI数据中心光通信布局

奥特曼回应GPT‑5.6发布受限：不喜欢美政府挑选客户

热门推荐

AI 批量造 App，也在批量埋雷

OpenAI发布最强模型GPT-5.6，却因美国政府要求“一客一审”

OpenAI内部Token流向剧变，Codex几乎“通吃”

马斯克获准收购初创公司Mesh，加码AI数据中心光通信布局

奥特曼回应GPT‑5.6发布受限：不喜欢美政府挑选客户

长城H10内饰设计详解：配备智能冰箱、17.3英寸吸顶屏等

18.2%涨幅：IDC预估苹果iPhone 18 Pro起价上涨200美元

苹果2026首部院线发行新电影：《丹增》官宣，聚焦人类首次登顶珠穆朗玛峰

Apple Store缔造者：约翰逊回顾称乔布斯反对把门店开进购物中心

中国新能源车卷出“FUV元年”

GPT-5.6来了：旗舰版碾压GPT-5.5，价格却没涨

曝苹果Vision Pro项目高管保罗·米德即将离职，加盟OpenAI硬件部门

马斯克发声支持库克：内存价格暴涨“前所未见”

遭制裁后稀土供应不足：富士电机两名员工从中国走私稀土至日本被抓

SpaceX将于7月7日正式纳入纳斯达克100指数