![]()
近年来,大语言模型参数的持续膨胀,带来了极高的显存占用和算力需求,在 PC、手机和 IoT 等资源受限的端侧设备上部署前沿大模型十分困难。因此大语言模型轻量化的研究势在必行,量化(Quantization)成为主流的轻量化方案。然而,量化端侧部署目前受制于 “不可能三角”:后训练量化(PTQ)在极低比特下精度崩塌;量化感知训练(QAT)算力成本极高;而现有的量化感知蒸馏(QAD)又缺乏灵活性。
由南京大学机器学习与数据挖掘研究所(LAMDA)和微软 AI 联合推出的开源工具库 EdgeRazor,直击端侧部署的核心痛点,一举打破了极低比特大语言模型 “能力塌陷” 的魔咒;其核心采用混合精度量化感知蒸馏(MPQAD),不仅保障了更低成本的训练,更支持了灵活的训练数据配比,成功构建出一个开源、即插即用的轻量化框架。论文通讯作者为南京大学 LAMDA 团队张绍群助理教授。
![]()
论文标题:EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation论文地址:https://arxiv.org/abs/2605.04062GitHub 链接:https://github.com/zhangsq-nju/EdgeRazorHugging Face 链接:https://huggingface.co/collections/zhangsq-nju/edgerazor-nbitPlayground 链接:https://huggingface.co/spaces/zhangsq-nju/EdgeRazor-PlayGround
端侧破局:兼得 SOTA 与 15 倍加速
![]()
图 1:EdgeRazor 和基线算法在基础型、指令微调型和多模态大模型上的性能表现
全面评测,性能领跑:EdgeRazor 在基础型(MobileLLM-350M)、指令微调型(Qwen3-0.6B/1.7B)和多模态(Qwen2.5-Omni-7B)大模型上开展了系统的性能评测。评测范围包括常识推理、指令遵循、数学推理、代码生成以及视频理解类型的 16 个下游任务。如图 1 所示,面对当前主流 PTQ、QAT 及 QAD 方法,EdgeRazor 在各类模型架构和比特位宽下均保持性能的领先,确立了全新的 SOTA 性能基准。
![]()
图 2:Qwen3-1.7B-EdgeRazor 在 PC 端和手机端部署效果演示
端侧部署,丝滑落地:为了展示真实受限资源下的工程落地,EdgeRazor 提供了适配于端侧部署的 DEMO。如图 2 所示,在 PC 端和手机端的 CPU 部署场景下,EdgeRazor 释放出极高的推理潜能。相较于 16-bit 基座模型,其解码速度分别实现了 16× 和 12× 的飞跃,整体端到端响应速度也获得了 10× 和 11× 的大幅提升,真正赋予了本地轻量化模型丝滑、“秒回” 的体验。
![]()
图 3:EdgeRazor 和基线算法在 Qwen3-0.6B 模型上 2-bit 量化尺度的性能表现
打破魔咒,拒绝塌陷:在极低比特位宽下,量化模型的复杂推理能力往往最先遭遇灾难性衰退,但 EdgeRazor 打破了这一魔咒。如图 3 所示,在 GSM8K(数学推理)和 HumanEval(代码生成)复杂任务上,现有主流 2-bit 方法普遍出现性能的断崖式下跌,甚至面临彻底失效的困境。相比之下,EdgeRazor 即使在 1.88-bit 这种极低比特预算下,依然展现出较好的稳健性,其任务表现显著优于同类 2-bit 方法。
![]()
图 4:EdgeRazor 和 ParetoQ 在 MobileLLM-350M 模型上的性能表现和训练开销
十倍轻训,降本增效:高质量的低比特模型往往依赖庞大的训练开销,而 EdgeRazor 彻底打破了这一现状。如图 4 所示,在 MobileLLM-350M 上,EdgeRazor 不仅在全比特位宽下超越了性能最强的 QAT 基线 ParetoQ,更在训练效率上实现了大幅优化。其训练所需的 tokens 数量缩减了 75%–90%(最低仅需 3.1B,而基线高达 30B)。
![]()
图 5:EdgeRazor 和基线算法在 Qwen3-0.6B 模型下的量化比例和压缩比
全员量化,刷新极限:传统的量化方法往往因规避精度崩溃而对嵌入层和语言模型头 “手下留情”。如图 5 所示,这导致模型整体的真实量化参数覆盖率仅 73.89%,然而 EdgeRazor 突破了这一妥协,实现了 99.99% 的极高量化参数覆盖率,并且在 1.58-bit 极低比特下达到了突破性的 7.03× 压缩比,远超传统方法 2.94× 的瓶颈。
![]()
图 6:EdgeRazor 在 llama.cpp 推理框架上测试 Qwen3-0.6B 的效率表现
EdgeRazor 选取 Qwen3-0.6B 为基座模型,依托开源推理框架 llama.cpp,在纯 CPU 算力环境下(Apple M4 Pro)进行推理效率评测。
百兆体积,轻量部署:如图 6 所示,相较于 16-bit 基座模型,1.58-bit EdgeRazor 量化模型将磁盘占用压缩至 1/5.8(仅约 190MB),峰值运行内存降至 1/2.9。百兆级别的轻量资源占用,扫清了大模型向智能手机、IoT 等内存受限设备迁移的物理障碍。十五倍速,解码狂飙:如图 6 所示,1.58-bit EdgeRazor 量化模型的预填充吞吐量不仅达到了基座模型的 2.11×,在对用户体验起决定性作用的自回归解码环境,速度更是实现了 15.16× 的爆炸级提升。这标志着端侧大模型迈入 “秒回” 级别的全新阶段。
即插即用:一键训练轻量化大模型
![]()
图 7:EdgeRazor 用于轻量化模型训练的流程图
EdgeRazor 不仅在性能与效率上追求极致,在工程易用性上也同样力求开发者友好。如图 7 所示,EdgeRazor 被设计为一个高度模块化的开源工具库。开发者无需精通底层的复杂量化感知蒸馏逻辑,通过统一的配置文件(配置量化比例、目标比特数和蒸馏损失等内容),将庞大的 16-bit 模型训练为 1.58-bit 轻量化模型。其核心使用优势包括:
代码解耦,即插即用:零侵入式设计。只需寥寥数行代码配置,EdgeRazor 就能无缝并入开发者现有的全精度大模型训练流水线,完全不需要重构底层的训练代码。极简配置,一键启动:EdgeRazor 通过三个输入(16-bit 模型、自由配比的数据和配置文件),即可输出各种低比特模型(例如,1.58-bit 模型)。混合数据,配比自由:相比于传统的 QAD 方法只支持蒸馏 16-bit 模型的数据进行训练,EdgeRazor 还支持人类标注数据和高质量模型合成数据,训练数据配比自由。繁杂底层,自动接管:框架内部接管了繁杂的底层操作。从加载各种格式的配置,利用量化选择器为特定层注入量化实现(QAT 模块),到同步计算各种蒸馏损失(KD 模块),全流程自动化闭环。算力降维,单机可训:告别传统 QAT 方法对庞大算力的依赖(例如,ParetoQ 使用了 16 张显卡,消耗了 30B tokens)。EdgeRazor 在常规单机多卡环境下即可完成训练(相同模型只使用了 8 张显卡,消耗了 3.1B tokens)。
核心架构:三大模块攻克极低比特
![]()
图 8:EdgeRazor 框架的核心模块
开发者友好的易用性背后,是核心算法的支撑。如图 8 所示,EdgeRazor 采用混合精度量化感知蒸馏范式来压缩各类型的大模型,其核心创新主要由以下三个模块构成:
混合精度的结构量化(Structural Quantization with Mixed Precision, SQMP):打破传统量化统一位宽的设定。SQMP 支持将 4-bit 和 1.58-bit 在输入通道维度进行细粒度的灵活混合(例如实现 1.88-bit 或 2.79-bit 的平均位宽)。这不仅能精准契合实际硬件的资源预算,交错的 4-bit 高精度行还能作为 “缓冲区”,有效吸收激活异常值带来的量化误差。层自适应的特征蒸馏(Layer-Adaptive Feature Distillation, LAFD):告别盲目的人工调参。LAFD 通过计算教师模型相邻层的余弦相似度(表征结构变换程度),自适应地找出对特征转换最关键的 Top-k 层进行重点特征蒸馏。从而将 “好钢用在刀刃上”,不仅避免了盲目依赖人工经验去启发地选择蒸馏层,还有效阻止了量化误差在层间的放大。熵感知的 KL 散度(Entropy-Aware KL Divergence, EAKLD):摆脱了对教师模型生成数据的强依赖。EAKLD 纯粹依靠教师模型输出分布的熵来动态调节前向 KL 散度与反向 KL 散度的比例。这使得 EdgeRazor 能够完美兼容人工标注数据和高质量模型合成数据,实现了训练数据的配比自由。
总结
回归到轻量化的初衷,EdgeRazor 想解决的并不是单纯的 “跑个分”,而是一个更底层且务实的问题:如何通过一套统一的算法框架,让各种架构、各种参数规模的大模型低成本地转化为在资源受限环境(例如,手机和 PC 等端侧设备)下可部署的低比特轻量化版本。其实现的开源工具库打通了 “低成本量化”、“轻量化训练” 与 “极低成本部署” 的 AI 全生态链路,为个人 AI 助理的普惠化与私密化提供有力的解决方案。





京公网安备 11011402013531号