![]()
这项由香港理工大学联合PolyU-大亚湾技术创新研究院及InfiX.ai共同完成的研究,以预印本形式于2026年5月16日公开发布,论文编号为arXiv:2605.16882。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文,代码已开源于github.com/wwjzhy/E-PMQ。
一、从一个真实的部署难题说起
手机里的AI助手、平板上的图像识别、耳机里的语音翻译——这些功能背后都藏着神经网络模型。然而,这些模型往往体积庞大,动辄占用几个GB甚至几十GB的存储空间,想把它们塞进一部手机或者一个边缘设备,就好像试图把一整个图书馆搬进一间储藏室,难度可想而知。
解决这个问题通常有两条路子。第一条是"压缩",也就是把模型的参数从高精度的数字(比如32位浮点数)换成低精度的数字(比如4位整数),整个模型的体积一下子缩小好几倍,这种技术叫做量化。第二条是"合并",也就是把多个分别在不同任务上训练过的专家模型的参数,通过某种数学方式混合成一个模型,这样一个模型就能同时具备多位专家的能力,而不需要在设备上同时运行多个模型。
这两条路都有各自的优势,于是一个自然而然的问题出现了:能不能把它们结合起来?先把多个专家模型合并成一个,再对合并后的模型进行压缩,最终得到一个既小又能干的单一模型?听起来两全其美,但香港理工大学的这支研究团队发现,现实并没有那么简单。直接把这两步骤拼凑在一起,效果往往令人大失所望。为此,他们提出了一套全新的方法——E-PMQ,不仅解决了这个难题,在多个测试场景下还让合并后的模型表现出超越原本合并结果的水平。
二、合并加压缩,为什么直接做不行?
回到刚才的"图书馆搬进储藏室"的比喻。现在不是搬一个图书馆,而是把八个不同主题的图书馆——比如汽车手册库、地图库、交通标志库——先按照某种规则混合成一个综合图书馆,再把这个综合图书馆压缩成袖珍版。
模型合并这一步,本质上是在做参数的数学混合。以最常见的方法"任务算术"为例,它的做法是:把每个专家模型的参数减去原始预训练模型的参数,得到每个专家的"改进量"(研究者称之为任务向量),再把这些改进量按比例叠加到预训练模型上。听起来很优雅,但现实是,不同专家的改进量之间可能互相干扰、互相抵消,合并后的模型未必能完整地保留每个专家的能力。就像把八位厨师的秘方各取一半混在一起,最终的味道未必是八种美食的完美融合,更可能是一锅味道奇怪的大杂烩。
这种"合并后的模型与原始各专家之间的偏差",研究团队把它叫做"专家相对合并偏差"。换句话说,合并后的模型在某些任务上的输出,已经与当初各个专家的输出产生了距离。
量化这一步,则是把模型里每个参数的数值从高精度换成低精度,必然会引入一定的舍入误差,研究团队称之为"量化偏差"。
当直接把标准量化方法(比如业界常用的GPTQ)应用于合并后的模型时,会发生什么?量化算法会把合并后的模型当作唯一的参考目标,拼命让压缩后的结果尽可能接近合并后的模型。但合并后的模型本身已经与原始专家有了偏差,量化又在这个偏差的基础上叠加了新的误差。两重偏差叠加在一起,随着信号一层一层往网络深处传递,误差会不断积累放大,最终导致压缩后模型的任务表现大幅下降。这就是研究团队所说的"朴素合并后量化"(Naive PMQ)的核心问题。
用更直白的方式来理解:如果原始专家的输出是"正确答案",合并后的模型的输出已经是"改了几处的答案",朴素量化做的是让压缩模型去模仿"改了几处的答案",而不是去努力还原"正确答案"。自然,效果不会理想。
三、E-PMQ的核心思路:让专家来当"老师"
研究团队提出的E-PMQ(Expert-guided Post-Merge Quantization,专家引导的合并后量化),核心思路可以用一个非常直观的场景来理解。
考虑这样一个场景:一位学生(量化后的合并模型)需要同时掌握八门学科的知识。按照朴素做法,学生会去对照一本由八门知识混合编写的综合教材(合并后的模型)来学习,但这本综合教材本身就有一些内容混淆和错误。E-PMQ的做法是:让八位原始学科专家(各个源专家模型)分别出题,学生根据每位专家的题目来学习,同时参照综合教材来防止走偏。
具体到技术层面,E-PMQ在对合并模型的每一层进行量化时,不再只是让压缩后的参数去模仿合并后的模型在该层的输出,而是同时让压缩后的参数去努力模仿各个源专家在该层各自应有的输出。与此同时,为了防止压缩后的模型过度偏向某一个专家、丢失合并模型综合性的优势,E-PMQ还引入了一个"锚定项",把压缩后的参数拉回到合并模型的参数附近,防止跑偏太远。
这个设计被研究团队称为"合并权重锚定"。它的作用就像给学生拴了一根绳子:绳子允许学生自由移动去向各位专家学习,但绳子的另一端固定在综合教材旁边,防止学生完全跑到某一门学科的专家那里,忘了还要兼顾其他学科。
四、数学背后的细节:量化时怎么操作?
理解了直觉之后,再来看看E-PMQ实际上在数学层面是怎么操作的,虽然不需要完全理解每一个公式,但了解大致逻辑有助于感受这项研究的严谨性。
传统的GPTQ量化方法在对模型的某一层进行压缩时,会构建一个优化目标:让压缩后的参数乘以该层的输入,与合并后的参数乘以同一输入之间的差距尽可能小。简单说,就是"让压缩层的输出尽量接近合并模型该层的输出"。
E-PMQ则把这个目标改写了。它的优化目标由两部分组成:第一部分是让压缩后的参数乘以来自第i个专家任务的输入,与第i个源专家模型的参数乘以同一输入之间的差距尽可能小,对所有K个专家都要同时满足这个要求;第二部分是让压缩后的参数与合并模型的参数之间的距离不要太大。第一部分负责向专家学习,第二部分负责保持综合性。
锚定强度的大小由一个参数α来控制,而且这个参数是自适应的——不同层的激活值规模不同,锚定强度会根据该层校准激活值的总能量自动调整,确保不同层都能得到合理的约束力度。
在求解这个优化目标时,E-PMQ沿用了GPTQ的顺序舍入求解器框架,逐列对参数进行离散化量化,只是把内部用到的曲率矩阵和右端项替换成了E-PMQ目标所对应的形式。这样一来,E-PMQ可以直接复用GPTQ高效实现的工程优势,只需修改输入统计量,不需要从头重写整个求解过程。
量化完每一层之后,当前层的压缩结果就会被固定,继续收集下一层的激活值,再对下一层进行量化。整个过程按照网络的前向顺序逐层进行,直到所有层都完成量化,得到最终的单一低比特合并模型。
五、专家只在"备考阶段"出现,正式上场只有一个模型
这里有一点特别值得说清楚,因为它直接关系到这项技术的实用价值。
E-PMQ要求在量化阶段能够访问各个源专家模型,用它们来构建专家引导的输出目标。这确实比朴素量化需要更多的计算资源——毕竟需要加载多个专家模型、为每个专家任务收集激活值。但这一切都只发生在部署之前的"备考阶段"。
一旦量化完成,部署到设备上的就只有一个单一的低比特合并模型,既没有源专家,也没有任何额外的推理时模块。从用户或者设备的角度看,E-PMQ产出的模型与普通量化模型完全一样:一个文件,一个模型,直接运行即可。所有的额外努力都在幕后的备考阶段悄悄完成了。
六、在视觉识别任务上的表现:从"大败"到"反超"
研究团队在视觉识别任务上进行了系统性的测试,用到的模型是OpenAI的CLIP(一种能够同时理解图像和文字的模型),分为较小的ViT-B/32版本和较大的ViT-L/14版本。测试任务涵盖八项图像分类挑战,包括识别场景(SUN397)、识别汽车型号(Stanford Cars)、识别遥感图像(RESISC45)、识别卫星地图(EuroSAT)、识别街景门牌号(SVHN)、识别交通标志(GTSRB)、识别手写数字(MNIST)以及识别纹理材质(DTD)。
在最基础的八任务设置下,以"任务算术"方式合并的CLIP-ViT-B/32模型,全精度合并后平均准确率为68.0%。直接用GPTQ对合并模型进行4比特量化后,平均准确率跌至65.0%,损失了3个百分点。换成E-PMQ之后,平均准确率不降反升,达到了73.6%,比全精度合并模型还高出5.6个百分点。换句话说,E-PMQ不只是在减少量化损失,它实际上在量化过程中帮助模型纠正了一部分原本由合并带来的偏差。
以"TIES合并"方式得到的合并模型为例,全精度合并后平均准确率72.2%,GPTQ量化后跌至69.1%,E-PMQ量化后达到74.8%,同样高于全精度基线。
对于质量更高的"WUDI合并"方式,全精度合并后平均准确率高达84.5%,已经相当接近单任务专家模型的水平,留给E-PMQ发挥的空间自然更小。即便如此,E-PMQ在4比特量化后仍然达到82.4%,与GPTQ的81.1%相近,并没有出现明显退步。这说明E-PMQ在强合并基线上也保持了稳健性,不会因为合并模型本身质量很高就适得其反。
七、挑战升级:更多专家、更大模型,E-PMQ能否扛住?
研究团队没有止步于八任务设置,而是进一步把测试规模扩展到了14任务和20任务,同时也在更大的CLIP-ViT-L/14骨干网络上进行了验证。这部分实验的意义在于检验E-PMQ在更复杂、更苛刻的条件下是否依然可靠。
结果相当显著。在20任务的CLIP-ViT-B/32设置下,"任务算术"合并后全精度模型的平均准确率仅有36.3%——这说明合并20个专家时参数干扰已经相当严重,合并本身的质量就不太理想。GPTQ量化后进一步跌至35.0%,几乎没有改善。E-PMQ量化后则达到了64.2%,比全精度合并模型高出将近28个百分点。
在20任务的CLIP-ViT-L/14设置下,同样的模式以更夸张的幅度出现:GPTQ量化后仅34.8%,而E-PMQ量化后达到76.7%,提升了将近42个百分点。这一结果表明,任务数越多、合并质量越差,E-PMQ通过源专家引导所能带来的修正效果就越显著。因为在这种情况下,合并模型本身偏离各专家行为的程度更大,而E-PMQ能够在量化过程中部分弥补这些偏差。
"TIES合并"在20任务设置下同样展现出E-PMQ的显著优势:CLIP-ViT-B/32上E-PMQ达到67.8%,比GPTQ的53.1%高出近15个百分点;CLIP-ViT-L/14上E-PMQ达到77.5%,比GPTQ的61.1%高出16个百分点。
八、语言模型也适用:FLAN-T5在自然语言理解任务上的验证
视觉任务上的成功并不代表E-PMQ只适用于图像模型。研究团队进一步在自然语言处理领域进行了验证,使用的是谷歌的FLAN-T5-base模型,在八项标准自然语言理解任务(GLUE基准)上测试,包括语言可接受性(CoLA)、自然语言推断(MNLI)、语义相似度(MRPC、STS-B)、问题回答(QNLI)、重复问题检测(QQP)、文本蕴含(RTE)以及情感分析(SST-2)。
在"任务算术"合并方式下,全精度合并后的FLAN-T5模型平均得分78.79。GPTQ量化后略降至78.26,RTN(最简单的量化方法)量化后降至78.51。E-PMQ量化后则达到了83.34,比全精度合并模型高出4.55个百分点。
其中最引人注目的是MNLI任务(多类型自然语言推断):全精度合并模型得分57.66,GPTQ量化后降至55.99,而E-PMQ量化后飙升至82.50,提升幅度超过24个百分点。这说明该任务上合并本身就存在较大的专家偏差,E-PMQ在量化过程中有效修正了这一偏差。
"TIES合并"方式下同样呈现类似规律:E-PMQ量化后平均得分83.48,远高于GPTQ的79.66和RTN的79.53,也高于全精度合并基线79.98。这印证了E-PMQ的收益并不依赖于特定的合并方式,而是普遍适用的。
九、更大的语言模型:Llama-3.1系列的测试
研究团队还在更大规模的语言模型上进行了初步验证,选用了Meta的Llama-3.1-3B和Llama-3.1-8B,同样采用"任务算术"合并方式,融合了指令跟随、编程、数学推理和多语言理解四位专家。评测指标包括数学推理(GSM8K和MATH500)、常识推理(ARC-C)、指令跟随(IFEval)以及代码生成(HumanEval和MBPP+)。
在Llama-3.1-3B上,全精度合并模型平均得分60.81,GPTQ量化后降至58.71,AWQ量化后为59.07,E-PMQ量化后达到60.27,最接近全精度水平。在Llama-3.1-8B上,全精度合并模型平均得分64.76,GPTQ量化后降至61.66,AWQ量化后62.27,E-PMQ量化后62.91,同样是量化方法中最优。
值得注意的是,Llama实验中E-PMQ的相对提升幅度比CLIP和FLAN-T5实验要小一些。研究团队认为这与大型语言模型的量化难度、合并参数配置以及评测任务的多样性都有关系,未来还需要在更大规模的LLM上进行更深入的探索。
十、"锚定"有多重要?去掉它会怎样
研究团队专门做了一组消融实验,来验证"合并权重锚定"这一设计的必要性。结论非常极端:去掉锚定之后,E-PMQ会发生灾难性的崩溃。
具体来说,在八任务CLIP-ViT-B/32的"任务算术"设置下,全精度合并模型的平均准确率为68.0%,加了锚定的E-PMQ达到74.09%,而去掉锚定(把锚定强度α设为0)之后,平均准确率直接跌至5.37%,几乎变成了随机猜测的水平。在"TIES合并"设置下,去掉锚定后准确率同样跌至4.57%。
这个极端结果说明:单纯的专家引导目标在没有锚定约束的情况下,会导致量化求解过程完全失控——压缩后的参数在离散化舍入过程中会剧烈偏离,失去一切有意义的表示能力。锚定项通过向合并模型参数施加吸引力,为整个优化过程提供了数值稳定性,是E-PMQ能够正常工作的根基。
研究团队还测试了不同α值(从0.01到10)下的表现,发现只要α取正值,E-PMQ的表现就相对稳定,始终优于直接GPTQ基线。最优α值在不同合并方法之间略有差异("任务算术"下约为0.1,"TIES合并"下约为0.01),但这种差异并不影响方法的稳健性。
十一、量化精度的影响:从8比特到3比特,E-PMQ始终更好
研究团队还测试了不同量化比特宽度下E-PMQ与GPTQ的对比,覆盖了3比特、4比特、6比特和8比特四个档位。
结果显示,在所有比特宽度下,E-PMQ都优于GPTQ,而且比特数越低(量化越激进),E-PMQ的相对优势越大。这个规律符合直觉:比特数越低,量化本身引入的误差越大,朴素方法把合并模型当作唯一目标来重建的代价就越惨重,而E-PMQ通过专家引导来减小误差积累的价值也就越突出。在8比特这种相对宽松的量化设置下,两者差距较小,但E-PMQ仍然保持优势。
十二、校准数据需要多少?效率分析
最后,研究团队考察了校准数据量与最终效果之间的权衡关系。在八任务设置下,每个任务使用256张校准图像是默认配置,对应总共256×8=2048张图像。
当把每个任务的校准量压缩到64张(总共512张)时,E-PMQ的平均准确率达到72.23%,仍然比GPTQ用256张(总共2048张)时的65.03%高出7.2个百分点。换句话说,E-PMQ用四分之一的校准数据,就超过了GPTQ用全量校准数据的效果。这说明专家引导的校准信号质量远高于单纯重建合并模型的校准信号。
当然,E-PMQ的量化时间比GPTQ更长。以256张/任务为例,GPTQ需要71.0秒,E-PMQ需要172.2秒,大约是2.4倍。但这些时间全部发生在部署前的一次性准备阶段,部署后的推理速度完全相同。
说到底,E-PMQ提供的是一个"用更多的备考时间换来更好的考试成绩"的方案,而且考试完全公平——上场的仍然是同一位学生,只是备考质量更高了。
由此可见,把多个AI专家合并再压缩这件事,并非简单地把两个现成工具叠在一起就能解决。香港理工大学的这支团队通过严格的理论分析发现了合并偏差与量化偏差叠加积累这一核心问题,并提出了E-PMQ这一系统性解决方案。在视觉识别、自然语言理解,乃至大型语言模型等多个场景上,E-PMQ都展现出明显而稳定的收益。这项工作为"先合并后量化"这一实用的低资源部署流程提供了坚实的方法论基础,对未来在资源受限设备上高效部署多任务AI系统具有现实意义。
对这一领域感兴趣的读者,可以通过arXiv编号2605.16882获取完整论文,也可以在github.com/wwjzhy/E-PMQ查阅开源代码,亲自动手复现或扩展这项研究。
Q&A
Q1:E-PMQ量化需要保留原始专家模型吗?部署时有什么额外开销?
A:E-PMQ只在量化阶段需要访问源专家模型,用它们来构建专家引导的输出目标。量化完成后,部署到设备上的仅是一个单一的低比特合并模型,不需要保留任何源专家模型或额外模块,推理开销与普通量化模型完全相同。
Q2:合并权重锚定在E-PMQ里有多重要?
A:锚定设计是E-PMQ正常工作的核心。实验表明,去掉锚定后,CLIP-ViT-B/32在任务算术合并下的平均准确率会从74%直接崩溃至5.37%,几乎退化为随机猜测。锚定项通过把压缩参数拉向合并模型,防止量化求解过程失控,是整个方法数值稳定性的根基。
Q3:E-PMQ在任务数量更多时表现如何?
A:任务数量越多,E-PMQ的提升越显著。在20任务CLIP-ViT-L/14的任务算术合并设置下,GPTQ量化后准确率仅34.8%,而E-PMQ量化后达到76.7%,提升近42个百分点。这是因为合并任务越多,合并模型偏离各源专家的程度越大,E-PMQ通过专家引导所能修正的偏差空间也就越大。





京公网安备 11011402013531号