当前位置: 首页 » 资讯 » 科技头条 » 正文

新加坡国立大学研究:AI助手处理长文本时,能不能做到又快又准?

IP属地 中国·北京 科技行者 时间:2026-05-29 00:22:55


这项由新加坡国立大学研究团队完成的研究,以预印本形式于2026年5月发布,论文编号为arXiv:2605.20315,研究提出了一种名为Mix-Quant的推理加速框架,专门针对需要频繁与环境交互、处理大量文本的AI智能体应用场景。

**速度与精度的两难困境**

当你让一个AI助手帮你完成一项复杂任务——比如搜索网页、调用工具、翻阅历史记录、写代码再自动调试——它其实需要在幕后反复"读文章、想问题、写答案"。每做一步,AI都要把之前所有的对话记录、工具调用结果、中间推理过程全部重新读一遍,然后才能决定下一步怎么做。

这意味着,AI每次思考前要读的内容,往往比它实际输出的内容长几十倍甚至上百倍。研究团队在实验中发现,在软件工程任务场景下,AI需要读入的输入文字数量约为22.8万个词,而它最终生成的输出只有约3.9万个词,输入是输出的将近6倍。在另一个需要长期记忆管理的任务中,这个比例更是高达36倍——AI要读11万个词,却只输出3000个词。这就像一个厨师每次做一道菜之前,都要把整本菜谱从头到尾背一遍,才能决定下一步加什么调料。

处理这些海量输入文字的过程,在AI技术中被称为"预填充"(prefilling)阶段,而之后一个字一个字生成回答的过程叫做"解码"(decoding)阶段。预填充阶段就像是工厂里大规模并行运转的流水线——可以同时处理所有文字,计算量巨大;解码阶段则像是手工一件一件制作的工匠,每次只产出一个词,速度慢但对每一步的精确性要求极高。

为了让AI运行得更快,工程师们常用的一个方法叫"量化"(quantization)。这就像把高清照片压缩成低分辨率图片来节省存储空间——把AI大脑里本来用高精度浮点数表示的数字,换成更粗粒度的低精度数字,这样计算量就小了,速度也更快了。目前最激进的量化方案之一叫做FP4,就是只用4个二进制位来表示一个数字(而正常情况下可能要用16个甚至32个位)。

然而,问题就出在这里:把整个AI推理过程都换成FP4低精度运行,速度确实快了,但AI的回答质量却明显下降。就像把菜谱印成模糊不清的低清版本,厨师在看配料表时还能勉强认出"盐"和"糖",但到了需要精确判断"加几克"的时候,就容易出错,而且一步错步步错,最终做出来的菜可能跟预期相差甚远。

这就是研究团队面对的核心困境:AI智能体需要快速处理大量输入,但加速手段又会让它犯错。这项研究的核心贡献,就是找到了一条既能加速又不牺牲精度的路——不是对整个过程一刀切,而是分阶段区别对待。

**一、读文章时可以"马虎",但写答案时必须"认真"**

研究团队注意到一个关键的非对称性:AI读文章(预填充阶段)和AI写答案(解码阶段)这两个阶段,对精度的敏感程度完全不同。

在预填充阶段,AI只是在把输入的所有文字统一"消化"一遍,然后把理解结果存进一个叫做"KV缓存"(Key-Value Cache)的临时记忆库里。这个阶段有几个重要特性。首先,输入的文字是固定的,不会因为AI内部计算出了一点点误差就改变——就算AI在读文章时理解得不完全精准,原文还是那个原文,不会跑掉。其次,长文本里有大量冗余信息。研究团队做了一个实验:对于一段12.8万词的长文本,他们统计了AI在生成答案时,注意力(attention)主要集中在哪些位置。结果发现,排名前4096个最重要的词语(只占全部文字的3.125%),平均承载了95.8%的注意力权重。换句话说,绝大多数输入文字其实对最终答案影响极小,AI主要靠一小部分关键内容来推断答案。这种高度集中的注意力分布,意味着预填充阶段即使出现一些量化误差,那些误差大多发生在不重要的文字上,对最终理解的影响相当有限。

解码阶段则完全不同。AI每生成一个词,都是基于之前所有已经生成的词来决定的。这是一个环环相扣的链条——任何一个环节出了偏差,后续所有环节都会受到影响。研究中用公式表达了这个过程:每个时刻t生成的词yt,依赖于原始输入x和之前所有已生成的词y?到y_{t-1}。如果在某一步,低精度量化导致AI把"调用搜索工具"误写成了一个无效指令,那么接下来AI就会基于这个错误的指令继续推理,错误就像滚雪球一样越来越大。学术界把这个现象叫做"雪球效应"——一个小小的初始偏差,会在长序列生成中被不断放大。在AI需要完成多步骤复杂任务的场景下,比如写一段代码、一步错误可能导致整个程序逻辑崩塌;比如调用外部工具,参数格式稍有偏差就会让工具调用失败;比如多轮对话,一个错误的中间状态会影响所有后续的推理和决策。

正是基于这种对两个阶段截然不同特性的认识,研究团队提出了Mix-Quant的核心思路:预填充阶段用激进的低精度量化(FP4)来大幅加速,解码阶段则保持高精度(BF16)来保证质量。BF16是一种比FP4精度高得多的数字表示方式,是目前深度学习中最常用的"标准精度"之一。这就像一个翻译工作者,在快速浏览一份几十页的原始资料时可以用"粗读"的方式提炼要点,但在最终落笔翻译关键段落时,必须字斟句酌,一字不差。

**二、Mix-Quant究竟是怎么工作的**

Mix-Quant使用的量化格式叫做NVFP4,这是英伟达(NVIDIA)专门为其最新一代Blackwell系列显卡(包括RTX 5090和B200)设计的一种低精度数字格式。普通的低精度格式只是粗暴地把数字"四舍五入"到最近的低精度表示,而NVFP4设计得更为精巧,采用了两级缩放机制。

以一个形象的比喻来理解这个机制:假设你要把一幅画从高清版压缩成低分辨率版。最粗暴的做法是直接缩小全图分辨率,整体模糊。而NVFP4的做法更像是先把画分成很多16个像素一组的小区块,每个区块单独调整对比度(这是"局部缩放",用FP8 E4M3格式表示),再在整张图上做一次全局亮度校准(这是"全局缩放")。两级调整叠加,使得压缩后的图像虽然分辨率低了,但整体色调和局部细节都得到了更好的保护。

在数学上,NVFP4对每个数字x?的量化过程是:先用全局缩放因子α?和局部缩放因子σ_b(i)共同对x?进行归一化,再把归一化后的值投影到最近的FP4可表示值上。反量化时乘回两个缩放因子即可恢复近似值。局部缩放因子σ_b基于该区块内绝对值最大的元素来确定,确保区块内的最大值能被准确表示。研究团队发现,由于NVFP4本身的设计已经足够精细,直接使用最简单的"就近取整"(RTN)量化策略就能达到很好的效果,不需要额外复杂的量化校准算法,这也大大降低了部署的门槛和运行时的额外开销。

在系统架构上,Mix-Quant采用了"预填充-解码分离部署"的方式。具体来说,处理输入文字的预填充工作由专门的"预填充工作节点"完成,这些节点上的模型使用FP4量化版本,跑得飞快;预填充完成后,生成的KV缓存通过一个叫做NIXL的高速传输机制,传给专门负责生成答案的"解码工作节点",解码节点上的模型保持BF16高精度,稳稳当当地一个词一个词地生成回答。两套系统分工协作,互不干扰。这种架构的好处是,不需要在单个模型内部来回切换精度,避免了复杂的精度转换开销和潜在的数值对齐问题。

**三、实验验证:到底快了多少,准了多少**

研究团队在NVIDIA RTX 5090和B200显卡上,使用vLLM这个业界主流的大模型推理框架,对Mix-Quant进行了全面测试。他们选取了当前业界表现最强的几款开源智能体模型:Qwen3-8B(通义千问团队的80亿参数模型)、Qwen3.5-9B(同团队的下一代90亿参数模型)、Gemma-4-26B-A4B-it(谷歌DeepMind的260亿参数混合专家模型)和Gemma-4-31B-it(谷歌的310亿参数完整版本)。每个模型都在三种状态下测试:原始BF16高精度版本、全程FP4低精度版本(即"均匀NVFP4"方案),以及Mix-Quant方案。

在速度方面,结果相当亮眼。以Qwen3-8B模型为例,在单个请求、不同输入长度的场景下,Mix-Quant的预填充阶段相比BF16原版快了2.21倍(2000词输入)到3.51倍(32000词输入)不等。输入越长,加速效果越明显,这正好契合了AI智能体任务中输入文字普遍很长的现实场景。在多个请求同时处理(批量推理)的场景下,随着批量大小从1增加到32,加速比稳定维持在2.15倍到3.74倍之间。整体来看,Mix-Quant在预填充阶段平均实现了约3倍的加速。

在准确性方面,研究团队使用了五个各具特色的测试基准。BFCL v4测试AI的工具调用和函数调用能力,LongMemEval测试AI在长期多轮对话中管理和检索历史记忆的能力,τ?-bench测试AI作为通用助手在复杂状态对话中的表现,LongBench-V2和AA-LCR则测试AI对长文档的理解、综合和推理能力。此外还有数学推理基准MATH500、AIME24和AIME25。

以Qwen3-8B为例,原始BF16模型在五个智能体基准上的综合平均分是42.85分。换成全程FP4量化后,平均分暴跌到38.64分,损失了约10%的性能。而Mix-Quant方案下,平均分恢复到41.45分,几乎追回了全部损失。在LongMemEval这个测试长期记忆的项目上,FP4量化使分数从57.00骤降至49.82,而Mix-Quant把它拉回到54.85,恢复效果非常明显。对于更大的Gemma-4-31B-it模型,表现更是令人印象深刻:BF16基准分77.63,全程FP4是76.21,而Mix-Quant达到77.14,几乎与原始精度持平,这意味着对于这个更大的模型,仅对预填充阶段进行量化造成的损失微乎其微。

在数学推理测试中,Mix-Quant同样展现出一致的优势。以Qwen3.5-9B为例,BF16版本在AIME24和AIME25上分别取得68.89和60.00的成绩,全程FP4量化后分别跌至54.44和40.00,损失相当惨重。Mix-Quant则恢复到70.33和56.67,基本接近原始水平。对于Gemma-4-26B-A4B-it,Mix-Quant在所有五个测试的综合平均分71.93与BF16的71.94几乎完全一致,而全程FP4只有66.31。

**四、分阶段消融实验:进一步验证哪个阶段更敏感**

为了更精确地验证"解码阶段比预填充阶段对量化更敏感"这一核心假设,研究团队做了一个特别设计的对比实验。他们把各种量化策略组合做了横向比较:全程BF16(什么都不量化)、全程NVFP4(全部量化)、Mix-Quant(只量化预填充,解码保持BF16),以及一个反向对照——P16D4(预填充保持BF16,只量化解码阶段)。

结果清楚地支持了研究团队的理论。以Qwen3-8B为例,全程BF16综合平均分40.42,全程NVFP4降至33.59(下降6.83分),P16D4(只量化解码)是36.74(下降3.68分),Mix-Quant(只量化预填充)是38.32(下降2.10分)。可以看到,两种"只量化一半"的方案都比全部量化要好,但只量化解码阶段带来的损失(3.68分),明显大于只量化预填充阶段带来的损失(2.10分)。这直接证明了:解码阶段确实比预填充阶段对量化误差更敏感,把精度留给解码阶段是更明智的选择。对于Gemma-4-26B-A4B-it,这个规律同样成立——P16D4平均59.85,Mix-Quant平均60.18,两者差距虽然不大,但Mix-Quant仍然更优。

当然,研究团队也坦诚地指出,Mix-Quant并非完美无缺。预填充阶段的量化误差会影响KV缓存的精度,进而对解码阶段产生一定程度的间接影响。因此,Mix-Quant在某些基准上与BF16原版之间仍有一定差距,并非完全无损。但考虑到它实现了约3倍的预填充加速,这个差距在大多数实际应用场景中是完全可以接受的。

**说到底,这项研究告诉了我们什么**

归根结底,Mix-Quant提出了一个听起来简单、但落地颇有技巧的原则:同一个AI模型在不同工作阶段,对"精确度"的需求是不一样的,应该因地制宜地分配计算资源,而不是一刀切地对待整个推理过程。

这对于越来越普及的AI助手和智能体应用来说意义重大。以后当你使用AI帮你整理长达几百页的文档、管理复杂的项目计划、或者让它自动在网上搜索信息并生成报告时,支撑这些功能的服务器可以更高效地运转——处理海量输入时踩油门,生成精准答案时稳把方向盘。这意味着同样的硬件可以服务更多用户,响应速度更快,成本也更低。

这项研究还揭示了一个更宏观的方向:AI推理系统的优化不应该只盯着单一维度,而需要深入理解不同计算阶段的本质特性,为每个阶段量身定制最合适的策略。Mix-Quant只是这条路上的一个起点,未来完全可以与其他加速技术结合——比如稀疏注意力机制(让AI只关注文本中最关键的部分,跳过不重要的内容)或者KV缓存压缩方案,进一步降低长文本处理的成本。

一个有趣的延伸问题值得思考:Mix-Quant目前在预填充阶段统一使用FP4精度,但实际上,即便在预填充内部,不同的层、不同的注意力头对量化的敏感程度可能也不尽相同。是否可以进一步细化到"层级别"甚至"注意力头级别"的量化策略,在速度和精度之间找到更精细的平衡点?这或许是这个研究方向下一步值得探索的问题。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.20315查阅完整论文,研究代码也已开源,感兴趣的技术人员可以在此基础上进行进一步探索和扩展。

**Q&A**

Q1:Mix-Quant只量化预填充阶段,不量化解码阶段,这样是不是意味着解码速度没有改善?

A:是的,Mix-Quant的加速效果主要体现在预填充阶段,解码阶段仍然保持BF16高精度运行,速度与原版相同。不过在AI智能体任务中,输入文本往往远多于输出文本(有时比例高达36:1),因此预填充阶段才是主要瓶颈,加速预填充对整体推理时间的改善已经非常显著。如果需要同时加速解码,可以结合其他专门针对解码阶段的优化方法。

Q2:NVFP4只有Blackwell系列显卡才支持吗,其他GPU能用Mix-Quant的思路吗?

A:Mix-Quant的核心思路——对预填充阶段量化、保持解码精度——是与具体硬件无关的通用框架,理论上可以结合任何支持低精度计算的量化格式来实现。NVFP4目前确实是英伟达Blackwell系列显卡(如RTX 5090、B200)的专属格式,能获得最大的硬件加速收益。在其他GPU上,可以考虑使用INT4或FP8等格式来实现类似的相位感知量化,但具体加速效果会有所不同。

Q3:Mix-Quant适用于所有大语言模型吗,还是只对特定模型有效?

A:从研究结果来看,Mix-Quant在Qwen3-8B、Qwen3.5-9B、Gemma-4-26B和Gemma-4-31B这四个不同架构和规模的模型上都展现出一致的效果,说明这个方法具有较好的通用性。一般来说,只要模型有明显的预填充瓶颈(即输入文本远多于输出文本的应用场景),Mix-Quant的相位感知量化策略就能发挥作用。模型规模越大,通常对量化的鲁棒性也越强(Gemma-4-31B的结果就几乎与原版持平),加速效果和精度保留都会更理想。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。