新加坡国立大学研究：AI助手处理长文本时,能不能做到又快又准？

IP属地中国·北京 科技行者 时间：2026-05-29 00:22:55

这项由新加坡国立大学研究团队完成的研究，以预印本形式于2026年5月发布，论文编号为arXiv:2605.20315，研究提出了一种名为Mix-Quant的推理加速框架，专门针对需要频繁与环境交互、处理大量文本的AI智能体应用场景。
**速度与精度的两难困境**
当你让一个AI助手帮你完成一项复杂任务——比如搜索网页、调用工具、翻阅历史记录、写代码再自动调试——它其实需要在幕后反复"读文章、想问题、写答案"。每做一步，AI都要把之前所有的对话记录、工具调用结果、中间推理过程全部重新读一遍，然后才能决定下一步怎么做。
这意味着，AI每次思考前要读的内容，往往比它实际输出的内容长几十倍甚至上百倍。研究团队在实验中发现，在软件工程任务场景下，AI需要读入的输入文字数量约为22.8万个词，而它最终生成的输出只有约3.9万个词，输入是输出的将近6倍。在另一个需要长期记忆管理的任务中，这个比例更是高达36倍——AI要读11万个词，却只输出3000个词。这就像一个厨师每次做一道菜之前，都要把整本菜谱从头到尾背一遍，才能决定下一步加什么调料。
处理这些海量输入文字的过程，在AI技术中被称为"预填充"（prefilling）阶段，而之后一个字一个字生成回答的过程叫做"解码"（decoding）阶段。预填充阶段就像是工厂里大规模并行运转的流水线——可以同时处理所有文字，计算量巨大；解码阶段则像是手工一件一件制作的工匠，每次只产出一个词，速度慢但对每一步的精确性要求极高。
为了让AI运行得更快，工程师们常用的一个方法叫"量化"（quantization）。这就像把高清照片压缩成低分辨率图片来节省存储空间——把AI大脑里本来用高精度浮点数表示的数字，换成更粗粒度的低精度数字，这样计算量就小了，速度也更快了。目前最激进的量化方案之一叫做FP4，就是只用4个二进制位来表示一个数字（而正常情况下可能要用16个甚至32个位）。
然而，问题就出在这里：把整个AI推理过程都换成FP4低精度运行，速度确实快了，但AI的回答质量却明显下降。就像把菜谱印成模糊不清的低清版本，厨师在看配料表时还能勉强认出"盐"和"糖"，但到了需要精确判断"加几克"的时候，就容易出错，而且一步错步步错，最终做出来的菜可能跟预期相差甚远。
这就是研究团队面对的核心困境：AI智能体需要快速处理大量输入，但加速手段又会让它犯错。这项研究的核心贡献，就是找到了一条既能加速又不牺牲精度的路——不是对整个过程一刀切，而是分阶段区别对待。
**一、读文章时可以"马虎"，但写答案时必须"认真"**
研究团队注意到一个关键的非对称性：AI读文章（预填充阶段）和AI写答案（解码阶段）这两个阶段，对精度的敏感程度完全不同。
在预填充阶段，AI只是在把输入的所有文字统一"消化"一遍，然后把理解结果存进一个叫做"KV缓存"（Key-Value Cache）的临时记忆库里。这个阶段有几个重要特性。首先，输入的文字是固定的，不会因为AI内部计算出了一点点误差就改变——就算AI在读文章时理解得不完全精准，原文还是那个原文，不会跑掉。其次，长文本里有大量冗余信息。研究团队做了一个实验：对于一段12.8万词的长文本，他们统计了AI在生成答案时，注意力（attention）主要集中在哪些位置。结果发现，排名前4096个最重要的词语（只占全部文字的3.125%），平均承载了95.8%的注意力权重。换句话说，绝大多数输入文字其实对最终答案影响极小，AI主要靠一小部分关键内容来推断答案。这种高度集中的注意力分布，意味着预填充阶段即使出现一些量化误差，那些误差大多发生在不重要的文字上，对最终理解的影响相当有限。
解码阶段则完全不同。AI每生成一个词，都是基于之前所有已经生成的词来决定的。这是一个环环相扣的链条——任何一个环节出了偏差，后续所有环节都会受到影响。研究中用公式表达了这个过程：每个时刻t生成的词yt，依赖于原始输入x和之前所有已生成的词y?到y_{t-1}。如果在某一步，低精度量化导致AI把"调用搜索工具"误写成了一个无效指令，那么接下来AI就会基于这个错误的指令继续推理，错误就像滚雪球一样越来越大。学术界把这个现象叫做"雪球效应"——一个小小的初始偏差，会在长序列生成中被不断放大。在AI需要完成多步骤复杂任务的场景下，比如写一段代码、一步错误可能导致整个程序逻辑崩塌；比如调用外部工具，参数格式稍有偏差就会让工具调用失败；比如多轮对话，一个错误的中间状态会影响所有后续的推理和决策。
正是基于这种对两个阶段截然不同特性的认识，研究团队提出了Mix-Quant的核心思路：预填充阶段用激进的低精度量化（FP4）来大幅加速，解码阶段则保持高精度（BF16）来保证质量。BF16是一种比FP4精度高得多的数字表示方式，是目前深度学习中最常用的"标准精度"之一。这就像一个翻译工作者，在快速浏览一份几十页的原始资料时可以用"粗读"的方式提炼要点，但在最终落笔翻译关键段落时，必须字斟句酌，一字不差。
**二、Mix-Quant究竟是怎么工作的**
Mix-Quant使用的量化格式叫做NVFP4，这是英伟达（NVIDIA）专门为其最新一代Blackwell系列显卡（包括RTX 5090和B200）设计的一种低精度数字格式。普通的低精度格式只是粗暴地把数字"四舍五入"到最近的低精度表示，而NVFP4设计得更为精巧，采用了两级缩放机制。
以一个形象的比喻来理解这个机制：假设你要把一幅画从高清版压缩成低分辨率版。最粗暴的做法是直接缩小全图分辨率，整体模糊。而NVFP4的做法更像是先把画分成很多16个像素一组的小区块，每个区块单独调整对比度（这是"局部缩放"，用FP8 E4M3格式表示），再在整张图上做一次全局亮度校准（这是"全局缩放"）。两级调整叠加，使得压缩后的图像虽然分辨率低了，但整体色调和局部细节都得到了更好的保护。
在数学上，NVFP4对每个数字x?的量化过程是：先用全局缩放因子α?和局部缩放因子σ_b(i)共同对x?进行归一化，再把归一化后的值投影到最近的FP4可表示值上。反量化时乘回两个缩放因子即可恢复近似值。局部缩放因子σ_b基于该区块内绝对值最大的元素来确定，确保区块内的最大值能被准确表示。研究团队发现，由于NVFP4本身的设计已经足够精细，直接使用最简单的"就近取整"（RTN）量化策略就能达到很好的效果，不需要额外复杂的量化校准算法，这也大大降低了部署的门槛和运行时的额外开销。
在系统架构上，Mix-Quant采用了"预填充-解码分离部署"的方式。具体来说，处理输入文字的预填充工作由专门的"预填充工作节点"完成，这些节点上的模型使用FP4量化版本，跑得飞快；预填充完成后，生成的KV缓存通过一个叫做NIXL的高速传输机制，传给专门负责生成答案的"解码工作节点"，解码节点上的模型保持BF16高精度，稳稳当当地一个词一个词地生成回答。两套系统分工协作，互不干扰。这种架构的好处是，不需要在单个模型内部来回切换精度，避免了复杂的精度转换开销和潜在的数值对齐问题。
**三、实验验证：到底快了多少，准了多少**
研究团队在NVIDIA RTX 5090和B200显卡上，使用vLLM这个业界主流的大模型推理框架，对Mix-Quant进行了全面测试。他们选取了当前业界表现最强的几款开源智能体模型：Qwen3-8B（通义千问团队的80亿参数模型）、Qwen3.5-9B（同团队的下一代90亿参数模型）、Gemma-4-26B-A4B-it（谷歌DeepMind的260亿参数混合专家模型）和Gemma-4-31B-it（谷歌的310亿参数完整版本）。每个模型都在三种状态下测试：原始BF16高精度版本、全程FP4低精度版本（即"均匀NVFP4"方案），以及Mix-Quant方案。
在速度方面，结果相当亮眼。以Qwen3-8B模型为例，在单个请求、不同输入长度的场景下，Mix-Quant的预填充阶段相比BF16原版快了2.21倍（2000词输入）到3.51倍（32000词输入）不等。输入越长，加速效果越明显，这正好契合了AI智能体任务中输入文字普遍很长的现实场景。在多个请求同时处理（批量推理）的场景下，随着批量大小从1增加到32，加速比稳定维持在2.15倍到3.74倍之间。整体来看，Mix-Quant在预填充阶段平均实现了约3倍的加速。
在准确性方面，研究团队使用了五个各具特色的测试基准。BFCL v4测试AI的工具调用和函数调用能力，LongMemEval测试AI在长期多轮对话中管理和检索历史记忆的能力，τ?-bench测试AI作为通用助手在复杂状态对话中的表现，LongBench-V2和AA-LCR则测试AI对长文档的理解、综合和推理能力。此外还有数学推理基准MATH500、AIME24和AIME25。
以Qwen3-8B为例，原始BF16模型在五个智能体基准上的综合平均分是42.85分。换成全程FP4量化后，平均分暴跌到38.64分，损失了约10%的性能。而Mix-Quant方案下，平均分恢复到41.45分，几乎追回了全部损失。在LongMemEval这个测试长期记忆的项目上，FP4量化使分数从57.00骤降至49.82，而Mix-Quant把它拉回到54.85，恢复效果非常明显。对于更大的Gemma-4-31B-it模型，表现更是令人印象深刻：BF16基准分77.63，全程FP4是76.21，而Mix-Quant达到77.14，几乎与原始精度持平，这意味着对于这个更大的模型，仅对预填充阶段进行量化造成的损失微乎其微。
在数学推理测试中，Mix-Quant同样展现出一致的优势。以Qwen3.5-9B为例，BF16版本在AIME24和AIME25上分别取得68.89和60.00的成绩，全程FP4量化后分别跌至54.44和40.00，损失相当惨重。Mix-Quant则恢复到70.33和56.67，基本接近原始水平。对于Gemma-4-26B-A4B-it，Mix-Quant在所有五个测试的综合平均分71.93与BF16的71.94几乎完全一致，而全程FP4只有66.31。
**四、分阶段消融实验：进一步验证哪个阶段更敏感**
为了更精确地验证"解码阶段比预填充阶段对量化更敏感"这一核心假设，研究团队做了一个特别设计的对比实验。他们把各种量化策略组合做了横向比较：全程BF16（什么都不量化）、全程NVFP4（全部量化）、Mix-Quant（只量化预填充，解码保持BF16），以及一个反向对照——P16D4（预填充保持BF16，只量化解码阶段）。
结果清楚地支持了研究团队的理论。以Qwen3-8B为例，全程BF16综合平均分40.42，全程NVFP4降至33.59（下降6.83分），P16D4（只量化解码）是36.74（下降3.68分），Mix-Quant（只量化预填充）是38.32（下降2.10分）。可以看到，两种"只量化一半"的方案都比全部量化要好，但只量化解码阶段带来的损失（3.68分），明显大于只量化预填充阶段带来的损失（2.10分）。这直接证明了：解码阶段确实比预填充阶段对量化误差更敏感，把精度留给解码阶段是更明智的选择。对于Gemma-4-26B-A4B-it，这个规律同样成立——P16D4平均59.85，Mix-Quant平均60.18，两者差距虽然不大，但Mix-Quant仍然更优。
当然，研究团队也坦诚地指出，Mix-Quant并非完美无缺。预填充阶段的量化误差会影响KV缓存的精度，进而对解码阶段产生一定程度的间接影响。因此，Mix-Quant在某些基准上与BF16原版之间仍有一定差距，并非完全无损。但考虑到它实现了约3倍的预填充加速，这个差距在大多数实际应用场景中是完全可以接受的。
**说到底，这项研究告诉了我们什么**
归根结底，Mix-Quant提出了一个听起来简单、但落地颇有技巧的原则：同一个AI模型在不同工作阶段，对"精确度"的需求是不一样的，应该因地制宜地分配计算资源，而不是一刀切地对待整个推理过程。
这对于越来越普及的AI助手和智能体应用来说意义重大。以后当你使用AI帮你整理长达几百页的文档、管理复杂的项目计划、或者让它自动在网上搜索信息并生成报告时，支撑这些功能的服务器可以更高效地运转——处理海量输入时踩油门，生成精准答案时稳把方向盘。这意味着同样的硬件可以服务更多用户，响应速度更快，成本也更低。
这项研究还揭示了一个更宏观的方向：AI推理系统的优化不应该只盯着单一维度，而需要深入理解不同计算阶段的本质特性，为每个阶段量身定制最合适的策略。Mix-Quant只是这条路上的一个起点，未来完全可以与其他加速技术结合——比如稀疏注意力机制（让AI只关注文本中最关键的部分，跳过不重要的内容）或者KV缓存压缩方案，进一步降低长文本处理的成本。
一个有趣的延伸问题值得思考：Mix-Quant目前在预填充阶段统一使用FP4精度，但实际上，即便在预填充内部，不同的层、不同的注意力头对量化的敏感程度可能也不尽相同。是否可以进一步细化到"层级别"甚至"注意力头级别"的量化策略，在速度和精度之间找到更精细的平衡点？这或许是这个研究方向下一步值得探索的问题。
有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.20315查阅完整论文，研究代码也已开源，感兴趣的技术人员可以在此基础上进行进一步探索和扩展。
**Q&A**
Q1：Mix-Quant只量化预填充阶段，不量化解码阶段，这样是不是意味着解码速度没有改善？
A：是的，Mix-Quant的加速效果主要体现在预填充阶段，解码阶段仍然保持BF16高精度运行，速度与原版相同。不过在AI智能体任务中，输入文本往往远多于输出文本（有时比例高达36:1），因此预填充阶段才是主要瓶颈，加速预填充对整体推理时间的改善已经非常显著。如果需要同时加速解码，可以结合其他专门针对解码阶段的优化方法。
Q2：NVFP4只有Blackwell系列显卡才支持吗，其他GPU能用Mix-Quant的思路吗？
A：Mix-Quant的核心思路——对预填充阶段量化、保持解码精度——是与具体硬件无关的通用框架，理论上可以结合任何支持低精度计算的量化格式来实现。NVFP4目前确实是英伟达Blackwell系列显卡（如RTX 5090、B200）的专属格式，能获得最大的硬件加速收益。在其他GPU上，可以考虑使用INT4或FP8等格式来实现类似的相位感知量化，但具体加速效果会有所不同。
Q3：Mix-Quant适用于所有大语言模型吗，还是只对特定模型有效？
A：从研究结果来看，Mix-Quant在Qwen3-8B、Qwen3.5-9B、Gemma-4-26B和Gemma-4-31B这四个不同架构和规模的模型上都展现出一致的效果，说明这个方法具有较好的通用性。一般来说，只要模型有明显的预填充瓶颈（即输入文本远多于输出文本的应用场景），Mix-Quant的相位感知量化策略就能发挥作用。模型规模越大，通常对量化的鲁棒性也越强（Gemma-4-31B的结果就几乎与原版持平），加速效果和精度保留都会更理想。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

META 租赁算力：并非算力紧缺，意在公有云

现职及前员工起诉Meta，指控其利用人工智能裁员存在歧视行为

B站没买成，字节没谈拢，这栋楼为什么最终被新浪40亿拿下了？

高德地图，为什么做不好本地生活？

小米新媒体高级工程师谈澎程未上市就遭恶意抹黑：毒瘤不除，人人自危

谷歌DeepMind CEO哈萨比斯呼吁美国牵头建立全球AI监管机构

全站最新

全线控底盘技术突破：商用车先行，未来或驶向无方向盘驾驶时代

汽车保养别被4S店“牵着走”！开得少这样保养，一年省下不少钱

本田飞度中期改款后焕新颜，Mugen与本田携手推出运动套件添活力

META 租赁算力：并非算力紧缺，意在公有云

热门推荐

REDMI Note 17 Pro评测：小金刚品质再升级，长续航抗摔防水样样行

小米工程师怒斥：AI造谣抹黑未上市新车，商业竞争岂能如此无底线？

META 租赁算力：并非算力紧缺，意在公有云

现职及前员工起诉Meta，指控其利用人工智能裁员存在歧视行为

B站没买成，字节没谈拢，这栋楼为什么最终被新浪40亿拿下了？

高德地图，为什么做不好本地生活？

“ChatGPT实体”来袭！OpenAI首款硬件浮出水面：无屏幕智能音箱定位“AI伴侣”，苹果诉讼或成最大变数

小米新媒体高级工程师谈澎程未上市就遭恶意抹黑：毒瘤不除，人人自危

谷歌DeepMind CEO哈萨比斯呼吁美国牵头建立全球AI监管机构

消息称DeepSeek筹备IPO，最快今年内提交上市申请

OpenAI首度回应苹果诉讼：相信公平竞争，未发现任何证据

OpenAI首款硬件曝光：无屏幕智能音箱定位家庭AI伴侣

横跨94℃温差、挑战5380米高原！小米澎程428万公里路测揭秘

便携式x射线设备在轨完成诊断成像

美国法院裁定苹果无需为iCloud用户上传内容担责，328亿美元CSAM集体诉讼被驳回