这项由纽约大学、哥伦比亚大学、马里兰大学、普林斯顿大学、哈佛大学及劳伦斯利弗莫尔国家实验室等多家顶级机构联合完成的研究,于2026年6月发表在预印本平台arXiv上,论文编号为arXiv:2606.09659。感兴趣的读者可通过该编号查询完整原文。
![]()
**每次聊天都要"重新看书"的AI,有多低效?**
假设你有一位记忆力极差的助手。每次你问他问题之前,他都必须把一本厚厚的参考书从头到尾完整地看一遍,哪怕你只是想问其中一页上的一个小知识点。更糟糕的是,随着这本书越来越厚,他看书的时间越来越长,占用的书桌空间也越来越大,有时候书太厚甚至根本放不下。这就是当今主流的大语言模型(也就是ChatGPT、DeepSeek这类AI)在处理长篇内容时面临的真实困境。
这个"书桌空间"在技术上叫做KV缓存(Key-Value Cache),可以理解为AI在处理一段文字时临时储存的"工作笔记"。用户输入的文字越长,这份笔记就越厚,占用的电脑内存就越多,处理速度也越慢。在实际的AI服务中,当用户上传一篇几十万字的长文档让AI分析时,这个问题会变得极其严峻——不仅仅是速度慢,有时候根本就放不下。
面对这个痛点,研究界已经有人尝试解决,但走的是"删减笔记"的路子,也就是把那份工作笔记中不重要的部分直接扔掉。这种方法叫做KV缓存压缩。然而这条路也充满麻烦:要么删得太猛,AI忘了太多重要信息,回答质量大幅下降;要么删得太保守,省下来的空间寥寥无几;更头疼的是,有些删法需要先知道用户将要问什么问题,才能决定删哪里,这就好像你必须先猜出学生期末考什么题,才能决定教材哪些页可以撕掉。
这项最新研究选择了一条完全不同的道路:与其删减笔记,不如换一种更聪明的记录方式。研究团队把这套全新方法称为"潜在上下文语言模型",英文缩写为LCLM(Latent Context Language Models)。他们的核心思路是,先让一个专门的"速记员"把原始文字压缩成简短的"语义摘要符号",再把这些符号交给AI去理解和回答,而不是让AI直接面对大量原始文字。这个速记员不是在删减内容,而是在用一种更紧凑的方式重新编码信息,类似于把一段话翻译成更简洁的符号语言,但语义完整保留。
实验结果相当亮眼。在标准的长文理解测试中,LCLM在达到同等准确率的情况下,处理速度比现有最好的方法快了8.8倍;在处理更长的64000字文档时,速度提升也达到了5.2倍。更重要的是,这项技术与现有的主流AI推理引擎完全兼容,不需要对底层系统做任何改动,这对于工业界的实际部署来说意义重大。
**一、AI为什么越来越"健忘"——问题的根源**
要真正理解这项研究的价值,先得搞清楚AI处理长文本时到底在干什么,以及为什么会出问题。
当一个大语言模型读取一段文字时,它并不像人类那样真正"理解"每个字。它的工作方式更像是一个精密的计算过程:把每个词转换成一串数字,然后计算这些数字之间的关系(哪些词和哪些词关联更紧密),最终生成回答。在这个过程中,模型需要把每个词的"关键信息"和"值信息"(这就是KV的由来,K代表Key,V代表Value)临时存储起来,以便后续计算时调用。
这就好像一个学生做数学题时,把每一步的中间结果都写在草稿纸上,防止后面计算时忘记。这张草稿纸就是KV缓存。输入的文字越长,草稿纸就越大,占的桌面空间越多,翻找起来也越费时间。
现有的改进方案主要有三种思路。第一种是"精简草稿纸",也就是KV缓存压缩:想办法判断哪些中间结果不重要,直接丢掉。这类方法的代表包括SnapKV、KVzip、Expected Attention等。第二种是"改造计算方式",比如把原来的注意力机制替换成线性复杂度的变体,或者使用Mamba这类状态空间模型,让计算量不随文本长度平方增长。第三种就是这篇论文主推的"软令牌压缩"——用一个编码器先把原始文字压缩成少量的连续向量(研究者称之为软令牌或潜在令牌),再把这些向量交给解码器处理。
第一种方法的根本问题在于,它需要先完整处理一遍所有文字,才能判断哪些部分可以删除,所以在时间上并没有真正节省。而且,如果AI服务的是多个不同用户的问题,每个用户的侧重点不同,同一份压缩过的缓存很难同时服务好所有人。还有一个工程上的头疼问题:一些方法会在不同的注意力头(可以理解为AI大脑里负责不同方面的思考单元)之间不均匀地删减缓存,导致整个系统的数据结构变得参差不齐,无法利用现代GPU的批量并行计算优势,实际上反而更慢了。
软令牌压缩从理论上解决了这些问题,但之前的工作从未真正做到足够好用——要么只在特定任务上表现不错,换个场景就崩溃;要么需要针对每个具体用途重新训练,缺乏通用性;要么压缩质量太差,信息损失太大。这就是这篇论文试图突破的核心挑战。
**二、"速记员+解读员"的协作架构——LCLM是怎么工作的**
LCLM的结构设计其实并不复杂,但细节上有很多精心的考量。可以用一个翻译团队来理解它的工作流程:有一位专门负责速记和压缩的"前期处理员"(编码器),一个负责把压缩内容转换成另一种语言的"翻译适配器"(适配器),以及一位负责理解压缩内容并回答问题的"主分析员"(解码器)。
编码器的工作是把原始文字切成一段一段,每段压缩成一个或几个"意义胶囊"(也就是潜在向量)。具体来说,研究团队把输入文字切成固定大小的窗口,每个窗口包含1024个词,编码器处理完这个窗口后,通过一种叫"平均池化"的方式把多个词的信息合并成少量的向量。以16倍压缩率为例,1024个词会被压缩成64个向量——相当于把一本小册子压缩成一页纸的要点符号。
这里有一个设计选择值得特别说明:编码器用的是"因果注意力掩码"(causal attention mask),而非双向注意力(bidirectional attention)。通俗来说,双向注意力允许每个词同时看到它前面和后面的内容,而因果注意力只允许每个词看到它之前的内容。直觉上,双向注意力似乎能捕捉更多信息,因为它看得更全面。但研究团队通过大量实验发现,因果注意力在压缩任务上效果反而更好——这个反直觉的发现很有意思,虽然论文没有给出完整的理论解释,但从实验数据来看差异非常明显。
编码器用的具体模型是Qwen3-Embedding-0.6B,这是一个参数规模为6亿的嵌入模型,专门优化过用于把文字转换成向量表示。解码器则是Qwen3-4B-Instruct-2507,参数规模40亿,是一个完整的指令跟随语言模型。两者之间还有一个"适配器",它的作用是把编码器输出的向量维度转换成解码器能接受的维度,相当于两种不同插头之间的转接头。
这个适配器的设计经历了反复比较。研究团队对比了简单的两层全连接网络(MLP适配器)和带有自注意力机制的复杂适配器。结果令人惊讶:更简单的MLP适配器在训练损失和下游任务表现上都更好,而且计算量更小。这再次印证了一个在深度学习界反复被证明的现象:有时候奥卡姆剃刀原则——最简单的方案往往就是最好的方案。
整个压缩过程还有一个重要的工程优势:编码器处理不同文本窗口的工作是完全独立的,可以并行进行。研究团队在实验中以128个窗口为一批次同时处理,也就是说每次批量处理可以覆盖131072个原始词。这种并行设计让压缩速度大幅提升,这也是LCLM在速度上碾压其他方法的根本原因。
**三、从无到有的训练之路——怎么让速记员学会速记**
训练一个能可靠压缩信息的编码器,比训练普通语言模型要复杂得多。核心挑战在于:你没有"正确答案"可以参照——没有人标注过"这段话应该被压缩成这些向量"。研究团队需要用一种间接的方式来训练它。
他们的解决方案是一套精心设计的四阶段训练流程,可以理解为厨师学艺的过程:先学会基本刀工,再学炒菜,再做完整菜品,最后精进厨艺。
第一阶段是"适配器预热"。此时编码器和解码器都冻结不动(就像把两位大厨请来但先让他们旁观),只训练中间的适配器。这一步的目的是让适配器学会如何把编码器的输出语言转换成解码器能理解的语言,处理了约38.8亿个词的数据。
第二阶段是"编码器解冻"。适配器已经学会了基本的转换,现在解冻编码器,让它和适配器一起优化,但解码器依然不动。编码器开始学习如何更好地压缩信息,以便适配器能更准确地转换。这一阶段处理了约77.6亿个词。
第三阶段是"端到端持续预训练",是训练量最大的阶段,处理了约182.5亿个词。此时三个组件全部解冻,但解码器使用非常小的学习率(相当于非常轻柔地微调,避免把它原有的能力破坏掉)。这是整个训练流程的主干阶段,让系统学会协同工作。
第四阶段是"监督微调",使用精心筛选的高质量任务数据集,进一步提升模型在推理、长文理解和指令遵循方面的表现。这一阶段的数据是特意为压缩任务定制的:用户的问题保持不压缩(原始词元),而上下文文档则被压缩处理,让模型学会在压缩状态下理解和回答问题。
这种逐步解冻的策略不是随意设计的,它来自于早期实验中的血泪教训。研究团队一开始尝试把所有组件从一开始就同时训练,结果训练过程极不稳定,模型表现很差。原因在于:训练初期,编码器输出的向量对解码器来说是完全陌生的"噪声",解码器看到这些乱七八糟的输入,梯度信号会非常混乱,导致两边都无法正常学习。逐步解冻的方式让系统有机会一步一步地适应,就像让两个陌生人慢慢了解对方的工作方式,再让他们配合完成任务。
**四、精心调配的"训练食材"——数据是关键**
如果把整个训练系统比作一道精心烹制的菜肴,那么训练数据就是食材。食材的质量和搭配直接决定了最终菜肴的品质。研究团队在数据构建上下了相当大的功夫,主要准备了三大类训练数据。
第一类是"交错式预训练数据"。这类数据的特别之处在于数据格式的设计:把一段文字切成多个交替的片段,奇数位置的片段用特殊标记包裹起来(表示这部分需要压缩处理),偶数位置的片段保持原样(正常词元形式)。模型学习的目标是:在看到压缩片段之后,正确预测未被压缩的片段。
这种"交错格式"与以前研究的常见做法有本质区别。之前大多数方法把文章的前半段压缩,后半段作为预测目标,也就是"先压缩,后预测"的简单分割方式。交错格式让压缩块分布在整段文字的各个位置,模型需要学会在文字中的任意位置条件化压缩上下文来进行预测,而不仅仅是在开头。这让模型的理解能力更加灵活健壮。
数据来源覆盖了网页文本(来自Common Crawl大规模爬取数据)、代码(来自Nemotron代码数据集)、数学和推理类文本,以及专门收集的长文档数据集。整个预训练数据集共包含约1.92亿个样本,压缩前总词元数达到2837.8亿。
第二类是"辅助重建数据"。研究团队发现,如果只训练"预测接下来的文字"这个目标,模型会学得很快,但容易忽略一些细节信息。比如,一段文字里某个具体的数字或专有名词,对于"预测接下来说什么"这个任务来说可能不那么重要,但在实际使用中经常需要精确检索。
为了解决这个问题,他们额外设计了重建任务:把一段文字压缩成向量,然后让模型把原始文字逐字重新生成出来。这迫使压缩向量必须保留足够精细的信息,不只是语义层面的理解,还包括具体的词汇和细节。重建数据覆盖代码、文章、数学公式和LaTeX文档等多种格式,还专门设计了100个不同的提示语模板来要求模型重建,防止模型只学会应对特定的提示格式。
第三类是"监督微调数据",专门用于第四阶段训练,包含推理题目、长文档问答、代码任务和多轮对话。研究团队对其中部分数据的回答质量不满意,就用更强的模型(Qwen3-30B和Qwen3-235B)重新生成了更高质量的答案作为训练目标。整个微调数据集约1732万个样本,覆盖范围非常广泛。
在"只训练重建数据"这条路上,研究团队曾经走过一段弯路。他们发现,如果只用重建数据训练,模型确实能很好地重建原文,但完全不能用于任何其他任务,哪怕解码器是冻结的也不行——这让他们意识到,重建任务会让压缩向量"坍塌"到只能服务重建这一种用途的表示,丧失了通用性。正是这个发现促使他们设计出混合两类数据的训练策略。
**五、大规模架构搜索——找到最佳设计方案的科学过程**
在开始大规模训练之前,研究团队进行了一项系统性的"小型预演":用相同的基础模型架构,在相同的种子下随机初始化所有参数,然后以16倍压缩率训练380亿个词,测试各种设计选择的效果差异。这种从零开始训练的方式让他们能干净地隔离每个变量的影响,避免因为初始化不同而带来的混淆。
关于池化方式,研究团队比较了三种方案。第一种是在输入序列末尾或开头添加特殊的"池化令牌",把它的最终隐藏状态作为压缩表示,这是目前很多编码器(比如Qwen3-Embedding-0.6B自带的EOS池化)使用的方式。第二种是对每个压缩块内的所有词的隐藏状态取平均值。第三种是把压缩块内所有词的隐藏状态直接拼接成一个更长的向量。
实验发现,平均池化和拼接池化的效果都明显优于特殊令牌池化方式。两者之间的胜负则取决于压缩率:在16倍压缩率下,平均池化略胜;在4倍压缩率下,拼接池化略胜。这背后有一定的直觉:压缩率越低,每个潜在向量需要承载的信息就越多,拼接方式能完整保留N个独立表示的优势就越明显;压缩率越高,信息已经被高度浓缩,平均池化的平滑效果反而更有利于保留全局语义。由于研究的主要关注点是高压缩率场景,研究团队选择平均池化作为默认设置。
关于编码器窗口大小,实验非常清晰地显示:窗口从16个词扩展到256个词时,预训练损失大幅下降;继续扩展到1024个词时,损失还能进一步降低,但幅度相对较小。理论上,窗口越大,编码器能看到的局部上下文就越多,对压缩向量的质量越有利。但窗口不可能无限大,当文档极长时,必须切分成多个窗口分别处理,每个窗口的边界处的信息连接就会受到影响。研究团队也测试了带有"边界重叠"的方案,让相邻窗口共享一部分词的信息,但实验发现这个改进并不带来性能提升,反而增加了计算开销,因此最终选择不用重叠,窗口大小固定为1024。
所有这些小规模实验的结论都在随后的大规模训练中得到了验证:从零开始的实验结果和真实大规模训练的结论高度一致,说明这种预演式的架构搜索是可靠的实验方法。
**六、实验结果大揭秘——和其他方法比究竟好在哪里**
研究团队对LCLM进行了全面的基准测试,与多种主流KV缓存压缩方法进行对比,包括SnapKV、KVzip、FastKVzip、Expected Attention和Attention Matching。为了保证公平比较,所有方法都使用同一个解码器基础模型(Qwen3-4B-Instruct-2507),在同一块H200 GPU上测试,测量指标包括准确率、处理时间(从开始处理到输出第一个词的时间,即TTFT)和峰值显存占用。
在RULER测试集上(这是一个专门测试长文本理解能力的合成基准,包含多种任务如单针检索、多针检索、变量追踪、常见词抽取等),LCLM展现出明显优势。以4K长度的文本为例,16倍压缩率下LCLM准确率达到75.06%,处理速度是最接近的竞争对手的8.8倍;8倍压缩率下准确率上升到85.42%,4倍压缩率下进一步提升到91.76%,已经相当接近不做任何压缩时的94.41%。
KV缓存压缩方法在速度上吃了大亏:它们的处理时间与压缩率几乎无关,因为无论目标压缩率是多少,它们都必须先完整处理一遍整个文档生成完整的KV缓存,之后的"删减"操作相比之下可以忽略不计。这就是为什么在对比图中,所有KV缓存方法都呈现为几乎垂直的竖线——横轴是时间,竖线意味着无论准确率如何变化,时间几乎不变,都等于完整处理一遍文档所需的时间。LCLM则完全不同,它在处理文档时就直接生成压缩表示,高压缩率意味着解码器需要处理的序列更短,速度优势最为明显。
在LongBench测试(一个覆盖真实长文理解任务的综合基准,包含文档问答、摘要、信息检索等16个英文子任务和5个中文子任务)上,LCLM在64K长度的文档下同样建立了新的帕累托前沿(意思是在准确率-速度的权衡关系上找到了以前方法无法同时达到的组合),速度优势约5.2倍。
内存占用方面的数据也颇具参考价值。研究团队测试了从4K到1M(百万级)词元长度的全范围性能。Attention Matching方法在512K词元时因内存不足而失败,其他KV缓存方法在1M词元时也无法运行;而LCLM在16倍压缩率下,从128K到512K词元的内存占用几乎保持不变——这是因为在这个区间内,主要内存开销来自编码器处理每批窗口所需的激活内存,而不是解码器的KV缓存。只有当文档极长(超过512K词元)时,解码器处理压缩后的序列才开始主导内存消耗,曲线才再次上升。
在GSM8K测试(一个短小精悍的小学数学题集,每道题只有几百个词)上,LCLM同样表现出色,在16倍、8倍和4倍压缩率下都大幅领先其他方法。这个结果说明LCLM不仅擅长处理长文档,对于密集信息的短文本同样有效,展现出良好的通用性。
**七、给AI装上"导航+精读"功能——智能体应用探索**
研究团队不满足于仅仅展示静态压缩的效果,还进一步探索了一种更具创意的应用场景:把LCLM变成一个能主动管理自己记忆的智能体。
设想这样一个场景:一位程序员需要让AI帮他找一个复杂代码库(几十个文件,总共几万行代码)里的Bug。如果把整个代码库不压缩地塞给AI,大多数现有模型根本放不下;如果用传统搜索先定位相关文件,但Bug所在的那个文件可能完全不包含错误描述里提到的任何关键词(比如,报告说"用户登录失败",但真正的Bug在一个负责权限验证的内部模块里,文件名和内容都不包含"登录"这个词)。
LCLM智能体的解决方案结合了两种能力:先把整个代码库用16倍压缩率全部压缩,让AI在有限内存里获得对整个代码库的"鸟瞰视角";然后给AI一个工具——EXPAND(展开),AI可以通过调用EXPAND(文件名, 段落编号)来把某段压缩内容还原成原始代码,进行精读。
这个设计的精妙之处在于:AI不再是盲目地在压缩版本里猜答案,而是能先从全局视角判断"哪里最有可能有问题",再有针对性地展开精读,就像一个侦探先浏览完整案件档案,判断出哪个嫌疑人最值得深入调查,再集中精力对那个嫌疑人展开详细审讯。
在RULER测试集的"针在草堆里"任务(测试AI能否在大量干扰信息中精确找到一个特定的值)上,加上智能体扩展功能的LCLM表现大幅提升。以8K长度文本为例,LCLM智能体的平均准确率从72.51%跃升至92.46%,提升了接近20个百分点;在最难的"3针"任务(文本里埋了3个目标值,都要找到)上,准确率从55.80%直接跳到97.00%,提升了41.2个百分点。在某些测试设置下,加上智能体功能的LCLM甚至能匹配完全不压缩的原始模型表现。
研究团队也坦诚地指出,这只是一次初步探索。如何让AI学会更智能地决策哪些部分需要精读、什么时候应该请求展开,以及如何端到端地学习这种自适应展开策略,都是值得未来深入研究的方向。
**八、研究的局限与未来展望**
任何研究都不是完美的,这项工作也有一些值得关注的局限性。
在编码器和解码器的规模配比上,研究团队发现增大解码器的规模(从4B升到8B)比增大编码器的规模(从0.6B升到4B)更能带来预训练损失的下降。然而,当真正落实到下游任务的准确率时,结果却出现了分化:较小的0.6B编码器配合4B解码器在RULER测试上表现最好,而4B编码器配合4B解码器在其他评测上更占优势。这说明缩放规律在这个架构下还没有被完全摸清,不能简单套用"更大就是更好"的结论。对于8B解码器表现不如预期的问题,研究团队认为可能与训练数据分布有关:他们的数据配方是针对4B指令模型调优的,而8B模型是一个混合思维模型,可能需要不同的数据策略才能发挥潜力。
此外,尽管LCLM的设计与主流推理框架(如vLLM和SGLang)完全兼容,但目前的测试使用的是HuggingFace Transformers的标准实现,并没有充分利用这些推理框架的高级优化功能。研究团队在论文中特别提到,他们报告的速度数据是相对保守的估计,优化后的部署版本应该能做得更好。
从未来方向来看,这套架构有几个自然的延伸空间。一是自适应压缩率:不是给整篇文档统一用16倍或8倍压缩,而是根据每个段落的信息密度动态调整——信息量大的地方压缩少一点,平铺直叙的地方压缩多一点,类似于有损压缩图片时对于高频细节区域用更高精度保存。二是把压缩范围扩展到模型生成的内容:目前LCLM只压缩输入上下文,但在长时间的对话或长链式推理过程中,模型自己生成的内容也会越来越长,如果能把已经处理过的生成内容也压缩起来,可以进一步延伸工作窗口。三是与递归语言模型框架的结合,让LCLM成为能处理更长时间跨度的持久记忆系统的一部分。
说到底,这项研究的意义在于它真正做到了别人想做却没做好的事:用一种端到端训练的通用压缩器,在保持模型能力的同时大幅提升了处理长文本的速度和内存效率。它不是针对某个特定任务调优的专用工具,而是一个在各种长文本场景下都能稳定工作的通用方案,这正是工业部署中最需要的特性。
对于普通用户来说,这项技术的意义是:未来你使用AI处理长文档时,等待时间可能缩短数倍,使用成本可能大幅降低,而AI的回答质量几乎不会打折扣。对于AI研究界来说,LCLM提供了一个实证上有力的论据:软令牌压缩这条路如果训练得足够好,是完全可以与KV缓存压缩方法一较高下的,而且在高压缩率和超长文本场景下还能建立明显的优势。
这项技术仍处于快速发展阶段。如果你对更多技术细节感兴趣,可以通过论文编号arXiv:2606.09659查询完整原文,里面包含详细的实验数据表格和消融研究结果。
Q&A
Q1:LCLM(潜在上下文语言模型)和普通KV缓存压缩有什么本质区别?
A:KV缓存压缩是先让AI完整读完整段文字、生成完整的中间记录,然后再删掉不重要的部分;LCLM则是在AI读文字之前,先用一个独立的"速记员"(编码器)把文字压缩成简短的向量符号,AI直接读这些符号就够了。前者的处理时间和完整读文一样长,压缩率高低基本不影响速度;后者的处理时间随压缩率提高而显著缩短,16倍压缩率下速度可以快8.8倍以上。
Q2:LCLM压缩后AI的回答质量会损失多少?
A:损失程度因压缩率而异。以RULER标准测试集为基准,不压缩时准确率约94%;4倍压缩后约91%~92%,基本接近原始水平;8倍压缩后约85%,有一定下降但仍远优于大多数KV缓存压缩方法;16倍压缩后约75%,损失较明显,但结合智能体扩展工具后可以在关键信息检索任务上大幅弥补,某些任务甚至能回到接近不压缩的水平。
Q3:LCLM技术现在能直接用于日常的AI产品吗?
A:目前LCLM的模型已在HuggingFace上开源(地址:huggingface.co/latent-context),代码也已公开。这套系统与vLLM、SGLang等主流推理框架完全兼容,技术上已经具备产品化的基础条件。但要集成进商用AI服务,还需要工程层面的适配和优化工作。研究团队目前报告的速度数据是在HuggingFace Transformers标准实现下测得的,经过专业推理框架优化后预计还会进一步提速。





京公网安备 11011402013531号