当前位置: 首页 » 资讯 » 科技头条 » 正文

香港中文大学与华为联手破解AI"记忆力差"难题

IP属地 中国·北京 科技行者 时间:2026-05-18 22:18:49


这项由香港中文大学与华为技术有限公司联合开展的研究,以预印本形式于2026年5月发表在arXiv平台,论文编号为arXiv:2605.09932。研究提出了一种名为FOCUSFT的新型训练框架,专门解决大型语言模型在处理长文本时"看到却读不懂"的核心难题。

你有没有这样的经历:把一篇很长的文章交给AI助手,让它回答文章中间部分的问题,结果AI要么答非所问,要么只会复述开头和结尾的内容,对中间的关键信息视而不见?这个让人抓狂的问题困扰了无数AI用户,而它的根源,其实藏在AI模型的训练过程里。

这项研究的出发点非常直接:现代AI大模型动辄支持几万甚至几十万个字的输入,理论上应该能轻松处理一本完整的书。但现实是,这些模型在面对长文本时,往往表现出严重的"注意力涣散"症状——它们把绝大多数"注意力资源"浪费在文章的开头几个字上,对中间大段的实质内容几乎视若无睹。研究团队把这种现象称为"注意力稀释",并提出了一套创新的训练方法来从根本上解决这个问题。

一、为什么AI会"只看开头不看中间"

要理解这个问题,可以用一个课堂上走神的学生来做比喻。这位学生坐在教室里,老师讲了整整一节课,但他的注意力从一开始就被窗外的一只鸟吸引住了,整节课几乎只盯着那只鸟。课后考试时,他对课堂中间讲的核心知识一无所知,只记得老师进门时说的第一句话。

AI大模型面临的困境与此非常相似,但背后的机制更加复杂。在Transformer这种主流AI架构中,模型处理文本时依赖一种叫做"注意力机制"的核心技术。这个机制可以理解成模型在阅读每一个词时,都会对文章中所有其他词分配一定比例的"关注度",关注度越高,那个词对当前理解就越重要。

然而,这套机制存在两个根深蒂固的偏见。第一个偏见叫做"位置偏见"——大量研究发现,AI模型天生倾向于给文章开头和结尾的词分配更高的关注度,与内容本身是否重要无关。这就好比一个人读书时,不管书的内容如何,总是对第一段和最后一段印象最深。麻省理工学院等机构的研究者早就发现了这种"中间迷失"现象,把它形象地描述为AI阅读时的"U形曲线":开头和结尾得分高,中间部分大幅下滑。

第二个偏见更为隐蔽,叫做"注意力汇聚"。在传统的自回归语言模型中,文章是从左往右依次处理的,每个词只能看到它前面的词,而看不到后面的词。这导致文章最开头的几个词处于一种特殊地位——它们是整篇文章中唯一可以被所有后续词"看到"的位置。模型便学会了把这几个开头词当成一个"垃圾桶",每当不知道该把注意力放在哪里时,就把多余的关注度统统倾倒进去。研究者把这个"垃圾桶"称为"注意力汇聚点"(attention sink)。

研究团队通过实验对这两种偏见进行了量化测量,结果触目惊心。在一个包含4096个词的多轮对话样本中,标准训练方式下,仅仅开头5个词就吸收了整篇文章30.1%的注意力资源,而文章正文中所有实质性内容(包括系统提示、用户问题和工具返回的信息)加在一起,只获得了13.5%的关注度。换句话说,AI把将近三分之一的"眼神"死死盯在开头5个词上,而对其余几千个词的实质内容几乎视而不见。

更令人担忧的是,这个问题在训练阶段就已经存在。当AI模型在大量长文本上进行训练时,每一次学习的过程都是在这种"注意力稀释"的状态下进行的。也就是说,模型在学习如何回答问题时,它所看到的"题目"是扭曲的、残缺的——重要信息已经被淹没在注意力汇聚点的阴影下。这就像一个学生每次复习课本时都只认真读了第一行,那不管复习多少遍,考试时对中间内容的掌握依然会是一塌糊涂。

这种情况会形成一个恶性循环:训练时注意力稀释,导致模型学到的是浅层的注意力模式;浅层的注意力模式导致模型在实际使用时无法利用长文本;而为了解决这个问题,如果简单地用更长的文本来训练,注意力汇聚点会吸收更多资源,情况反而更糟糕。以清华大学和斯坦福大学参与的相关评测为例,很多号称支持十几万词输入的顶尖模型,在任务复杂度稍微提升后,表现就会断崖式下跌——这正是这个恶性循环的体现。

二、"双层训练法":在学习之前先做一次预习

面对这个棘手的问题,研究团队设计了FOCUSFT框架,其核心思路可以用一个备考策略来理解。

一个成绩优秀的学生在做一套模拟题之前,通常会先快速浏览一遍整套题目,在心里建立一个大致的印象:哪些题是关键考点,需要调用哪些知识,各道题之间有什么关联。有了这个"预习地图"之后,他再正式作答时,注意力就会精准地集中在真正重要的地方,而不是漫无目的地乱翻。

FOCUSFT的设计逻辑与此如出一辙。在每一次正式的训练步骤之前,系统会先走一个"内循环"——用一套轻量级的临时参数(借鉴了LoRA这种低秩适应技术,相当于给模型安装了一组小型的"辅助模块")对当前这段训练文本快速适应两步。这个快速适应的过程,目标是让这些临时参数编码当前文本中哪些内容是真正关键的,形成一种"参数化记忆",相当于上文说的"预习地图"。

有了这张地图之后,系统进入"外循环",也就是真正的训练步骤。此时,模型在"预习地图"的指引下重新处理这段文本,注意力分布会更加精准地聚焦在语义相关的内容上,而不是被开头几个词的汇聚效应所劫持。外循环结束后,那些临时的辅助模块会被直接丢弃,只有模型的核心参数得到更新保留。

这就是论文题目中"双层优化"(bilevel optimization)的含义:整个训练过程被分成内外两个嵌套的优化层,内层负责"预习定向",外层负责"正式学习",二者紧密配合,共同打破注意力稀释的恶性循环。

值得一提的是,这种"双层优化"的思路并非凭空而来,它借鉴了机器学习领域的元学习方法,尤其是被称为MAML的经典算法——该算法由伯克利大学的研究者在2017年提出,核心思想是通过内层适应来学习一个能快速泛化的初始化参数。FOCUSFT把这个思路创造性地移植到了"单个训练样本内的注意力聚焦"这个全新场景中,目标不是跨任务泛化,而是让模型在当前这段文本上"看得更准"。

三、双向注意力:拆掉那个"垃圾桶"

仅仅依靠双层训练还不够,研究团队还针对注意力汇聚点的根本成因下了一剂药。

前面提到,注意力汇聚点之所以存在,是因为在从左到右的单向处理模式下,文章开头的词具有被所有人"看见"的特殊地位,自然成了注意力的磁铁。要消除这个磁铁,最直接的办法就是打破这种不对等的"可见性"结构。

FOCUSFT的做法是:在处理文章的上下文(即提问部分)时,允许所有词相互双向注意——不仅能看到前面的词,也能看到后面的词。这样一来,文章开头的词就不再是唯一"被所有人看见"的特殊位置,开头词和中间词、结尾词之间的地位趋于平等,汇聚效应自然大幅减弱。与此同时,在处理AI需要生成的回答部分时,仍然保持从左到右的单向处理(因为生成文字时确实不能"看到未来的词",这是必要的约束)。

这种"上下文双向、回答单向"的注意力模式,借鉴了清华大学开发的GLM模型的设计思路。研究团队把这个注意力掩码的规则用一个简洁的公式定义出来:如果两个词都属于上下文部分,它们就可以互相注意;如果当前词属于回答部分,它只能注意到它之前的所有词;其他情况一律屏蔽。

从实验数据来看,这一设计带来了极为显著的效果。注意力汇聚点每层平均的"注意力吸收量"从30.1%骤降至0.06%,降幅高达529倍。那个一直充当"垃圾桶"的位置,就这样被彻底清空了。

四、两个循环必须说"同一种语言"

有了双层训练和双向注意力,还需要解决一个关键的工程问题:内循环和外循环必须高度一致,否则内循环生成的"预习地图"对外循环来说可能毫无用处,甚至起到反效果。

研究团队把这个设计原则称为"内外一致性"。具体体现在两个维度:目标函数一致和注意力模式一致。内循环使用的损失函数(即评价回答质量的标准)与外循环完全相同,都是预测下一个词的标准语言模型损失;内循环和外循环使用的注意力掩码规则也完全相同,都是上文提到的"上下文双向、回答单向"模式。这样一来,内循环优化出来的那套临时辅助模块,其目标和外循环完全对齐,它编码的信息自然可以直接被外循环所用。

还有一个实用性很强的设计细节:内循环的梯度计算采用了"一阶近似"方法。简单来说,就是在外循环更新核心参数时,把内循环的辅助模块当成固定不动的常量来处理,不再反向追溯内循环内部的计算图。这个近似处理大幅降低了计算复杂度和显存占用,让整个框架在实际工程中具备可行性,代价是损失了一小部分理论最优性,但实践中效果依然非常好。

五、实验结果:从多个角度验证效果

研究团队用多个标准测试集对FOCUSFT进行了全面评估,基础模型选用的是阿里云开源的Qwen2.5-7B(一个拥有70亿参数的语言模型),训练数据是3000条多轮对话样本,每条样本最长4096个词,在8块GPU上训练5轮。

在BABILong测试集上,研究结果最为亮眼。BABILong是一个专门设计来测试长文本推理能力的基准,它把简单的推理题目"藏"在大量无关文本构成的"大海"中,考察模型能否准确找到并综合利用分散在长文本中的关键信息,测试场景涵盖4000词到32000词四个长度档次。标准训练方式(Standard SFT)在这个测试上几乎没有比未经微调的原始模型有任何提升,这直接印证了研究团队的核心论断——在注意力稀释的状态下训练,再多的训练也是无效功。而FOCUSFT在4000词场景下比标准训练高出14.2个百分点,在8000词场景高出10.2个百分点,16000词高出10.2个百分点,32000词高出9.6个百分点。尤其值得关注的是,FOCUSFT的训练数据最长只有4096个词,但它在16000词乃至32000词的测试上依然保持了显著优势,说明这种训练方式让模型学到的是一种可以迁移到更长场景的通用能力,而不是对特定长度的死记硬背。

从BABILong的细分任务来看,增益最大的是需要多跳推理的题型。所谓多跳推理,是指回答一个问题需要在文章中找到多条分散的线索,然后把它们串联起来推导出答案。比如"QA2(两条线索推理)"这一子任务,FOCUSFT在4000词场景下比标准训练高出26个百分点,在16000词场景高出12个百分点;"QA3(时序推理)"这一子任务的提升更为惊人,在4000词场景高出31个百分点,在16000词场景高出30个百分点。这个规律完全符合预期:注意力稀释对需要同时关注多个分散位置的任务伤害最大,而FOCUSFT恰好最擅长在训练时让模型学会关注分散的关键信息。

在RULER测试集上,FOCUSFT的优势同样明显。RULER是一个更综合的长文本评测体系,包含多种类型的子任务:NIAH-MV测试模型能否从多个隐藏位置找到多个关键值;CWE(词频统计)测试模型能否统计整篇文章中某个词出现的次数,需要对全文进行均匀扫描;VT(变量追踪)测试多跳的链式推理能力。在CWE这个最需要均匀关注全文的子任务上,FOCUSFT在16000词场景的得分从72.9%提升到81.1%,提升了8.2个百分点。这个结果非常有说服力:CWE要求模型对文章每个位置都给予同等关注,正是注意力稀释伤害最深的场景,而FOCUSFT在这里的提升也最为显著。

在更贴近实际应用的LongBench测试集上,FOCUSFT在四个真实世界问答任务(多跳QA、多领域QA、长篇叙事QA、学术论文QA)的平均F1分数提升了2.4个百分点,其中MultifieldQA(需要跨多个领域文档综合证据)提升最高,达到5.2个百分点。

最有趣的是GPQA测试上的表现。GPQA是一套研究生级别的理科难题(涵盖物理、化学、生物等领域),需要模型使用搜索工具进行多轮对话式解题。在这个测试中,模型不仅要理解长达数千词的对话历史,还要协调工具调用、整合多轮信息来给出最终答案。FOCUSFT在这里的pass@1(多次尝试中答对的比例)达到19.4%,而标准训练只有15.6%,相对提升幅度达到24%。这说明训练时的注意力改善,可以迁移到需要复杂推理和工具使用的真实智能体任务中。

六、把每个因素拆开来看:消融实验的发现

为了搞清楚双层训练和双向注意力这两个核心设计各自贡献了多少,研究团队做了一个"2×2因子实验"——把两个开关各自独立打开和关闭,得到四种组合进行比较。

实验结果非常清晰。单独打开双层训练(但保持单向注意力),在BABILong 4000词场景比标准训练提升了12.2个百分点,这说明内循环的参数化记忆是改善的主要驱动力。然而,单独打开双向注意力(但不用双层训练),效果反而比标准训练下降了4到5个百分点。这个反直觉的结果有一个合理解释:训练时用双向注意力,但推理时模型依然用单向注意力,这造成了"训练-推理不一致",引入了分布偏移,反而帮倒忙。只有当双向注意力和双层训练同时使用时,双向注意力才能发挥正向作用——内循环可以充分利用双向注意带来的完整上下文信息来形成更有效的参数化记忆,而外循环的训练也在相同条件下进行,保证了一致性。两者结合时,在32000词场景的额外增益(+3.8个百分点)明显超过两者各自独立贡献的简单相加,显示出正向协同效应。

在内循环的设计参数上,研究团队也进行了细致的灵敏度分析。内循环覆盖的层数比例存在一个明显的最优值,覆盖模型最顶部35%的层时性能最佳。覆盖层数太少,临时参数编码的信息量不够,"预习地图"太过粗糙;覆盖层数太多,临时参数改动太大,破坏了基础模型原有的表示能力,导致外循环反而从一个被扰乱的状态出发。内循环的步数也有类似的规律:迭代2步最佳,迭代3步会导致临时参数过度拟合到当前样本,让外循环的梯度信号失去通用性,性能大幅下滑。这些规律共同指向一个直觉:内循环的目标是形成一个"粗略的语境草图",而不是彻底记住当前样本。

七、训练成本与推理开销:一个值得正视的权衡

任何好处都不是免费的。FOCUSFT引入的内循环会带来额外的计算开销。从实验数据来看,加入双层训练后,每步训练时间增加约52%(从3.64秒/步增加到5.52秒/步),再加上双向注意力(几乎不增加额外计算,因为只是修改了掩码矩阵),整体训练时间是标准训练的1.71倍,从0.47小时增加到0.81小时。

这个代价是否值得?从性价比角度来看,额外71%的训练时间换来了BABILong 4000词场景14.2个百分点的提升,而且这个提升可以泛化到更长的场景。更重要的是,那些临时的辅助模块在训练结束后全部丢弃,推理时的计算开销与标准训练完全相同,用户体验不受任何影响。

研究团队还测试了一个自然而然的延伸想法:能不能在推理时也做一次内循环适应,进一步提升效果?实验结果表明这样做反而轻微降低了性能。原因在于FOCUSFT的训练过程已经让模型的核心参数内化了"如何聚焦长文本"的能力,推理时再做额外适应既多余又可能引入干扰。这个发现从另一个侧面证明了训练时的双层优化确实在模型参数里留下了实质性的、持久的改变。

说到底,这项研究揭示的是一个被长期忽视的训练问题:AI模型在学习如何处理长文本时,训练过程本身就存在根本性的缺陷。就像一个学生在用放大镜读书,但放大镜只放大了第一行字,其余内容全部模糊成一片——不管读多少遍,对后面内容的理解依然为零。FOCUSFT的价值在于,它没有试图在推理时给模型装上"补丁",而是直接修复了训练过程中的这个根本性缺陷,让模型从一开始就能在"视野清晰"的状态下学习如何阅读长文本。

这对普通用户意味着什么?未来基于这类方法训练出来的AI助手,在处理长篇报告分析、多轮复杂对话、大型代码库理解、长学术论文摘要等实际任务时,将能更可靠地利用文本中间部分的关键信息,减少那种"我明明在文章里写清楚了,AI却答非所问"的挫败感。

当然,这项研究也有坦诚承认的局限:目前只在Qwen2.5-7B这一个模型上进行了实验,在更大规模模型和更多样化数据上的表现尚待验证;训练开销的1.71倍增加对于大规模工业部署来说依然是一个需要权衡的成本;此外,如何把这套方法与强化学习等更先进的对齐训练技术结合,也是留给未来探索的开放问题。感兴趣的读者可以通过arXiv平台搜索论文编号arXiv:2605.09932查阅完整原文,研究代码也已在GitHub上公开。

Q&A

Q1:FOCUSFT训练出来的模型推理时需要额外计算吗?

A:不需要。FOCUSFT的内循环辅助模块只在训练阶段使用,训练结束后会被完全丢弃。推理时只使用标准的模型参数,与普通模型完全相同,不增加任何推理开销。研究团队也专门测试了在推理时额外做适应的方案,结果发现反而轻微降低了性能,说明训练改进已经被充分内化到模型参数中。

Q2:注意力汇聚点(attention sink)是怎么产生的,为什么会影响长文本理解?

A:在自回归语言模型中,文章从左到右处理,每个词只能看到前面的词。这使开头几个词成为唯一被所有后续词"看见"的位置。当模型不知道该关注哪里时,就把多余的注意力倾倒在这几个开头词上。实验显示,仅5个开头词就吸收了30.1%的注意力资源,导致中间的实质内容只获得13.5%的关注,严重削弱了模型对长文本的理解能力。

Q3:FOCUSFT的双向注意力为什么单独使用时反而会降低效果?

A:单独使用双向注意力时,训练和推理之间存在不一致:训练时上下文词可以相互双向注意,但推理时仍使用标准的单向因果注意力。这种"训练-推理分布差异"会引入干扰,反而降低性能。只有与双层训练结合使用时,内循环才能充分利用双向注意力提供的完整上下文信息,同时保证训练条件内外一致,两者协同才能发挥正向效果。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。