当前位置: 首页 » 资讯 » 科技头条 » 正文

香港科技大学与字节跳动联手破解AI"近视"难题

IP属地 中国·北京 科技行者 时间:2026-05-20 18:30:06


这项由香港科技大学计算机科学与工程系与字节跳动Seed团队联合开展的研究,于2026年5月发表在预印本平台arXiv上,论文编号为arXiv:2605.13831v1。感兴趣的读者可通过该编号在arXiv平台检索完整论文。

当你把一本三百页的年报扔给AI助手,让它帮你找关键数据时,AI的表现往往令人失望——它像一个只能看清眼前几页书的近视眼,越往后翻越是一片模糊。这不是AI不够聪明,而是它的"视野"太短。这项研究的核心任务,就是给AI配上一副合适的"眼镜",让它能同时清晰地看完整本书,而不是只盯着最近的几页。

一、AI为什么会"近视"?长文本处理的根本困境

现代的大型视觉语言模型,也就是那种既能看图又能读文的AI,本质上在处理信息时需要一个"工作记忆"的空间,这个空间在技术上叫做"上下文窗口"。窗口越大,AI能同时"记住"的内容就越多。窗口的大小用"token"来衡量,可以粗略地理解为文字片段的数量。

这项研究使用的基础模型是阿里巴巴开源的Qwen2.5-VL-7B,它原本的上下文窗口只有32K个token,大约相当于同时处理一篇两三万字的中文文章。对于日常问答没有问题,但碰到一份几十页的合同、一本技术手册,或者一段一小时的会议视频,它就捉襟见肘了。研究团队的目标是把这个窗口从32K扩展到128K,也就是把AI的"工作台"扩大整整四倍。

更重要的问题不只是把窗口撑大,而是用什么样的"训练食谱"来教会AI真正利用这个更大的工作台。就像一个桌子扩大了四倍,如果你不重新训练使用者如何在这张大桌子上高效工作,他可能还是只用中间那一小块地方。这正是整个研究要解决的核心谜题。

二、训练食谱的第一步:长文档问答,而不是OCR抄写

研究团队首先面临一个基本选择:用什么样的数据来训练AI处理长文档?他们设计了两大类训练任务并做了对比。

第一类叫做"长文档问答",顾名思义,就是给AI一份几十页的长文档,然后问它里面的具体问题,要求它给出正确答案。这类训练分成三个难度递进的子任务:单页提取是最基础的,要求AI从指定的单张页面里找到某个具体事实,比如"第39页的自制苦味酒配方里,草药需要在伏特加中浸泡多长时间";多页提取则需要AI把分散在多个页面的信息汇总起来,比如"根据第6、13和19页,列出报告中提到的所有风险因素";推理任务最难,不只是找信息,还要对找到的信息进行计算、比较或统计,比如"2020年大米的总消耗量与总进口量之间的差值是多少"。

第二类叫做"OCR转录",本质上是让AI把文档页面图片里的文字一字不差地抄写下来。这又分为两种:全文OCR要求把整份文档的所有文字都转录出来;针页OCR则只转录文档中随机选取的一两页,其余页面作为干扰背景。

实验结果非常清晰地显示了两类训练的优劣。在主要评估基准MMLongBench上,使用长文档问答数据训练的模型在64K和128K的综合评分分别提升了5.1到6.3个百分点不等。而OCR全文转录训练出的模型,综合评分竟然下降了惊人的17.4个百分点,降到了33.17分,连基础模型都不如。针页OCR稍好一些,但也下降了6.8个百分点。研究团队还给OCR训练的模型额外追加了50亿token的指令微调来补救,确实有所改善,但最终成绩依然不如长文档问答训练的模型,而且还多花了大量计算资源。

为什么OCR会如此失败?直觉上,让AI抄写文字好像是在教它"看清楚"文档内容,应该有帮助才对。但实际上,抄写是一种机械性任务,AI学会的是"忠实复制"而不是"理解并检索"。更糟糕的是,大量的抄写训练会干扰AI原本的指令遵循能力——它变成了一个只会抄写的工具,而不是一个会回答问题的助手。长文档问答则完全不同,它强迫AI主动在海量信息中搜寻关键证据,这才是真正意义上的长文本理解能力训练。

三、数据是怎么造出来的?一条聪明的"短变长"流水线

确定了训练方向后,研究团队还需要解决一个实际问题:这些长文档问答的训练数据从哪里来?总不能让人工逐页阅读几十万份文档然后手写问题吧。

团队构建了一个巧妙的数据合成流水线。第一步,他们建立了一个包含超过150万份PDF文档的资料库,涵盖学术论文、书籍和技术手册,横跨工程、医学、社会科学、生物学等多个领域,其中英文文档占了96%以上。每份文档先被渲染成高清图片(每页144 DPI),再用一个专门微调的OCR专家模型解析出文档结构,识别出标题、章节标题、段落、表格等不同类型的文字块。

第二步,从这个资料库里选取页数在32到50页之间的文档,用Qwen2.5-VL的2×2像素下采样处理后,这些文档恰好能产生32K到128K个token的多模态序列,完美覆盖训练目标范围。

第三步,也是最核心的一步:从每份文档里随机抽取一个8到15页的连续段落(必须是语义连贯的章节),把这几页的图片交给字节跳动的Seed 2.0大模型,让它基于这个短段落生成一个问答对。注意关键点——生成问答对时只需要处理8到15页,不需要处理整本文档,这大大降低了数据生成的计算成本,同时保证了问题质量。

第四步,把生成的问答对"放回"原始完整文档。这样一来,训练样本就变成了:一份完整的长文档作为输入,问题只涉及其中一个短段落,AI必须在整份文档的海量信息中自己找到相关的那几页来回答。这就像在图书馆里找一本书中某个章节的内容,而不是只看着那几页书来回答问题。

这个流水线有一个特别需要解决的挑战:局部生成的问题在全局文档中可能会产生歧义。比如,在某个章节里问"报告的总收入是多少"是合理的,但放到一份包含多个年度数据的完整财务报告里,就不清楚指的是哪一年哪个部门了。为此,系统要求Seed 2.0在生成问题时必须加上明确的定位锚点,比如"根据第20-25页的内容"或者"在引言章节中",确保问题在全局上下文里也是无歧义的。

研究团队还对生成的问答对做了人工质量抽查,随机检验了100个样本,发现97个完全正确,2个答案有误,1个证据标注不准确,总体质量相当高。

四、训练长度的分布:均匀撒网,好过只钓大鱼

接下来,研究团队面临另一个实际决策:在5B(50亿)token的训练预算里,应该如何分配训练样本的长度?

一个直觉上合理的想法是:既然目标是128K的上下文,那就应该主要用接近128K长度的训练样本,这样模型才能学会处理最长的情况。研究团队把这种策略叫做"长度偏置分布",在这种设置下,83.9%的训练样本都超过100K个token。

另一种策略是"池原生分布",就是直接用文档库里自然筛选出的32到50页文档,不做额外的长度偏置,这些文档产生的序列长度自然分布在32K到128K之间,只有约23.6%的样本超过100K token。

实验结果出乎意料:池原生分布在三类任务(单页提取、多页提取、推理)上分别比长度偏置分布高出1.3、0.1和1.7个百分点,也就是说,"均匀撒网"的效果比"专注练习最长情况"更好。

这个发现背后有一个深刻的道理。长文本处理能力不是一个在128K这个特定长度上的开关,而是一种需要在各种长度下泛化的能力。本质上,AI需要学会"无论关键信息藏在文档的哪个位置,我都能找到它",这是一种位置不敏感的检索能力。如果只训练超长样本,模型在处理中等长度文档时反而会表现不稳定,因为它从未见过这种"中间长度"的场景。这就像练习跑马拉松的运动员,不能只练习跑42公里,还需要经常跑10公里、20公里等不同距离来建立全面的体能基础。

五、任务配比的黄金比例:提取为主,推理为辅

既然长文档问答被分为提取类(包含单页提取和多页提取)和推理类三种任务,应该按什么比例混合这三种数据来训练?

研究团队做了一次完整的网格搜索,从"只用推理数据(0:10)"到"只用提取数据(10:0)",以20%为步长逐一测试了六种配比。结果显示,当提取数据和推理数据的比例为8:2时,综合得分最高,达到57.70分,不仅超过了任何一种单独任务训练的结果,也超过了更均衡的6:4和5:5配比。

这个结果揭示了一个关于长文本理解瓶颈的重要认识:在扩展上下文窗口的过程中,"找到信息"比"处理信息"更难、更重要。AI原本就具备一定的推理能力,真正的短板在于如何在128K的海量信息中精准定位到那几个关键的句子或数字。因此,训练数据应该着重强化检索和定位能力,同时保留一定比例的推理任务以维持任务多样性,防止模型变成只会"找东西"而不会"用东西"的工具。

在三种提取任务的具体分配上,最终方案是单页提取占40%、多页提取占40%、推理占20%,形成了一个完整的训练配方。

六、短文本能力的意外惊喜:长文档训练不会让AI"失忆"

在长文本训练中,一个普遍担忧的问题是:专注于训练长文本能力,会不会让AI忘记处理短文本的本领?这就像专门训练长跑,会不会影响短跑成绩?

研究团队专门做了实验来检验这个权衡,测试了在训练数据中混入0%到80%短文本指令数据的不同比例,评估了六个短文本基准测试,包括通用视觉问答(MMBench和RealWorldQA)、多模态推理(MMMU、MMMU-Pro和MathVista)以及文字识别(OCRBench)。

结果令人感到意外。完全不加短文本数据(0%短文本比例)时,长文档问答综合评分最高,达到57.70分;而短文本能力的综合评分从基础模型的66.47分只小幅下降到65.48分,损失仅约1个百分点。这意味着,高质量的长文档问答训练数据对短文本能力的破坏性远比人们预期的要小。

为什么会这样?关键在于数据格式。长文档问答的训练数据本质上仍然是"问题-答案"的对话形式,这与短文本指令微调的格式完全一致。AI在处理一个128K的长文档时,仍然在学习"理解问题、找证据、给答案"这个通用技能,只不过证据找起来更难了。这种格式上的一致性使得长文本训练不会像OCR转录那样"覆盖"掉原有的指令遵循能力。

混入20%短文本数据时,短文本综合评分小幅回升到66.53分,但长文档评分却下降到55.57分,两边都受到了影响。混入40%短文本数据时,长文档评分回升到57.01分,短文本评分保持在66.14分,形成了一个相对平衡的折中方案。

基于这些发现,研究团队在最终方案中选择了纯长文本训练(0%短文本),以最大化长文本性能,同时也提供了"40%短文本"作为一个备选配置,供那些对短文本性能保留有更高要求的用户使用。

七、技术细节:如何让模型的位置感知跟上更长的序列

训练长文本模型还有一个技术性挑战:位置编码。AI在处理文本时,需要知道每个词在序列中的相对位置,这依赖于一种叫做"旋转位置编码"(RoPE)的机制,可以把它理解为给序列里每个位置贴一个独特的"座位号"。当序列长度从32K扩展到128K时,原来的座位号系统可能不够用,需要重新标定。

视觉语言模型使用的是一种更复杂的多维旋转位置编码(mRoPE),它把位置分解为时间、高度和宽度三个维度,图片中的位置计数方式和纯文本不同,因此LLM领域那些现成的位置编码扩展经验不能直接套用。

研究团队参考了一种叫做"动态NTK"的启发式方法,将mRoPE的基础频率从原来的100万扩大到400万。他们还对比了200万和800万两个备选值。测试结果显示,200万和400万的效果相当,再往上调到800万则在不同任务上表现不稳定,有时提升有时下降。所以最终采用了与动态NTK方法一致的400万作为默认设置。

在计算效率方面,训练使用了FlashAttention技术来加速长序列的注意力计算,同时采用了序列并行(并行度为2)和完全分片数据并行(FSDP,并行度为4)的组合,使得128K的训练配置可以在单台8张NVIDIA H20 GPU的服务器上运行。实际训练时使用了8台这样的服务器(共64张GPU)来提高训练速度,整个5B token的训练大约消耗了2900个H20 GPU小时。

八、最终成果:MMProLong的表现与泛化能力

基于上述所有设计选择,研究团队训练出了最终模型MMProLong。综合评分来看,MMProLong在64K和128K上的综合评分分别为59.56和55.84,合计平均57.70分,比基础模型Qwen2.5-VL-7B的50.59分提升了7.11个百分点。

在与其他开源模型的横向比较中,MMProLong在参数量小于15B的模型里排名第一,领先同尺寸的InternVL3-8B(47.15分)、InternVL3-14B(47.47分)、Gemma3-12B(47.76分)等多个模型超过10个百分点。更引人注目的是,MMProLong还超过了参数量大得多的InternVL3-38B(48.88分)和Gemma3-27B(52.63分),说明数据质量和训练方法的精心设计可以在一定程度上弥补模型规模的差距。闭源商业模型中,Gemini-3.1-Pro以83.66分领先,表明顶尖商业模型仍有显著优势,但MMProLong在开源小模型中的竞争力相当突出。

更令人印象深刻的是MMProLong超越训练窗口的泛化能力。这个模型只训练到128K的上下文长度,但研究团队把评测延伸到了256K和512K,结果发现MMProLong依然维持了相当强的性能:256K评分55.09分,512K评分52.52分,综合平均53.80分。相比之下,基础模型Qwen2.5-VL-7B在256K和512K的表现急剧下滑,分别只有38.12和19.49,综合平均28.80分。MMProLong在512K时比基础模型高出了惊人的33个百分点。这说明训练出来的长文本检索能力具有相当强的泛化性,而不仅仅是对128K这个特定长度的过拟合。

九、超越文档理解:意外获得的跨领域能力

研究中最令人惊喜的发现之一是:仅用文档数据训练出来的长文本能力,居然能自然地迁移到完全不同类型的任务上。

在多模态针扎大海捞针测试(MM-NIAH)中,任务背景从文档变成了网页,模型需要在一大堆网页截图里找到特定的目标信息。MMProLong把平均分从20.0分大幅提升到49.4分,其中检索类任务从30.7分飙升到66.3分(+35.7分),推理类任务从18.2分提升到63.8分(+45.7分)。这说明文档问答训练培养出的"在长序列中定位稀疏证据"的能力,对网页检索同样有效。

在长视频理解三个测试基准(Video-MME、MLVU、LongVideoBench)上,MMProLong分别比基础模型提升了2.7、3.3和1.6个百分点,达到67.78、73.55和62.08分。这一点特别值得关注,因为MMProLong的训练数据里完全没有视频!模型通过文档训练学会了如何在时间轴上定位和整合分散的关键信息,这种能力恰好也适用于长视频中的时间序列理解。

在视觉文本压缩测试(VTCBench)上,MMProLong的综合评分从48.23分提升到52.73分,在推理和记忆子任务上均有提升,同时维持了强大的检索性能。

研究团队还把同样的训练方法应用到了更新的Qwen3-VL-8B模型上(该模型本身已经是256K上下文的强力模型),结果长文档问答评分从65.62提升到67.51,MM-NIAH综合评分从50.03大幅跃升到61.75。这证明了这套训练方法的通用性,不是专门针对某一个基础模型的特殊技巧。

说到底,这项研究做的事情可以用一句话概括:用"更聪明的教材"而不是"更多的教材"来训练AI阅读长文档。研究发现,正确的训练数据格式(问答而非抄写)、合理的数据分布(均匀覆盖各种长度而非只练最长情况)、恰当的任务配比(检索为主推理为辅),以及适度的位置编码调整,这四个因素的组合就能在仅5B token(相比很多大模型预训练动辄数万亿token,这是个相当节俭的预算)的情况下,让一个7B参数的视觉语言模型具备真正实用的长文本处理能力。

对于普通用户而言,这项研究的意义是:未来AI助手在帮你处理长合同、长报告、长视频时,会更加可靠,而不是读到后半段就开始"失忆"或胡编乱造。研究同时也揭示了一个值得思考的方向:学会"带着问题去找答案",比"把所有内容背下来"更接近真正的理解能力——无论是对AI还是对人类,或许都是如此。感兴趣的读者可通过arXiv编号2605.13831查阅完整论文,深入了解实验设计和技术细节。

Q&A

Q1:MMProLong是什么,和普通视觉语言模型有什么区别?

A:MMProLong是香港科技大学与字节跳动联合训练的视觉语言模型,基于Qwen2.5-VL-7B发展而来。普通视觉语言模型的上下文窗口通常只有32K token,处理几十页的长文档时会"失忆"。MMProLong通过特定训练方法将上下文窗口扩展到128K,还能泛化到256K和512K,在处理长文档、长视频和网页检索时表现更稳定、准确。

Q2:为什么用OCR抄写来训练AI读长文档反而会变差?

A:OCR抄写任务只是让AI机械地复制文字,训练的是"忠实转录"而非"理解检索"。大量抄写训练会干扰AI原有的指令遵循能力,让它变成一个只会抄写的工具。相比之下,长文档问答任务强迫AI主动在海量信息中搜索证据来回答具体问题,这才是真正意义上的长文本理解训练,效果差距超过20个百分点。

Q3:长文档问答训练会让AI处理短文本的能力变差吗?

A:实验表明影响非常小。用纯长文档问答数据训练后,AI在六个短文本基准测试上的综合评分仅从66.47分下降到65.48分,损失不到1个百分点。原因在于长文档问答和短文本指令微调使用同样的"问题-答案"对话格式,训练的是同一套理解能力,只是输入文档更长,所以不会像OCR转录那样破坏短文本处理能力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。