当前位置: 首页 » 资讯 » 科技头条 » 正文

人民大学破解检索难题:让AI同时理解文字和图片的"混合内容"

IP属地 中国·北京 科技行者 时间:2025-12-09 00:17:53


当你在网上搜索"如何制作蛋糕"时,搜索结果可能包含纯文字教程、单独的图片,或者文字和图片交错排列的详细指南。对人类来说,理解这些不同格式的内容毫不费力,但对AI来说,这却是一个巨大的挑战。如何让AI像人类一样自然地理解和检索这些"混合内容",一直是计算机科学领域的难题。

最近,中国人民大学信息学院的张承昊、董关廷、杨鑫宇和窦志成教授团队在这个问题上取得了重要突破。他们的研究成果《Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation》于2025年10月发表在计算机科学顶级会议WWW 2026上。有兴趣深入了解的读者可以通过arXiv:2510.17354查询完整论文。

这项研究的核心是开发了一个名为Nyx的AI系统,就像一个超级图书管理员,不仅能读懂文字,还能"看懂"图片,更重要的是,它能理解文字和图片混合在一起时所表达的完整含义。这种能力被研究团队称为"通用检索增强生成"(URAG),它解决了现实世界中最常见却最复杂的信息处理需求。

研究团队发现,现有的AI系统在处理混合内容时存在严重缺陷。传统方法要么把文字和图片分开处理,就像让一个人蒙着眼睛读书、捂着耳朵看画一样,要么只用文字去搜索图片内容,这种做法就像只凭声音去寻找一部电影,往往错失关键信息。更重要的是,这些系统完全忽略了图片和文字在同一页面中的空间位置关系和逻辑联系,而这些关系对理解内容的完整含义至关重要。

为了训练这个"超级管理员",研究团队面临的第一个挑战是缺乏合适的训练材料。现实中的网页内容虽然丰富多样,但要让AI学会处理这些内容,需要大量标注好的问答对作为"教材"。研究团队创造性地开发了一套四步骤的自动化流程来构建NyxQA数据集,就像建造一个巨大的图书馆一样。

一、从真实网页中"淘金":构建混合内容训练库

研究团队首先从OBELICS数据集中采样了真实的网页文档,这些文档就像真实世界信息的缩影,包含了各种可能的文字和图片组合方式。他们将每个网页文档切分成较小的片段,每个片段包含不超过200个文字标记,同时保持内容的语义完整性。这个过程就像把一本厚厚的百科全书拆分成一个个独立却完整的条目,既便于处理,又不会破坏信息的完整性。

通过这种方法,研究团队最终构建了一个包含46741个文档片段的混合模态语料库。这个语料库的特殊之处在于,它真实反映了网络内容的多样性分布,包含了纯文字内容、单独图片、文字图片配对,以及文字图片任意交错的复杂格式。这种真实性确保了AI系统能够适应现实世界中遇到的各种情况。

接下来,研究团队从这个庞大的语料库中精心挑选了10000个具有代表性的文档片段,作为生成问答对的基础材料。这个选择过程采用了分层采样策略,确保各种模态组合的内容都有适当的代表性,就像确保图书馆的藏书涵盖各个学科一样。

二、AI"老师"生成问答对:让机器教机器

有了原始材料后,研究团队使用强大的视觉语言模型作为"AI老师",为每个文档片段生成最多五个问答对。这个过程就像让一位博学的老师阅读每一份材料,然后提出相关问题并给出答案。

对于只包含文字的文档,AI老师会专注于文本内容,生成能够完全基于该文档回答的问题。而对于包含图片的文档,AI老师会特别关注视觉内容,生成涉及图片信息的问题。为了确保问题的准确性,研究团队设计了特殊的标记系统,用""这样的标签来指代文档中的第k张图片,确保问题和答案之间的对应关系清晰明确。

这个过程产生了大量原始的问答对,但就像初稿一样,这些内容还需要进一步的精炼和完善。原始生成的问答对存在各种质量问题,比如问题可能过于依赖上下文信息,或者答案可能过于冗长难以评估,还可能出现图片标签指向不存在图片的错误。

三、三重过滤机制:确保问答质量

为了确保训练数据的高质量,研究团队设计了一个三阶段的后处理流程,就像工厂的质量控制流水线一样,层层把关确保最终产品的优良品质。

错误过滤阶段就像第一道安检,主要清除明显的错误。研究团队使用基于规则的过滤器,自动识别和删除那些明确引用特定文档的问题,比如"在这个文档中提到了什么"这类过于依赖上下文的问题。同时,系统会验证图片标签的正确性,确保问题中提到的图片在对应的文档中确实存在,避免答非所问的情况。

问答精炼阶段则像文稿编辑一样,对通过初步筛选的问答对进行进一步优化。研究团队再次使用视觉语言模型,对每个问答对进行压缩和改进,去除冗余信息,提高表达的清晰度和准确性。这个过程确保每个问题都简洁明了,每个答案都准确且与对应的"黄金文档"高度相关。

选项生成阶段是最后的完善步骤,研究团队使用大语言模型为每个问题生成三个语义上合理但事实上错误的干扰选项。这些干扰选项不是随意编造的,而是经过精心设计,在语法和逻辑上都说得通,只是在事实细节上有所偏差。这种设计确保AI系统在学习过程中不仅要理解正确答案,还要学会区分细微的差别,提高判断的精确性。

经过这三重处理,研究团队最终获得了高质量的NyxQA数据集,这个数据集包含了多样化的混合模态问答对,真实反映了现实世界的信息需求。

四、"硬核"负样本挖掘:让AI学会精准识别

为了让Nyx学会更精确的检索,研究团队还进行了"硬负样本挖掘",这个过程就像训练一个侦探学会从众多相似的线索中找出真正有用的证据。

具体来说,对于每个问题,研究团队首先确定其对应的正确文档作为"正样本"。然后使用现有的检索模型从整个语料库中搜索最相关的前10个文档,从这些看似相关但实际不正确的文档中选择5个作为"硬负样本"。这些硬负样本的特点是与问题高度相关,但又不是正确答案,这样的对比学习能让AI系统学会更精细的区分能力。

这种训练方式就像让学生在众多相似的选项中选择正确答案,比简单的对错判断更具挑战性,也更能提升学习效果。通过这种方法,Nyx学会了在海量信息中精准定位最相关内容的能力。

五、两阶段训练策略:从通才到专才的进化

Nyx的训练过程采用了两阶段策略,就像培养一个全能选手的过程,先进行全面的基础训练,再针对特定任务进行专门优化。

第一阶段是预训练阶段,研究团队将NyxQA数据集与多个公开的检索数据集结合,对Nyx进行大规模的对比学习训练。这个阶段就像让学生接受通识教育,学习处理各种不同类型的内容。为了平衡检索效果和计算效率,研究团队还融入了Matryoshka表示学习技术,这种技术就像制作俄罗斯套娃一样,让模型在不同的表示维度下都能保持良好的性能。

由于现实世界的检索任务仍然以文本为主,研究团队在预训练中还加入了额外的纯文本数据集,包括HotpotQA、2WikiMultiHopQA和MuSiQue等,以增强模型的文本理解能力。这种设计确保Nyx既能处理复杂的混合内容,也能在传统的文本检索任务中表现出色。

第二阶段是监督微调阶段,这是Nyx训练的关键创新点。研究团队发现,仅仅有好的检索能力还不够,检索结果还必须真正有助于下游的生成任务。因此,他们设计了一种基于视觉语言模型反馈的微调方法。

具体而言,对于每个查询,研究团队首先使用预训练的Nyx检索前K个候选文档,然后使用滑动窗口策略将这些文档分组,每组包含连续的L个文档。接着,将每组文档与查询一起输入到视觉语言模型中,生成答案。系统会选择第一个能够产生正确答案或超过预设质量阈值的文档组,将该组的第一个文档标记为正样本,其余文档作为负样本。

这种方法的巧妙之处在于,它不是基于人工标注的"理想"答案,而是基于下游模型的实际"偏好"。这样训练出来的检索器能够更好地与生成模型配合,就像训练一个专门为某位厨师提供食材的助手,不仅要选择高质量的食材,还要选择这位厨师最擅长处理的食材类型。

六、架构设计:构建统一的多模态理解框架

Nyx的架构设计基于Qwen2.5-VL-3B-Instruct模型,这是一个成熟的视觉语言模型。研究团队将其改造成专门的检索器,就像将一个博学的学者培训成专业的图书管理员。

系统的核心思想是将不同模态的内容(文字、图片或它们的组合)都映射到同一个向量空间中,在这个空间中,内容相似的项目会彼此靠近,而不相关的项目则距离较远。具体来说,对于输入的任何混合模态内容,系统都会使用最后一个特殊标记的隐藏表示作为全局嵌入向量。

为了处理不同长度和复杂度的输入,研究团队在每个查询前添加了指令字符串,这些指令就像给AI助手的工作说明书,告诉它应该如何理解和处理当前的任务。无论是纯文本、纯图片还是图文混合的内容,都能在这个统一框架下得到一致的处理。

训练目标使用了InfoNCE损失函数配合Matryoshka表示学习。InfoNCE损失通过对比学习的方式,让模型学会将相关的查询和文档在向量空间中拉近,同时将不相关的内容推远。而Matryoshka表示学习则确保即使在降维的情况下,模型仍能保持良好的性能,这就像制作一幅画,既要在大画布上好看,缩小后在小画布上也要清晰可辨。

七、实验验证:全方位性能测试

研究团队设计了全面的实验来验证Nyx的性能,测试范围涵盖了从传统文本检索到最新的混合模态检索各个方面。实验就像对一个全能运动员进行各项体能测试,确保其在不同项目中都能表现出色。

在文本检索任务中,尽管mmE5拥有110亿参数的庞大模型,Nyx凭借仅30亿参数的轻量级架构仍然在HotpotQA和Bamboogle数据集上取得了显著优势,性能提升分别达到9%和6%。这种结果证明了针对性训练的重要性,就像一个专业的马拉松选手可能比身材更壮的举重选手跑得更快一样。

在多模态任务中,Nyx的表现更加突出。在MMQA数据集上,经过反馈微调的Nyx将F1分数从35.97%提升至44.50%,在NyxQA数据集上准确率从74.83%跃升至81.83%。这些提升不仅在统计上显著,在实际应用中也意味着用户能获得更准确、更有用的检索结果。

研究团队还进行了McNemar统计测试来验证性能差异的显著性。结果显示,mmE5与Nyx-pretrained之间的比较产生了19.0631的测试统计量,p值小于0.0001;Nyx-pretrained与最终版Nyx之间的比较得到15.7538的测试统计量,p值为0.0001。这些数据有力证明了各个改进步骤的有效性。

八、深入分析:揭示性能提升的秘密

为了理解Nyx成功的原因,研究团队进行了多项深入分析,这些分析就像解剖一个成功案例,找出其中的关键要素。

数据规模影响分析揭示了一个重要发现:训练数据的规模与模型性能之间存在对数线性关系,这与之前的研究发现一致。随着训练样本从2880个增加到124万个,NyxQA的准确率稳步提升,这条曲线几乎完美符合对数函数y = 0.1204 * log(x) + 0.1041。这个发现对未来的模型改进具有重要指导意义,表明继续增加高质量训练数据仍能带来性能提升。

检索文档数量对生成质量的影响分析显示,增加输入文档的数量确实能提升所有检索器的表现,但收益会逐渐递减。Nyx在各种文档数量设置下都consistently outperformed其他方法,特别是在文档数量较少时仍能保持良好性能,这表明其检索质量的优越性。

跨生成器泛化能力测试是另一个重要发现。虽然Nyx是基于Qwen2.5-VL-7B的反馈进行微调的,但它在不同大小的InternVL3模型上都表现出良好的泛化能力。这种跨架构的泛化能力证明了Nyx学到的不是特定模型的偏好,而是更普遍的信息相关性模式。

Matryoshka表示学习的效果分析展示了这项技术的实用价值。1024维的嵌入表示能达到与2048维几乎相同的性能,同时将存储需求减半。即使是512维和256维的版本也能保持强劲的性能,准确率分别为78%和74.67%。这种灵活性使得Nyx能够适应不同的资源约束环境。

九、案例研究:从理论到实践的验证

研究团队通过具体案例展示了Nyx相比其他方法的优势。在一个关于演员Felicia Day的多模态问答案例中,三种不同方法的表现形成了鲜明对比。

当问题询问"Felicia Day面前的物体是什么"时,mmE5检索到的文档虽然包含相关信息,但主要关注"面部"这个词汇,错过了查询的主要对象。检索到的内容是关于电影《Cursed》的介绍,虽然提到了Felicia Day,但无法回答关于她面前物体的具体问题。

Nyx-pretrained的表现有所改进,正确识别出了"Felicia Day"这个关键实体,但检索到的文档主要是文字描述,缺乏能够直接回答问题的视觉信息。虽然文档内容更相关,但仍无法为生成准确答案提供充分证据。

最终版本的Nyx展现出了显著的优势,它不仅正确识别了查询实体,还检索到了包含Felicia Day图片的文档,图片清晰显示她面前有麦克风。这种多模态信息的完美结合使得生成模型能够给出准确的答案"麦克风"。

这个案例生动说明了真正的多模态理解不仅需要处理不同类型的内容,更重要的是要理解这些内容之间的关联关系,找到能够真正回答问题的关键信息。

十、超越黄金文档:从偏好学习中获得启发

研究中一个特别有趣的发现是关于"黄金文档"的重新思考。传统上,研究人员会人工标注每个问题对应的"标准答案文档",然后训练模型去检索这些文档。但Nyx的实验显示了一个重要洞察:生成模型真正"偏好"的文档可能与人工标注的黄金文档不同。

在NyxQA数据集上的分析显示,每个问题虽然都有对应的生成来源文档,但这些文档在实际推理过程中并不总是导致正确答案。通过反馈学习,Nyx发现了那些虽然语义上可能不是最相关,但能够真正帮助生成模型产生正确答案的文档。这种发现带来了7个百分点的准确率提升。

这个发现挑战了传统的检索评估方式,提示我们应该更多关注检索结果的实用性而非表面的相关性。就像选择学习材料时,最好的教材不一定是最权威的,而是最适合学习者理解的那本。

通过检索正确性与答案正确性关系的量化分析,研究团队发现了两个重要趋势:首先,检索到更多黄金文档确实会提高答案准确率;其次,即使检索到的不是黄金文档,仍有近一半的答案是正确的,这展现了视觉语言模型的鲁棒性。这些发现为未来的检索器设计提供了重要指导,即应该更加重视与下游任务的协同优化。

说到底,这项研究的意义远超技术层面的突破。在信息爆炸的时代,我们每天都在与各种形式的内容打交道,从社交媒体的图文并茂,到工作中的多媒体报告,再到学习时的图解教材。Nyx代表的技术方向为构建更智能、更自然的信息助手铺平了道路。

这个"超级图书管理员"的出现,预示着我们即将迎来一个全新的信息交互时代。未来的AI助手将不再局限于理解单一类型的内容,而是能够像人类一样自然地处理复杂的混合信息,为我们提供更精准、更有用的帮助。无论是学生查找学习资料,专业人士搜索工作信息,还是普通人寻找生活指南,这项技术都将让信息获取变得更加高效和便捷。

研究团队已经将Nyx的代码开源,感兴趣的开发者可以通过GitHub仓库SnowNation101/Nyx获取完整实现。这种开放态度体现了学术界推动技术进步的使命感,也为这项技术的进一步发展和应用奠定了基础。

Q&A

Q1:Nyx系统相比现有的AI检索工具有什么特别之处?

A:Nyx最大的特点是能同时理解文字和图片混合在一起的内容,就像一个真正懂得阅读图文并茂资料的智能助手。现有系统通常只能分别处理文字或图片,或者只用文字去搜索图片,而Nyx能理解文字图片之间的空间位置关系和逻辑联系,这让它在处理现实世界的复杂信息时更加准确有效。

Q2:NyxQA数据集是如何构建的,为什么要专门建立这个数据集?

A:研究团队开发了四步骤流程来构建NyxQA数据集:首先从真实网页采样混合内容,然后用AI生成问答对,接着通过三重过滤确保质量,最后进行硬负样本挖掘。专门建立这个数据集是因为现有数据集都无法很好地反映现实世界中文字图片任意组合的复杂情况,而NyxQA包含了46741个真实网页片段,真正模拟了日常信息检索的需求。

Q3:普通用户什么时候能用上Nyx这样的技术?

A:虽然研究团队已经开源了Nyx的代码,但要让普通用户直接使用还需要时间。目前这项技术更多是为开发者和研究人员提供基础,未来可能会集成到搜索引擎、智能助手或者教育平台中。考虑到技术的成熟度和实验效果,预计在未来1-2年内我们就能在一些应用中看到类似功能的出现。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。