![]()
这项由斯科尔科沃科技大学(Skoltech)、SberAI、华为、俄罗斯联邦储蓄银行(Sber)等机构联合开展的研究,发表于2026年的IEEE Access期刊第15卷,论文编号为arXiv:2605.13481。感兴趣的读者可通过该编号在arXiv或IEEE数据库中查阅完整论文。
一、这个问题,其实你每天都在碰到
每当你向一个AI助手提问,比如"谁在《终结者》里扮演了终结者,后来又担任了什么政府职务?"——这类需要把两段知识串联起来才能回答的问题,AI常常会给出一个自信满满、却完全错误的答案。这种现象在AI领域有个专门的名字,叫做"幻觉"(hallucination),意思是AI的大脑凭空捏造了答案。
为什么会这样?因为大多数AI系统的知识是在训练阶段"一次性塞进去"的,就像一个学生在考试前把书全部死记硬背了一遍,考试时只能凭记忆作答,而无法在考场上翻书查资料。一旦问题超出了记忆范围,或者需要把多个记忆片段灵活组合,这个学生就开始胡说八道了。
斯科尔科沃科技大学的研究团队提出了一套全新的系统,名为PersonalAI 2.0(简称PAI-2)。这套系统的核心理念是:与其让AI把所有知识死记硬背在脑子里,不如给它配一个随时可以翻阅的"知识图谱档案室",并训练它像一位经验丰富的侦探一样,制定侦查计划、逐步收集线索、动态调整侦查方向,最终锁定正确答案。
用一个更直观的比喻来说:PAI-2就像是把一个只会背教科书的学生,改造成了一个随身携带案卷、善于推理的侦探。这位侦探面对一个复杂案件时,不会直接拍脑袋给出结论,而是会先制定侦查计划,逐步走访嫌疑人,把每次走访获得的线索汇总分析,并根据新线索修正下一步的侦查方向,直到真相浮出水面。
这套系统在六个权威问答测试基准上接受了考验,分别是:Natural Questions、TriviaQA、HotpotQA、2WikiMultihopQA、MuSiQue和DiaASQ。与同类竞争系统LightRAG、RAPTOR和HippoRAG 2相比,PAI-2平均提升了4%的正确率,而其中最关键的"侦查计划动态调整"机制,单独贡献了高达18%的性能提升。
二、档案室是怎么建起来的:把文字变成关系网络
在介绍PAI-2如何"侦查"之前,先要理解它的"档案室"是怎么建立起来的。这个档案室在技术上叫做"知识图谱"(Knowledge Graph),可以把它理解为一个巨大的关系网络——每一个人物、地点、事件、概念都是网络上的一个节点,而节点之间的连线代表它们之间的关系。
举个例子,如果把"阿诺德·施瓦辛格"、"《终结者》"、"加利福尼亚州州长"这三个节点放进档案室,节点之间就会有"出演了"和"担任了"这样的连线,形成一张关系网。当有人问"《终结者》里的演员后来当了什么官?"时,档案室里的这张网就能顺着连线找到答案。
PAI-2的档案室里有三种不同类型的节点,它们就像档案馆里不同类型的文件夹。第一种叫"客体节点"(Object Vertex),存放的是具体的人名、地名、品牌等命名实体,相当于档案室里贴了标签的人物卡片。第二种叫"论题节点"(Thesis Vertex),存放的是从文章中提炼出来的知识陈述,比如"施瓦辛格是奥地利裔美国演员",相当于档案室里的摘要说明。第三种叫"情节节点"(Episodic Vertex),存放的是原始文章本身,相当于档案室里完整的原始卷宗。
建立这个档案室的过程叫做"Memorize pipeline"(记忆流程)。每当有新文章进来,系统就会用AI读取文章,提取其中的实体、关系和知识陈述,然后把它们按照上述三种类型整理成节点,再把相关节点用连线连接起来,存入档案室。整个档案室由两个部分协同工作:图谱部分用Neo4j数据库存储节点和它们之间的关系,向量部分用Qdrant和OpenSearch数据库存储每个节点的"语义指纹"(也就是向量表示),方便后续快速找到语义相近的内容。
研究团队用六个不同的数据集分别建立了六个知识图谱,平均每个图谱包含约4181个情节节点、36151个论题节点和72618个客体节点。以平均长度519个字符的文档为例,建立一个包含4182份文档的完整图谱,大约需要46.5小时、7500万个AI处理词元,以及约2GB的磁盘空间,平均每分钟可以处理1.63份文档。
这套建档流程还展示出了令人印象深刻的稳定性。在MINE-1基准测试中,MINE-1专门用来衡量"知识图谱建立后保留了多少原文中的事实信息",PAI-2用Qwen2.5 7B这个中等规模的AI模型就达到了89%的事实保留率,远超同类竞争方法。相比之下,Wikontic方法即便使用更强大的Gemma3 12B模型也只有28%,KGGen方法用Qwen2.5 14B也只有39%,甚至GraphRAG用强力的GPT-4o模型也只有44%。这意味着PAI-2的档案室不仅建立得快,而且几乎没有遗漏重要信息。
三、侦探上场:十三步侦查流程的完整拆解
当用户提出一个问题时,PAI-2的"侦探"就开始工作了。整个侦查流程由十三个环节构成,其中大部分环节可以并行执行以提高效率。
侦探接到案子后的第一步是"案情预处理"。具体来说,系统会对用户输入的问题进行三道净化处理:先检查并纠正语法、拼写和标点错误,就像把一份字迹潦草的报案材料誊写清楚;再去掉问题中的废话和不必要的修饰,比如"烦请告知"、"能否请教"这类客套词,保留核心信息;最后,系统会判断这个问题是否其实包含了几个相互独立的子问题,如果是,就把它拆分成若干个可以分别侦查的子案件。
比如用户问:"露西亚诺·帕瓦罗蒂和多明戈·普拉西多都是歌剧演员吗?"系统会识别出这其实是两个独立的问题,分别是"帕瓦罗蒂是什么人"和"普拉西多是什么人",然后对这两个子问题分别展开侦查,最后汇总得出最终结论。
进入侦查的核心阶段,系统首先会为每个子问题制定一份"初始侦查计划"。这份计划是一系列自然语言形式的侦查步骤,每个步骤是一个具体的搜索查询。比如对于"《终结者》的主演后来担任了什么政府职位?"这个问题,初始侦查计划可能是:第一步,查谁主演了《终结者》;第二步,查这个人的政治生涯。
制定好计划后,侦探开始执行第一个侦查步骤。对于这个步骤,系统会先提取其中的关键命名实体——比如"《终结者》"和"主演"——然后在档案室里搜索与这些实体语义最相近的客体节点,找到对应的"人物卡片"或"事件卡片"。这个搜索过程同时使用了两种互补的技术:密集检索(通过语义相似度找到意思相近的内容)和稀疏检索(通过关键词精确匹配找到内容),两种方法结合使用,既能找到语义相近但用词不同的内容,又能精确锁定关键词。
找到相关节点后,系统会生成一批"线索查询"(Clue Queries)。这些线索查询是对原始侦查步骤的具体化改写,相当于侦探在掌握了初步信息后,把泛泛的"查一下这个人"改写成具体的"查一下施瓦辛格的政治生涯"。每个侦查步骤最多可以生成8个线索查询,实验表明,线索查询数量从1个增加到8个时,答案正确率平均提升约4%,因为更多的线索查询能覆盖档案室里可能分散在不同子图中的相关信息。
每个线索查询都会在档案室里触发一次独立的"图谱遍历",相当于侦探从一张人物卡片出发,顺着关系连线一步步走向相关的卡片,沿途收集三元组(主体-关系-客体的知识陈述,比如"施瓦辛格-主演了-《终结者》")。
PAI-2支持两种主要的图谱遍历算法。第一种叫BeamSearch(束搜索),类似于侦探同时追踪多条线索路径,每一步都保留最有价值的若干条路径继续深入,最终汇总所有路径上收集到的信息,最大搜索深度为5步,最多保留10条并行路径。第二种叫WaterCircles(水圈扩散),类似于在档案室的某个节点扔进一颗石子,让信息像水波一样向外扩散,收集周围若干圈内所有相关的论题节点、情节节点和链式三元组,最多分别收集15个超边三元组和15个情节三元组。这两种算法各有优势,可以组合使用。与直接用关键词检索的"朴素检索"(NaiveRetriever)相比,使用图谱遍历算法平均可以再提升6%的答案正确率。
遍历完成后,系统还会对收集到的三元组做一次相关性过滤,只保留与当前线索查询语义最接近的若干条,丢弃不相关的噪音。这一步很关键,因为档案室里的信息可能非常庞杂,如果把所有找到的内容都塞给AI处理,AI就会像面对一堆杂乱文件的侦探一样,反而抓不住重点。过滤掉的情节节点(原始文章)尤其值得关注——实验发现,把情节节点从AI的上下文中排除,可以减少"信息中间丢失"问题的影响,明显提升答案的准确性和可靠性。这是因为情节节点包含完整的原始文章,内容冗长,当AI需要在大量文字中寻找关键信息时,容易忽略位于文章中间的重要内容。
四、最关键的秘密武器:会自我修正的侦查计划
以上描述的是PAI-2的"基础侦查能力",而真正让PAI-2脱颖而出的,是它那个会动态调整的侦查计划机制。
完成一个侦查步骤后,系统会把收集到的信息汇总成一份阶段性报告,然后向自己提出一个关键问题:基于目前已有的所有信息,能不能给出一个可靠的答案了?
如果能,侦探就收工,生成最终答案。如果还不能,侦探就继续看下一步侦查计划,但在执行之前,它会先做一件普通AI系统不会做的事:根据已经收集到的信息,重新审视和修改接下来的侦查步骤。
回到之前那个例子——"Do both films Payment On Demand and My Cousin From Warsaw have directors from the same country?"(《按需付款》和《我从华沙来的表弟》的导演是不是同一个国家的人?)
初始侦查计划是:第一步,查《按需付款》的导演是谁;第二步,查《我从华沙来的表弟》的导演是谁;第三步,查《按需付款》的导演来自哪个国家;第四步,查《我从华沙来的表弟》的导演来自哪个国家。
如果没有动态调整机制,执行到第三步"查《按需付款》的导演来自哪个国家"时,档案室里可能只有"柯蒂斯·伯恩哈特(Curtis Bernhardt)是美国人"这样的信息,但侦探并不知道这个"美国人"就是第一步找到的那个导演,所以找不到有用的线索,返回"信息不足"。
但有了动态调整机制后,在执行完前两步、确认了两位导演分别是柯蒂斯·伯恩哈特和卡尔·博斯(Carl Boese)之后,系统会自动把第三步和第四步改写成:第四步,查卡尔·博斯来自哪个国家;第五步,查柯蒂斯·伯恩哈特来自哪个国家。这样一来,档案室就能精确定位到"卡尔·博斯是德国电影导演"和"柯蒂斯·伯恩哈特出生于德国沃尔姆斯"这两条关键信息,从而得出"两位导演都来自德国"的正确答案。
这个机制的价值在于,它让侦查计划从"一次性制定、僵化执行"变成了"边走边想、随机应变"。在六个测试基准上的实验结果显示,与禁用该机制的版本相比,开启动态调整后,平均答案正确率提升了整整18%。这18%的差距,正是"会推理的AI"和"会背书的AI"之间的本质区别。
五、六场考试,成绩单是什么样的
研究团队在六个难度和特点各异的测试基准上对PAI-2进行了全面评估,每个基准各取100个问答对进行测试,总共评估了90种不同的配置组合。
这六个测试基准可以理解为六种不同类型的考试。Natural Questions是谷歌真实用户搜索记录改编的考题,问题类型多样,答案长度不一,最难的地方在于原始问题全部是小写字母,容易让AI在提取命名实体时出错。TriviaQA来自必应搜索引擎,专注于知识型问答,通常需要综合多份文档才能回答。HotpotQA要求把两篇维基百科文章的信息结合起来回答,其中包括"桥接式"问题(先找到某个中间实体,再通过它找到答案)、"交集式"问题(同时满足两个条件的答案)和"比较式"问题(比较两个实体的某个属性)。2WikiMultihopQA需要跨越多篇维基百科文章进行逻辑推理。MuSiQue是最难的基准,问题需要2到4步跳跃式推理,由多个单步问题组合而成。DiaASQ则来自中文论坛上关于手机特性的用户对话,研究团队在此基础上生成了多跳推理问题。
评估使用的主要指标是"LLM-as-a-Judge",即让Qwen2.5 7B这个AI模型充当考官,判断生成的答案是否正确,输出1(正确)或0(错误),最终计算准确率。为了验证这个AI考官是否可靠,研究团队还邀请了三位人类专家对PAI-2和HippoRAG 2的最佳配置各抽取一批答案进行人工评分,结果显示人类评分者之间的一致性达到了0.935的Krippendorff's alpha值(满分1.0),而AI考官与人类评分者的Pearson相关系数平均达到0.86,说明AI考官的判断与人类专家高度吻合。
成绩单显示,PAI-2在TriviaQA、2WikiMultihopQA和MuSiQue三个基准上超越了所有竞争方法,平均领先4%;在HotpotQA上与最强竞争者HippoRAG 2相差6%,在DiaASQ上相差1%;唯一表现明显弱于HippoRAG 2的是Natural Questions,差距达到11%。研究团队分析认为,这主要有两个原因:一是Natural Questions的原始问题全是小写字母,使得命名实体提取不准确,进而影响后续的档案室检索;二是该基准中有些问题需要开放性、概括性的答案,而PAI-2目前没有专门识别"问题类型"和"期望答案格式"的机制,面对不确定性时倾向于返回"信息不足"而非给出一个开放性回答。
六个基准的平均LLM-as-a-Judge得分从难到易排列:MuSiQue平均得分0.20(最难)、DiaASQ 0.23、2WikiMultihopQA 0.38、HotpotQA 0.52、Natural Questions 0.59、TriviaQA 0.68(最容易)。这个难度排列基本符合预期——需要更多推理跳跃步骤的问题,对所有系统来说都更难。
在时间效率方面,PAI-2处理一个问题平均需要1.51分钟,是PAI-1(1.0分钟)的约1.5倍。这个额外的时间开销来自于PAI-2的多轮迭代检索和动态计划调整机制。研究团队指出,DiaASQ基准上的处理时间最长,平均达到3.70分钟,主要原因是该基准的问题相对复杂,需要更多侦查步骤才能得出答案。
六、与PAI-1的比较:升级有多大
PAI-2是PAI-1的升级版,研究团队将两者进行了详细的对比实验,揭示了这次升级的具体价值。
从平均指标来看,PAI-2在Context Relevance(上下文相关性)、Faithfulness(忠实度)和LLM-as-a-Judge(答案准确率)三个指标上分别比PAI-1提升了27%、26%和10%。这说明PAI-2不仅能给出更正确的答案,而且检索到的信息更贴近问题需求,答案与检索信息的一致性也更高。
其中最关键的改进来自两个方面:一是引入了搜索计划和动态调整机制,二是基于线索查询进行定向图谱遍历,而不是像PAI-1那样只进行一次静态检索。这两个改进共同作用,使得PAI-2能够应对那些需要"边查边想"的复杂多跳问题。
PAI-1在图谱遍历和朴素检索的对比上也体现出类似的规律:两者使用图谱遍历算法时,平均比朴素检索高出约5%的答案正确率,与PAI-2单独使用图谱遍历比朴素检索高6%的结论相互印证。
七、这个系统还有哪些短板
研究团队在论文中坦诚地列出了PAI-2目前存在的几个值得继续改进的地方。
首先是时间信息处理的局限性。虽然档案室里的三元组可以附加时间戳属性,但这些时间信息在传给AI进行推理时需要转换成纯文本形式,而当文本内容过长时,AI会出现"信息中间丢失"的问题,导致关键的时间线索被忽略。
其次是档案室的本体结构相对简单。目前的设计对信息的分类和索引维度有限,导致某些类型的查询效率不高。
第三是实体歧义问题。当档案室里存在同名但不同意的实体时(比如两个都叫"约翰·史密斯"的人),系统没有有效机制区分它们,可能导致侦查路径走错方向。
第四是重复知识的语义去重问题。目前系统只用精确字符串匹配来检测重复三元组,但同一知识可能以不同的措辞表达,导致语义相同的信息被重复存储,增加了档案室的冗余,也影响检索效率。
针对这些问题,研究团队在论文中提出了未来改进方向,包括为论题节点增加"情节标签"(区分事实、观点、预测)和"时态标签"(区分永久事实、临时事实、永恒真理),以及为每个节点引入创建时间、有效起始时间、过期时间等精细化时间戳管理机制,从而实现对知识生命周期的精准追踪。
归根结底,PAI-2代表的是一种构建AI知识系统的新思路:不是把AI当成一个需要记住所有答案的"人肉百科全书",而是把它改造成一个善于规划、善于追踪线索、善于在新信息面前调整方向的侦探。六个权威基准上的测试结果证明,这条路是走得通的,18%的计划调整增益和6%的图谱遍历增益,都是实打实的数字。
当然,这套系统目前还处于学术研究阶段,距离在手机里运行还需要不少工程化的努力。但它的出现,至少让我们看到了AI从"背书机器"进化为"推理侦探"的可能性。对那些需要精准、可靠、可追溯知识服务的场景——比如教育平台、企业客服、医疗咨询——这种能说清楚"我的答案从哪里来"的AI系统,或许比那些流畅但随时可能胡说的系统,更值得信赖。有兴趣深入了解技术细节的读者,可以通过arXiv:2605.13481查阅完整论文。
Q&A
Q1:知识图谱(Knowledge Graph)是什么?PAI-2里的知识图谱和普通数据库有什么区别?
A:知识图谱可以理解为一张巨大的关系网络,每个人名、地名、事件都是网络上的一个节点,节点之间的连线表示它们的关系,比如"施瓦辛格-主演了-《终结者》"。普通数据库像是一张表格,只能按行列查找;知识图谱则像一张蜘蛛网,可以从任意一个节点出发,顺着关系连线找到所有关联的信息,特别适合处理需要多步推理的复杂问题。PAI-2的知识图谱还分了三种节点类型:存放命名实体的客体节点、存放知识陈述的论题节点,以及存放原始文章的情节节点。
Q2:PAI-2的侦查计划动态调整是怎么工作的?为什么能提升18%的准确率?
A:简单说,PAI-2每完成一步检索,就会把新获得的信息和剩余的待执行步骤放在一起重新审视,判断后续步骤是否需要根据新信息改写。比如问"A和B的导演是不是同一个国家的人",初始计划可能是"查A的导演国籍",但如果先查到了导演名字是"卡尔·博斯",下一步就会自动改写成"查卡尔·博斯来自哪个国家",而不是继续执行模糊的原始计划。这种随机应变的能力,让系统能把前一步的收获直接用于指导下一步的搜索方向,避免在错误路径上浪费时间,因此准确率提升明显。
Q3:PAI-2在哪类问题上效果最好,哪类最差?
A:PAI-2在需要多跳推理的问题上表现出色,尤其是TriviaQA、2WikiMultihopQA和MuSiQue这类需要综合多条知识才能回答的问题。它在MINE-1基准上的知识保留率也达到了89%的最高水平。相对薄弱的是Natural Questions这类开放性问题,主要原因有两个:一是原始问题全部小写,影响了命名实体的提取精度;二是有些问题需要开放性概括式回答,而PAI-2目前倾向于在信息不够确定时返回"无法回答",而非给出一个合理的开放性推测。





京公网安备 11011402013531号