![]()
这项由中央大学、韩国科学技术院(KAIST)、首尔国立大学、OnelineAI、NAVER Cloud AI和卡内基梅隆大学联合完成的研究,于2026年6月发表,论文编号为arXiv:2606.02404。研究团队发布了一个名为K-BROWSECOMP的基准测试集,专门用于测量AI在韩语网络环境中的"侦查"能力。
要弄清楚这项研究在做什么,不妨把整件事想象成一场侦探游戏。一名优秀的侦探,不仅要能读懂线索,还要能在茫茫信息海洋中顺着蛛丝马迹,一路追踪到最终的答案。这项研究的核心问题就是:当今最强大的AI,在韩语这片"信息丛林"里,究竟算是一名合格的侦探,还是一个迷路的新手?
答案多少有些令人意外——就连全球公认最强大的AI模型,在这套测试里也只能答对不到一半的题目,而韩国本土的AI模型,表现甚至更加惨淡。
一、为什么需要一套专门测试韩语AI"侦探能力"的试卷?
在AI领域,评估一个模型的能力,通常要靠"基准测试"——也就是一套专门设计的题目,就像期末考试一样,用来检验AI到底学得好不好。过去几年,全球最顶尖的AI实验室已经把评估重心从"会不会做阅读理解"转移到了"能不能像人一样自主完成复杂任务"。后者被称为"智能体评估",考察的是AI在多个步骤之间协调配合、自主决策的能力,就像考察一名侦探能不能从头到尾独立破案,而不仅仅是认识几个单词。
然而,在这场评估革命中,韩语AI界却有些掉队。韩国目前的AI测试,大多还停留在"考词汇、考阅读"的阶段,缺乏针对复杂任务的测试工具。这造成了一个现实困境:研究者们无法准确知道,韩国本土的AI在面对真实用户需求时,究竟表现如何。
这种缺失不仅仅是技术上的遗憾,背后还有更深层的现实考量。韩国的语言使用人口相对有限,网络上的韩语内容在规模和覆盖面上天然不如英语,这意味着当用户需要查询韩国本地的机构信息、文化知识、地理数据时,AI的表现可能远不如处理英语问题时稳定。换句话说,韩国用户在使用AI助手时,面临的是一种结构性的信息不平等。
正是为了填补这个空白,研究团队建立了K-BROWSECOMP,一套专门针对"韩语网络搜索智能体"的测试集,用400道精心设计的题目,检验AI能否在韩语互联网的复杂环境中,像一名熟练的侦探一样找到正确答案。
二、这套试卷究竟在考什么?它的题目有多难?
K-BROWSECOMP的设计灵感来自一个已有的英语测试项目BrowseComp,但它并不是简单的翻译。研究团队特别强调,这套题目必须"扎根于韩国语境",也就是说,每道题都要涉及韩国特有的机构、文化现象、教育体系、地方地理或媒体内容,单靠查英语资料或依赖通用知识根本无法作答。
每道题都必须满足几个严格标准。答案必须是唯一的、不会随时间变化的具体信息,而且必须可以在公开的网页上找到文字证据。题目不能直接通过搜索关键词找到答案——必须经过至少四个步骤的推理或同时满足至少四个独立条件,才能锁定正确答案。
这套测试包含两种题型,它们代表了两种不同的侦探工作模式。第一种叫做"多跳推理",就像侦探顺着线索链条一步一步追踪:先找到A,用A去找B,用B再去找C,最终得出答案。第二种叫做"并行约束满足",就像侦探面对一群嫌疑人,必须同时核实多个独立条件,找出唯一同时满足所有条件的那一个人。
以论文中给出的两个示例来感受一下难度。第一道题是这样的:2025年发行的某张专辑的第四首歌曲,题目去掉空格后是五个字,歌词中出现了七次"???"(没关系),这首歌是什么?第二道题则更为复杂:韩国教育课程评估院2018年6月针对高三学生举行的模拟考试,国语科目第29题考查的作品,该作品的诗人在生前出版的第十本诗集中,排在第十三位的那首诗,题目是什么?
仅仅读一遍这两道题,就能感受到它们对人类来说也并不轻松,更别提AI了。
三、人工验证的300道题是怎么炼成的?
测试集分为两个部分。第一部分是"已验证子集",共300道题,全部由真人韩语母语者手工编写和验证。研究团队召集了17名标注人员,包括研究人员和非研究人员,给他们一份详细的编写指南,要求他们从一个已知的目标事实出发,反向设计出一道难以直接搜索但答案容易核实的问题。
这个"反向设计"的思路非常关键,好比一名出题老师已经知道答案是"埃菲尔铁塔建于1889年",然后绕开这个信息,设计一道需要通过五步推理才能得出这个答案的题目,而不是直接问"埃菲尔铁塔建于哪年"。
编写完成的题目要经过严格的审核流程。研究团队会逐一检查每道题的金标准答案、中间实体和引用来源是否都能在公开网页上找到。如果证据无法访问、不充分或相互矛盾,题目就会被退回给原作者修改。审核过程中还有一道特别的关卡:如果基线AI模型给出了一个和标准答案不同但同样合理的答案,研究团队会人工判断这个答案是否也成立,如果成立,题目必须修改或删除,以确保每道题的答案确实是唯一的。
最终通过审核的300道题,覆盖了10个类别。娱乐与媒体是最大的类别,有109道题,占比超过三分之一。其次是地点与地区48道,教育与考试35道,体育与游戏26道,科技与学术20道,美食餐饮19道,文学与语言15道,产品与品牌14道,历史文化10道,以及经济与政策4道。在题型分布上,多跳推理题160道占53.3%,并行约束题140道占46.7%,两者相对均衡。
参与编写的非研究人员按照每10至15道题约100,000韩元(约合60至70美元)的标准获得报酬,这个金额对应大约4小时的工作量,高于2025年韩国法定最低时薪。
四、AI模型在这场"侦探考试"里表现如何?
研究团队选取了全球11个主流AI模型进行测试,覆盖封闭源模型和开源模型两大阵营,以及专门针对韩语优化的本土模型。所有模型使用统一的测试框架,每个问题最多允许进行10次网络搜索,并且只有一次回答机会。
测试结果在全球顶尖模型中,表现最好的是GPT-5.5,正确率45.67%,排在第二位的是GPT-5.4-mini和GLM-5.1,两者并列30.67%,DeepSeek-V4-Pro紧随其后,得分30.00%。
这些数字单独看似乎还好,但一旦和同样这些模型在英语版BrowseComp上的成绩比较,差距就显得触目惊心了。GPT-5.5在英语版BrowseComp上得分84.4%,换到韩语版直接掉到了45.67%,降幅将近40个百分点。DeepSeek-V4-Pro在英语版得分83.4%,在韩语版只有30.00%,几乎腰斩。这种断崖式下滑,清楚地表明这些模型并没有真正掌握韩语网络环境的特殊性,而不是普通的随机波动。
再来看较小规模的开源模型,Gemma-4-31B-IT得分23.33%,超过了参数量更大的Qwen3.6-35B-A3B(12.00%),而Gemini-3.1-Flash-Lite仅11.33%,同样不理想。
最令人印象深刻的是韩国本土模型的表现。K-EXAONE-236B-A23B是一个参数量高达2360亿(其中约230亿为激活参数)的庞大模型,也是韩国政府"自主AI基础模型项目"资助的成果之一,但它在这套测试里只得了10.33%。A.X-4.0得分5.33%,HyperCLOVAX-SEED-Think-32B得分2.33%,而Kanana-2-30B-A3B-Thinking-2601则得了0分,完全没有答对任何一道题。韩国本土模型整体得分范围在0%至10.33%之间,与全球顶尖模型相比,差距超过了35个百分点。
研究团队还额外计算了每个模型的"校准误差",这个指标衡量的是模型对自己答案的自信程度是否合理。如果一个模型对一个错误答案非常自信,或者对一个正确答案非常不确定,校准误差就会很高。HyperCLOVAX-SEED-Think-32B的校准误差高达77.37%,意味着它的自信程度和实际表现严重脱节,经常在答错的时候反而最自信。GPT-5.5在这个维度上表现相对较好,校准误差为31.86%,在高准确率和合理自信之间取得了相对较好的平衡。
五、AI究竟在哪个环节"掉链子"了?
光有分数还不够,研究团队还深入分析了模型的"侦查过程",试图找出它们究竟在哪一步走错了路。经过大量的人工审查,他们归纳出了九种典型的失败模式,形成了一套系统的"错误分类表"。
第一种失败是"轨迹不完整或输出格式错误",最极端的情形——模型压根没能走完整个搜索流程,或者最终没能给出一个格式正确的答案,就像侦探还没勘察完现场就宣布放弃了。第二种是"初始搜索方向无效",模型一开始就选错了搜索策略,就像侦探在面对一起发生在图书馆的案子时,第一反应是去检查停车场的监控,完全跑偏了方向。第三种是"搜索访问结构失败",指模型无法访问隐藏在复杂页面结构后面的证据,比如需要按特定顺序排列内容才能看到的信息。第四种是"跨源跳转失败",指模型无法将来自不同网站的证据拼接在一起,就像侦探能分别看懂两份文件,却不知道这两份文件讲的是同一个人。第五种是"半结构化页面解析失败",指模型在面对表格、排名、数据库等格式化内容时,读错了数据——比如看着一张成绩单,却把第三名的分数记成了第一名的。第六种是"搜索结果选择失败",指模型找到了相关证据,但选错了具体来源或候选答案,就像侦探找到了几个嫌疑人但指认错了人。第七种是"稀疏实体归一化失败",指模型无法正确识别罕见人名、别名、不同拼写方式或历史名称,比如一个历史人物有好几种不同的写法,模型却认为是不同的人。第八种是"约束追踪失败",指模型找到了部分候选答案,却没能验证所有条件都得到满足——这是最常见也最致命的问题之一。第九种是"中间推理失败",指在需要进行日期计算、排序、计数或比较的步骤中出错。
研究团队进一步观察到,很多错误并不发生在搜索阶段,而是发生在搜索之后。换句话说,模型往往已经找到了正确的证据,却在处理这些证据的过程中出了问题。这个发现非常关键,因为它意味着仅仅改善搜索能力是不够的,真正需要解决的是模型在多步推理过程中维持"证据状态"的能力。
研究团队将反复出现的错误模式归纳为三种典型的轨迹级故障。
第一种叫"候选人过早锁定"。这发生在模型在验证完所有上游条件之前,就把注意力锁定在某个看似合理的候选答案上。此后的所有搜索都围绕这个候选答案展开,变成了"找证据来支持我的猜测",而不是"继续寻找真相"。一旦提交,这个答案表面上看有证据支撑,实际上却违反了题目的完整要求。
第二种叫"证据分支未合并"。模型对每个条件分别进行了搜索,每次搜索都建立了一个独立的证据分支,但这些分支从未被汇总到同一个候选名单里进行交叉比对。轨迹看起来很系统,好像每个线索都查了,但候选名单在每一步之后都是混乱的,最终给出的答案其实没有通过所有条件的验证。
第三种叫"中间结果角色绑定错误"。模型沿着一条看似合理的搜索链条走下去,却在某个中间步骤把一个结果套用到了错误的角色上。特别是当题目需要在不同步骤之间切换实体类型时,一个高曝光度的实体很容易"抢占"本应属于另一个目标实体的位置,导致最后的答案虽然在局部逻辑上说得通,但整个推理链条其实早就偏离了轨道。
六、搜索次数越多,表现就越好吗?
面对这些低分,有人可能会想:是不是给AI的搜索次数太少了?如果放开限制,让AI多搜几次,会不会找到答案?
研究团队对此进行了专门分析,结论是:搜索次数并不是主要瓶颈。数据显示,对于大多数模型,答错的题比答对的题使用了更多的搜索次数,而且往往接近10次的上限。GPT-5.5在答对的题上平均用了7.08次搜索,在答错的题上平均用了9.30次——答错时搜得更多,但仍然没有找到答案。DeepSeek-V4-Pro的数据是7.47次对9.80次,Gemma-4-31B-IT是5.20次对8.10次。
这个发现说明,模型在答错的题上并不是因为"搜索不够努力"而失败的,而是因为即便搜索了很多次,依然无法有效地把信息整合起来。搜索量是成功的弱预测因子,真正的关键在于模型能否在多次搜索之间维持一致的候选集合、约束条件和实体角色状态。
几个韩国本土模型在这方面的表现尤为值得关注。A.X-4.0在答对和答错的题目上,平均搜索次数分别只有2.38次和1.43次,远低于其他模型,说明它往往在尝试不多的情况下就提前放弃了搜索。HyperCLOVAX-SEED-Think-32B在答对和答错的题目上搜索次数几乎没有差别,分别是6.71次和6.84次,说明它的问题不在于搜索努力程度,而在于无法从搜索结果中稳定地提炼出最终答案。Kanana-2-30B-A3B-Thinking-2601则更加特殊,它经常连有效的工具调用格式都无法正确输出,导致很多搜索根本没能执行,这是一种最基础的协议层面的失败,与内容理解能力无关。
七、能让AI来出题吗?——机器生成的100道"压力测试题"
测试集的第二个部分,是研究团队在方法论上的一个创新尝试。他们想探索一个问题:既然解题很难,那出题容不容易?
这个问题背后有一个重要的信息不对称:对于网络搜索类任务,解题可能非常困难,但一旦知道了正确答案和证据路径,验证一个候选答案就相对容易了。研究团队认为,这种不对称同样存在于出题端——如果已经有了一个目标答案和对应的网页,反向设计出一道难题,是否比正向找到答案更容易?
为了验证这个想法,他们让一个能上网的AI智能体(使用claude-opus-4.7)扮演出题者的角色。这个AI的工作流程如下:先访问一个目标网页,然后以"逆向设计"的方式编写一道题目——也就是从答案出发,构建一条需要多步推理才能到达答案的问题路径,同时刻意隐藏答案本身、来源网址和页面上最显眼的实体名称,并且针对已经归纳出的某个特定失败模式来设计难点。每道题经过至多四轮"草稿→测试→修改"的迭代才能定稿。
每道候选题必须通过三道顺序排列的过滤关卡,只要未能通过任意一关,就会被退回修改。第一关是"可搜索性测试":让AI自己搜几下,如果答案直接出现在搜索结果里,说明题目太容易,需要改写成更难被直接找到的版本。第二关是"良构性测试":给一个"参考解题者"完整的目标网页和题目,看它能不能从页面中唯一、可靠地找到答案,确保题目的答案是客观存在且不歧义的。第三关是"对抗难度测试":让一个只能上网搜索、不能直接访问目标页面的"搜索解题者"来作答,只有当GPT-5.4-mini和Gemini-3-flash-preview两个模型都答错(包括答错和明确表示不知道两种情况),这道题才算通过。
在268道候选题中,最终有100道通过了所有过滤,通过率约37.3%。这100道题的主要难点集中在第五种失败模式"半结构化页面解析"(59道)和第八种"约束追踪"(21道),其次是第三种"搜索访问结构失败"(14道)和第九种"中间推理失败"(13道)。被淘汰的168道题,主要失败原因是答案在搜索结果中太容易被直接找到,还有66道是因为其中一个模型答对了,无法满足"两个模型都答错"的要求。
这100道机器生成的题目,在内容分布上与人工验证的300道有所不同。娱乐与媒体类题目的比例从36.3%大幅降至9.0%,而科技与学术类题目的比例则从6.7%猛增至33.0%。题目的平均字符数也从174.46增加到了248.40,变得更长、更复杂。研究团队还用向量相似度的方式测试两组题目的分布差异,发现一个简单的分类器仅凭题目文本就能以0.8873的高精度区分两组题目,说明它们在风格和领域上确实有明显不同。正因如此,这100道合成题被单独报告,作为一套补充性的"压力测试",而不是直接与人工题合并计算。
在这套压力测试上,所有模型的得分都在0%到26%之间,没有任何模型超过30%。GPT-5.5在这套题上得了26%,DeepSeek-V4-Pro得22%,GLM-5.1得19%,而GPT-5.4-mini因为在出题过滤阶段就被设置为"必须答错"的目标模型,所以得了0%——这是设计如此,并非真实能力体现。这些数字表明,机器辅助的出题方式,在研究团队归纳的失败模式框架引导下,确实能够生成足够有挑战性的诊断题。
八、为什么韩国本土的大模型表现这么差?
研究团队对韩国本土模型的失败模式进行了更细致的分析,每个模型的问题各有不同,不能简单归结为一个原因。
A.X-4.0是建立在Qwen2.5基础上、专门用韩国数据做过持续预训练的模型。它的主要问题是"浅层证据控制":模型往往只是扫了一眼搜索结果的片段,就草率地得出结论,而没有把这些片段整合成一个可以逐步筛选的候选名单。在搜索次数上,它也是所有模型里最保守的,显示出一种"看了两眼就算了"的搜索习惯,而不是坚持追踪证据链直到所有条件都得到验证。
K-EXAONE-236B-A23B参数量非常大,但它的问题出在"跨源链条漂移"上:它能成功地完成第一步搜索,找到目标事件或目标实体的线索,但在接下来的搜索中,这个中间实体逐渐"失忆",后续搜索开始偏向其他相关但并不正确的实体。这说明,单靠堆砌参数量并不能解决长链条推理中的状态维护问题。
HyperCLOVAX-SEED-Think-32B的问题在于"答案终结能力不足":它能启动一个合理的搜索过程,但很难把这个过程收敛到一个格式正确、内容明确的最终答案。它的正确试次和错误试次在搜索次数上几乎没有差别,说明失败不是因为搜索不努力,而是因为不知道什么时候应该停下来给出答案。
Kanana-2-30B-A3B-Thinking-2601则面临最基础的问题——工具调用协议兼容性。这个模型在测试框架下经常输出格式错误的工具调用指令,导致搜索根本无法执行,整个测试流程就此中断。研究团队认为,这反映的是对工具使用范式的适配不完整,而不是内容理解能力的问题。
九、这项研究告诉了我们什么,以及接下来该怎么做?
归根结底,这项研究揭示的核心问题可以用一句话概括:当今的AI模型,包括全球最强的那些,在面对真实的韩语网络搜索任务时,最大的瓶颈不是"搜不到",而是"整合不了"。
模型可以访问正确的网站,可以找到相关的段落,但它往往无法像一名真正的侦探那样,把来自不同地方的碎片化线索拼接成一个完整的、前后一致的答案。候选名单在追踪过程中悄悄换了对象,约束条件在跨越多个搜索步骤后逐渐被遗忘,中间实体在从一个网站跳到另一个网站时发生了"角色混淆"——这些问题,不是更多的搜索次数能够解决的,也不是更大的模型参数量能够自动修复的。
对于韩国本土的AI研发团队来说,K-BROWSECOMP提供了一个清晰的诊断靶标:不同模型在不同阶段出现了不同类型的瓶颈,解决方案需要有针对性,而不是笼统地"增加数据量"或"扩大模型规模"。对于全球AI领域来说,这项研究也提出了一个更宏观的命题:在非英语、文化特异性强的语言环境中构建真正有用的搜索智能体,需要的不只是语言能力,还需要更强的长程状态维护和多源证据整合能力。
这项研究的数据集、评估代码和所有问题都已开源,感兴趣的研究者和开发者可以通过arXiv编号2606.02404查阅完整论文,也可以通过GitHub项目prometheus-eval/K-BrowseComp获取相关资源。
Q&A
Q1:K-BROWSECOMP测试的是AI的什么能力?
A:K-BROWSECOMP测试的是AI在韩语网络环境中进行多步推理搜索的能力,具体包括:能否通过多个网站的证据逐步推理得出唯一正确答案,以及在整个搜索过程中能否持续追踪候选答案、记住约束条件、不混淆不同来源的实体信息。它不是考察AI懂不懂韩语,而是考察AI能不能像一个熟悉韩国本地网络的侦探一样,在真实复杂的信息环境中找到答案。
Q2:韩国本土大模型在K-BROWSECOMP上为什么表现这么差?
A:研究发现韩国本土模型的失败原因各不相同。A.X-4.0搜索次数少且过早下结论,没有把证据整合成候选名单;K-EXAONE-236B-A23B能完成第一步搜索但后续会"忘记"中间结果,链条追踪能力弱;HyperCLOVAX-SEED-Think-32B搜索努力但无法收敛出一个明确答案;Kanana-2-30B-A3B-Thinking-2601甚至连工具调用格式都经常出错,导致搜索无法执行。总体来看,问题不在于不懂韩语,而在于长链条推理中的状态管理能力不足。
Q3:为什么GPT-5.5在英语版本上表现很好,换到韩语版本就差了这么多?
A:英语版BrowseComp中GPT-5.5得分84.4%,换到K-BROWSECOMP只有45.67%,降幅将近40个百分点。这种差距反映了韩语网络环境的特殊性:韩国本地机构页面、考试材料、文化媒体内容的结构和信息密度与英语网页差异很大,很多答案隐藏在半结构化的表格、排名页面或需要特定搜索习惯才能访问的本地网站中。模型对韩语网络的搜索惯例、页面结构和实体命名方式的适应能力,明显不如处理英语内容时成熟。





京公网安备 11011402013531号