韩国AI界的"高考难题":当顶级AI遇上韩语网络搜索，为何"翻车"？

IP属地中国·北京 科技行者 时间：2026-06-06 22:20:10

这项由中央大学、韩国科学技术院（KAIST）、首尔国立大学、OnelineAI、NAVER Cloud AI和卡内基梅隆大学联合完成的研究，于2026年6月发表，论文编号为arXiv:2606.02404。研究团队发布了一个名为K-BROWSECOMP的基准测试集，专门用于测量AI在韩语网络环境中的"侦查"能力。
要弄清楚这项研究在做什么，不妨把整件事想象成一场侦探游戏。一名优秀的侦探，不仅要能读懂线索，还要能在茫茫信息海洋中顺着蛛丝马迹，一路追踪到最终的答案。这项研究的核心问题就是：当今最强大的AI，在韩语这片"信息丛林"里，究竟算是一名合格的侦探，还是一个迷路的新手？
答案多少有些令人意外——就连全球公认最强大的AI模型，在这套测试里也只能答对不到一半的题目，而韩国本土的AI模型，表现甚至更加惨淡。
一、为什么需要一套专门测试韩语AI"侦探能力"的试卷？
在AI领域，评估一个模型的能力，通常要靠"基准测试"——也就是一套专门设计的题目，就像期末考试一样，用来检验AI到底学得好不好。过去几年，全球最顶尖的AI实验室已经把评估重心从"会不会做阅读理解"转移到了"能不能像人一样自主完成复杂任务"。后者被称为"智能体评估"，考察的是AI在多个步骤之间协调配合、自主决策的能力，就像考察一名侦探能不能从头到尾独立破案，而不仅仅是认识几个单词。
然而，在这场评估革命中，韩语AI界却有些掉队。韩国目前的AI测试，大多还停留在"考词汇、考阅读"的阶段，缺乏针对复杂任务的测试工具。这造成了一个现实困境：研究者们无法准确知道，韩国本土的AI在面对真实用户需求时，究竟表现如何。
这种缺失不仅仅是技术上的遗憾，背后还有更深层的现实考量。韩国的语言使用人口相对有限，网络上的韩语内容在规模和覆盖面上天然不如英语，这意味着当用户需要查询韩国本地的机构信息、文化知识、地理数据时，AI的表现可能远不如处理英语问题时稳定。换句话说，韩国用户在使用AI助手时，面临的是一种结构性的信息不平等。
正是为了填补这个空白，研究团队建立了K-BROWSECOMP，一套专门针对"韩语网络搜索智能体"的测试集，用400道精心设计的题目，检验AI能否在韩语互联网的复杂环境中，像一名熟练的侦探一样找到正确答案。
二、这套试卷究竟在考什么？它的题目有多难？
K-BROWSECOMP的设计灵感来自一个已有的英语测试项目BrowseComp，但它并不是简单的翻译。研究团队特别强调，这套题目必须"扎根于韩国语境"，也就是说，每道题都要涉及韩国特有的机构、文化现象、教育体系、地方地理或媒体内容，单靠查英语资料或依赖通用知识根本无法作答。
每道题都必须满足几个严格标准。答案必须是唯一的、不会随时间变化的具体信息，而且必须可以在公开的网页上找到文字证据。题目不能直接通过搜索关键词找到答案——必须经过至少四个步骤的推理或同时满足至少四个独立条件，才能锁定正确答案。
这套测试包含两种题型，它们代表了两种不同的侦探工作模式。第一种叫做"多跳推理"，就像侦探顺着线索链条一步一步追踪：先找到A，用A去找B，用B再去找C，最终得出答案。第二种叫做"并行约束满足"，就像侦探面对一群嫌疑人，必须同时核实多个独立条件，找出唯一同时满足所有条件的那一个人。
以论文中给出的两个示例来感受一下难度。第一道题是这样的：2025年发行的某张专辑的第四首歌曲，题目去掉空格后是五个字，歌词中出现了七次"???"（没关系），这首歌是什么？第二道题则更为复杂：韩国教育课程评估院2018年6月针对高三学生举行的模拟考试，国语科目第29题考查的作品，该作品的诗人在生前出版的第十本诗集中，排在第十三位的那首诗，题目是什么？
仅仅读一遍这两道题，就能感受到它们对人类来说也并不轻松，更别提AI了。
三、人工验证的300道题是怎么炼成的？
测试集分为两个部分。第一部分是"已验证子集"，共300道题，全部由真人韩语母语者手工编写和验证。研究团队召集了17名标注人员，包括研究人员和非研究人员，给他们一份详细的编写指南，要求他们从一个已知的目标事实出发，反向设计出一道难以直接搜索但答案容易核实的问题。
这个"反向设计"的思路非常关键，好比一名出题老师已经知道答案是"埃菲尔铁塔建于1889年"，然后绕开这个信息，设计一道需要通过五步推理才能得出这个答案的题目，而不是直接问"埃菲尔铁塔建于哪年"。
编写完成的题目要经过严格的审核流程。研究团队会逐一检查每道题的金标准答案、中间实体和引用来源是否都能在公开网页上找到。如果证据无法访问、不充分或相互矛盾，题目就会被退回给原作者修改。审核过程中还有一道特别的关卡：如果基线AI模型给出了一个和标准答案不同但同样合理的答案，研究团队会人工判断这个答案是否也成立，如果成立，题目必须修改或删除，以确保每道题的答案确实是唯一的。
最终通过审核的300道题，覆盖了10个类别。娱乐与媒体是最大的类别，有109道题，占比超过三分之一。其次是地点与地区48道，教育与考试35道，体育与游戏26道，科技与学术20道，美食餐饮19道，文学与语言15道，产品与品牌14道，历史文化10道，以及经济与政策4道。在题型分布上，多跳推理题160道占53.3%，并行约束题140道占46.7%，两者相对均衡。
参与编写的非研究人员按照每10至15道题约100,000韩元（约合60至70美元）的标准获得报酬，这个金额对应大约4小时的工作量，高于2025年韩国法定最低时薪。
四、AI模型在这场"侦探考试"里表现如何？
研究团队选取了全球11个主流AI模型进行测试，覆盖封闭源模型和开源模型两大阵营，以及专门针对韩语优化的本土模型。所有模型使用统一的测试框架，每个问题最多允许进行10次网络搜索，并且只有一次回答机会。
测试结果在全球顶尖模型中，表现最好的是GPT-5.5，正确率45.67%，排在第二位的是GPT-5.4-mini和GLM-5.1，两者并列30.67%，DeepSeek-V4-Pro紧随其后，得分30.00%。
这些数字单独看似乎还好，但一旦和同样这些模型在英语版BrowseComp上的成绩比较，差距就显得触目惊心了。GPT-5.5在英语版BrowseComp上得分84.4%，换到韩语版直接掉到了45.67%，降幅将近40个百分点。DeepSeek-V4-Pro在英语版得分83.4%，在韩语版只有30.00%，几乎腰斩。这种断崖式下滑，清楚地表明这些模型并没有真正掌握韩语网络环境的特殊性，而不是普通的随机波动。
再来看较小规模的开源模型，Gemma-4-31B-IT得分23.33%，超过了参数量更大的Qwen3.6-35B-A3B（12.00%），而Gemini-3.1-Flash-Lite仅11.33%，同样不理想。
最令人印象深刻的是韩国本土模型的表现。K-EXAONE-236B-A23B是一个参数量高达2360亿（其中约230亿为激活参数）的庞大模型，也是韩国政府"自主AI基础模型项目"资助的成果之一，但它在这套测试里只得了10.33%。A.X-4.0得分5.33%，HyperCLOVAX-SEED-Think-32B得分2.33%，而Kanana-2-30B-A3B-Thinking-2601则得了0分，完全没有答对任何一道题。韩国本土模型整体得分范围在0%至10.33%之间，与全球顶尖模型相比，差距超过了35个百分点。
研究团队还额外计算了每个模型的"校准误差"，这个指标衡量的是模型对自己答案的自信程度是否合理。如果一个模型对一个错误答案非常自信，或者对一个正确答案非常不确定，校准误差就会很高。HyperCLOVAX-SEED-Think-32B的校准误差高达77.37%，意味着它的自信程度和实际表现严重脱节，经常在答错的时候反而最自信。GPT-5.5在这个维度上表现相对较好，校准误差为31.86%，在高准确率和合理自信之间取得了相对较好的平衡。
五、AI究竟在哪个环节"掉链子"了？
光有分数还不够，研究团队还深入分析了模型的"侦查过程"，试图找出它们究竟在哪一步走错了路。经过大量的人工审查，他们归纳出了九种典型的失败模式，形成了一套系统的"错误分类表"。
第一种失败是"轨迹不完整或输出格式错误"，最极端的情形——模型压根没能走完整个搜索流程，或者最终没能给出一个格式正确的答案，就像侦探还没勘察完现场就宣布放弃了。第二种是"初始搜索方向无效"，模型一开始就选错了搜索策略，就像侦探在面对一起发生在图书馆的案子时，第一反应是去检查停车场的监控，完全跑偏了方向。第三种是"搜索访问结构失败"，指模型无法访问隐藏在复杂页面结构后面的证据，比如需要按特定顺序排列内容才能看到的信息。第四种是"跨源跳转失败"，指模型无法将来自不同网站的证据拼接在一起，就像侦探能分别看懂两份文件，却不知道这两份文件讲的是同一个人。第五种是"半结构化页面解析失败"，指模型在面对表格、排名、数据库等格式化内容时，读错了数据——比如看着一张成绩单，却把第三名的分数记成了第一名的。第六种是"搜索结果选择失败"，指模型找到了相关证据，但选错了具体来源或候选答案，就像侦探找到了几个嫌疑人但指认错了人。第七种是"稀疏实体归一化失败"，指模型无法正确识别罕见人名、别名、不同拼写方式或历史名称，比如一个历史人物有好几种不同的写法，模型却认为是不同的人。第八种是"约束追踪失败"，指模型找到了部分候选答案，却没能验证所有条件都得到满足——这是最常见也最致命的问题之一。第九种是"中间推理失败"，指在需要进行日期计算、排序、计数或比较的步骤中出错。
研究团队进一步观察到，很多错误并不发生在搜索阶段，而是发生在搜索之后。换句话说，模型往往已经找到了正确的证据，却在处理这些证据的过程中出了问题。这个发现非常关键，因为它意味着仅仅改善搜索能力是不够的，真正需要解决的是模型在多步推理过程中维持"证据状态"的能力。
研究团队将反复出现的错误模式归纳为三种典型的轨迹级故障。
第一种叫"候选人过早锁定"。这发生在模型在验证完所有上游条件之前，就把注意力锁定在某个看似合理的候选答案上。此后的所有搜索都围绕这个候选答案展开，变成了"找证据来支持我的猜测"，而不是"继续寻找真相"。一旦提交，这个答案表面上看有证据支撑，实际上却违反了题目的完整要求。
第二种叫"证据分支未合并"。模型对每个条件分别进行了搜索，每次搜索都建立了一个独立的证据分支，但这些分支从未被汇总到同一个候选名单里进行交叉比对。轨迹看起来很系统，好像每个线索都查了，但候选名单在每一步之后都是混乱的，最终给出的答案其实没有通过所有条件的验证。
第三种叫"中间结果角色绑定错误"。模型沿着一条看似合理的搜索链条走下去，却在某个中间步骤把一个结果套用到了错误的角色上。特别是当题目需要在不同步骤之间切换实体类型时，一个高曝光度的实体很容易"抢占"本应属于另一个目标实体的位置，导致最后的答案虽然在局部逻辑上说得通，但整个推理链条其实早就偏离了轨道。
六、搜索次数越多，表现就越好吗？
面对这些低分，有人可能会想：是不是给AI的搜索次数太少了？如果放开限制，让AI多搜几次，会不会找到答案？
研究团队对此进行了专门分析，结论是：搜索次数并不是主要瓶颈。数据显示，对于大多数模型，答错的题比答对的题使用了更多的搜索次数，而且往往接近10次的上限。GPT-5.5在答对的题上平均用了7.08次搜索，在答错的题上平均用了9.30次——答错时搜得更多，但仍然没有找到答案。DeepSeek-V4-Pro的数据是7.47次对9.80次，Gemma-4-31B-IT是5.20次对8.10次。
这个发现说明，模型在答错的题上并不是因为"搜索不够努力"而失败的，而是因为即便搜索了很多次，依然无法有效地把信息整合起来。搜索量是成功的弱预测因子，真正的关键在于模型能否在多次搜索之间维持一致的候选集合、约束条件和实体角色状态。
几个韩国本土模型在这方面的表现尤为值得关注。A.X-4.0在答对和答错的题目上，平均搜索次数分别只有2.38次和1.43次，远低于其他模型，说明它往往在尝试不多的情况下就提前放弃了搜索。HyperCLOVAX-SEED-Think-32B在答对和答错的题目上搜索次数几乎没有差别，分别是6.71次和6.84次，说明它的问题不在于搜索努力程度，而在于无法从搜索结果中稳定地提炼出最终答案。Kanana-2-30B-A3B-Thinking-2601则更加特殊，它经常连有效的工具调用格式都无法正确输出，导致很多搜索根本没能执行，这是一种最基础的协议层面的失败，与内容理解能力无关。
七、能让AI来出题吗？——机器生成的100道"压力测试题"
测试集的第二个部分，是研究团队在方法论上的一个创新尝试。他们想探索一个问题：既然解题很难，那出题容不容易？
这个问题背后有一个重要的信息不对称：对于网络搜索类任务，解题可能非常困难，但一旦知道了正确答案和证据路径，验证一个候选答案就相对容易了。研究团队认为，这种不对称同样存在于出题端——如果已经有了一个目标答案和对应的网页，反向设计出一道难题，是否比正向找到答案更容易？
为了验证这个想法，他们让一个能上网的AI智能体（使用claude-opus-4.7）扮演出题者的角色。这个AI的工作流程如下：先访问一个目标网页，然后以"逆向设计"的方式编写一道题目——也就是从答案出发，构建一条需要多步推理才能到达答案的问题路径，同时刻意隐藏答案本身、来源网址和页面上最显眼的实体名称，并且针对已经归纳出的某个特定失败模式来设计难点。每道题经过至多四轮"草稿→测试→修改"的迭代才能定稿。
每道候选题必须通过三道顺序排列的过滤关卡，只要未能通过任意一关，就会被退回修改。第一关是"可搜索性测试"：让AI自己搜几下，如果答案直接出现在搜索结果里，说明题目太容易，需要改写成更难被直接找到的版本。第二关是"良构性测试"：给一个"参考解题者"完整的目标网页和题目，看它能不能从页面中唯一、可靠地找到答案，确保题目的答案是客观存在且不歧义的。第三关是"对抗难度测试"：让一个只能上网搜索、不能直接访问目标页面的"搜索解题者"来作答，只有当GPT-5.4-mini和Gemini-3-flash-preview两个模型都答错（包括答错和明确表示不知道两种情况），这道题才算通过。
在268道候选题中，最终有100道通过了所有过滤，通过率约37.3%。这100道题的主要难点集中在第五种失败模式"半结构化页面解析"（59道）和第八种"约束追踪"（21道），其次是第三种"搜索访问结构失败"（14道）和第九种"中间推理失败"（13道）。被淘汰的168道题，主要失败原因是答案在搜索结果中太容易被直接找到，还有66道是因为其中一个模型答对了，无法满足"两个模型都答错"的要求。
这100道机器生成的题目，在内容分布上与人工验证的300道有所不同。娱乐与媒体类题目的比例从36.3%大幅降至9.0%，而科技与学术类题目的比例则从6.7%猛增至33.0%。题目的平均字符数也从174.46增加到了248.40，变得更长、更复杂。研究团队还用向量相似度的方式测试两组题目的分布差异，发现一个简单的分类器仅凭题目文本就能以0.8873的高精度区分两组题目，说明它们在风格和领域上确实有明显不同。正因如此，这100道合成题被单独报告，作为一套补充性的"压力测试"，而不是直接与人工题合并计算。
在这套压力测试上，所有模型的得分都在0%到26%之间，没有任何模型超过30%。GPT-5.5在这套题上得了26%，DeepSeek-V4-Pro得22%，GLM-5.1得19%，而GPT-5.4-mini因为在出题过滤阶段就被设置为"必须答错"的目标模型，所以得了0%——这是设计如此，并非真实能力体现。这些数字表明，机器辅助的出题方式，在研究团队归纳的失败模式框架引导下，确实能够生成足够有挑战性的诊断题。
八、为什么韩国本土的大模型表现这么差？
研究团队对韩国本土模型的失败模式进行了更细致的分析，每个模型的问题各有不同，不能简单归结为一个原因。
A.X-4.0是建立在Qwen2.5基础上、专门用韩国数据做过持续预训练的模型。它的主要问题是"浅层证据控制"：模型往往只是扫了一眼搜索结果的片段，就草率地得出结论，而没有把这些片段整合成一个可以逐步筛选的候选名单。在搜索次数上，它也是所有模型里最保守的，显示出一种"看了两眼就算了"的搜索习惯，而不是坚持追踪证据链直到所有条件都得到验证。
K-EXAONE-236B-A23B参数量非常大，但它的问题出在"跨源链条漂移"上：它能成功地完成第一步搜索，找到目标事件或目标实体的线索，但在接下来的搜索中，这个中间实体逐渐"失忆"，后续搜索开始偏向其他相关但并不正确的实体。这说明，单靠堆砌参数量并不能解决长链条推理中的状态维护问题。
HyperCLOVAX-SEED-Think-32B的问题在于"答案终结能力不足"：它能启动一个合理的搜索过程，但很难把这个过程收敛到一个格式正确、内容明确的最终答案。它的正确试次和错误试次在搜索次数上几乎没有差别，说明失败不是因为搜索不努力，而是因为不知道什么时候应该停下来给出答案。
Kanana-2-30B-A3B-Thinking-2601则面临最基础的问题——工具调用协议兼容性。这个模型在测试框架下经常输出格式错误的工具调用指令，导致搜索根本无法执行，整个测试流程就此中断。研究团队认为，这反映的是对工具使用范式的适配不完整，而不是内容理解能力的问题。
九、这项研究告诉了我们什么，以及接下来该怎么做？
归根结底，这项研究揭示的核心问题可以用一句话概括：当今的AI模型，包括全球最强的那些，在面对真实的韩语网络搜索任务时，最大的瓶颈不是"搜不到"，而是"整合不了"。
模型可以访问正确的网站，可以找到相关的段落，但它往往无法像一名真正的侦探那样，把来自不同地方的碎片化线索拼接成一个完整的、前后一致的答案。候选名单在追踪过程中悄悄换了对象，约束条件在跨越多个搜索步骤后逐渐被遗忘，中间实体在从一个网站跳到另一个网站时发生了"角色混淆"——这些问题，不是更多的搜索次数能够解决的，也不是更大的模型参数量能够自动修复的。
对于韩国本土的AI研发团队来说，K-BROWSECOMP提供了一个清晰的诊断靶标：不同模型在不同阶段出现了不同类型的瓶颈，解决方案需要有针对性，而不是笼统地"增加数据量"或"扩大模型规模"。对于全球AI领域来说，这项研究也提出了一个更宏观的命题：在非英语、文化特异性强的语言环境中构建真正有用的搜索智能体，需要的不只是语言能力，还需要更强的长程状态维护和多源证据整合能力。
这项研究的数据集、评估代码和所有问题都已开源，感兴趣的研究者和开发者可以通过arXiv编号2606.02404查阅完整论文，也可以通过GitHub项目prometheus-eval/K-BrowseComp获取相关资源。
Q&A
Q1：K-BROWSECOMP测试的是AI的什么能力？
A：K-BROWSECOMP测试的是AI在韩语网络环境中进行多步推理搜索的能力，具体包括：能否通过多个网站的证据逐步推理得出唯一正确答案，以及在整个搜索过程中能否持续追踪候选答案、记住约束条件、不混淆不同来源的实体信息。它不是考察AI懂不懂韩语，而是考察AI能不能像一个熟悉韩国本地网络的侦探一样，在真实复杂的信息环境中找到答案。
Q2：韩国本土大模型在K-BROWSECOMP上为什么表现这么差？
A：研究发现韩国本土模型的失败原因各不相同。A.X-4.0搜索次数少且过早下结论，没有把证据整合成候选名单；K-EXAONE-236B-A23B能完成第一步搜索但后续会"忘记"中间结果，链条追踪能力弱；HyperCLOVAX-SEED-Think-32B搜索努力但无法收敛出一个明确答案；Kanana-2-30B-A3B-Thinking-2601甚至连工具调用格式都经常出错，导致搜索无法执行。总体来看，问题不在于不懂韩语，而在于长链条推理中的状态管理能力不足。
Q3：为什么GPT-5.5在英语版本上表现很好，换到韩语版本就差了这么多？
A：英语版BrowseComp中GPT-5.5得分84.4%，换到K-BROWSECOMP只有45.67%，降幅将近40个百分点。这种差距反映了韩语网络环境的特殊性：韩国本地机构页面、考试材料、文化媒体内容的结构和信息密度与英语网页差异很大，很多答案隐藏在半结构化的表格、排名页面或需要特定搜索习惯才能访问的本地网站中。模型对韩语网络的搜索惯例、页面结构和实体命名方式的适应能力，明显不如处理英语内容时成熟。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

AI圈最清醒的42句话，都在这了

OpenAI罕见Open，A社还在硬撑，黄仁勋的开源公开信在力挺谁

英伟达拟为OpenAI提供巨额融资担保

虎嗅【作·嗅之星】周榜第323～324期

国务院发展研究中心张文魁：推动智能终端与智能体融合发展

加州最大AI数据中心开发商索要河水遭拒，将供水机构告上法庭

全站最新

AI圈最清醒的42句话，都在这了

2026年上半年燃油SUV市场回暖：17款销量破5万国产与合资激战正酣

京西智行MagneRide®技术赋能领克07GT以硬核底盘数据重塑驾控新标杆

OpenAI罕见Open，A社还在硬撑，黄仁勋的开源公开信在力挺谁

热门推荐

AI圈最清醒的42句话，都在这了

雷军回应澎程为何只做增程：方盒子风阻大、电池太重，旨在消除续航焦虑

中国AI大模型包揽全球前五，小米MiMo-V2.5周调用量破10.5万亿强势登顶

OpenAI罕见Open，A社还在硬撑，黄仁勋的开源公开信在力挺谁

英伟达拟为OpenAI提供巨额融资担保

虎嗅【作·嗅之星】周榜第323～324期

抚顺银行第一大股东所持全部股份再度7折开拍，年报连续缺席、评级终止

小米澎程SUV本周亮相！大空间技术受瞩目新机入网澎湃OS4引期待

努比亚NaviX Ultra黑色版官图亮相，AI智能体架构加持引领手机新体验

国务院发展研究中心张文魁：推动智能终端与智能体融合发展

加州最大AI数据中心开发商索要河水遭拒，将供水机构告上法庭

支付宝体验技术部拆分，员工分散到各个业务线

苹果总市值再成全球第一

英伟达押注OpenAI联合创始人全新AI实验室拓宽算力布局版图

新榜单出炉，单周处理量破8万亿Token：Agnes公布大模型最新成绩单