![]()
这项由深圳循环区研究院、武汉大学与香港中文大学多媒体实验室联合完成的研究,以预印本形式发布于2026年5月,编号为arXiv:2605.12497,有兴趣深入探索的读者可通过该编号在arXiv平台检索完整论文。
你有没有遇到过这样的场景:朋友发来一张派对现场照片,问你"帮我找找那个今年拿了奥斯卡最佳女配角的人在哪儿",而你根本不知道今年的奥斯卡颁给了谁。这时候,你没法直接靠眼睛找到答案,你必须先掏出手机搜索"今年奥斯卡最佳女配角是谁",得到名字,再回到照片里逐一辨认。现有的AI视觉系统却长期卡在第一步——它们只会盯着图片看,没有"先查网页"的本能。
这篇论文的研究团队,就是为了解决这个"AI不会查资料再看图"的问题而来的。他们把这种新任务命名为"感知深度研究",并构建了一套完整的测试基准和解决方案,向AI世界提出了一个新问题:能不能让视觉感知系统也学会像人一样,先上网查清楚目标是谁,再去图里找它?
一、AI看图找人,为何会在知识门槛前碰壁
要理解这个研究解决的是什么问题,先来看看现有的AI视觉系统是怎么工作的。
目前主流的做法分两类。第一类是"看图说话型":给AI一张图,再告诉它"找那辆红色的车",AI直接根据视觉特征定位目标,这就像考试时只需要认图形,不需要任何课外知识。第二类稍微进化了一点,叫做"推理型":给AI一张图,问"找那个能让女人站得更高的东西",AI需要动脑筋想"凳子、台阶都能让人站高",然后在图里搜索,这需要动用它在训练时积累的常识知识。
然而,这两类方法都共享一个关键假设:要找的东西,要么靠眼睛能直接看出来,要么靠AI"肚子里的知识"能推断出来。一旦这个假设不成立——也就是说,目标的身份藏在最新的新闻事件、冷门的实体关系或者AI从未见过的细节里——这两类方法都会集体失灵。
研究团队举了一个生动的例子:给AI一张游戏主机摆在桌上的图,问它"找那个发布时附赠了与一款赛车游戏捆绑套装的设备,而那款赛车游戏的主角在1981年的游戏中曾用过另一个名字"。这道题的解题链是:1981年的游戏是"大金刚",主角当时叫"Jumpman",后来改名马里奥,马里奥参与了"马里奥赛车"系列,任天堂Switch 2发布时附赠了《马里奥赛车:世界》,所以答案是Switch 2。靠眼睛看不出来,靠常识也不够用——你必须一步一步联网查证。
这就是"感知深度研究"的核心挑战:不是简单地回答"图里有什么",而是先通过多轮网络搜索锁定目标身份,再把这个身份对应到图中具体的像素位置。
二、WebEyes:一套专门为"查完资料再找目标"设计的考卷
为了让这种能力变得可以测量和比较,研究团队建立了一个叫做WebEyes的数据集,可以把它理解为一套专门考察AI"先查资料再看图"能力的考卷。
这套考卷的设计逻辑非常特别,它从具体的视觉实例出发,向外扩展出知识链条和问题。整个数据集包含120张图片,涵盖了473个标注好的目标物体实例,生成了645组独特的问答对,最终形成1927道考题。内容覆盖六大类别:知名人物(占23.68%)、标志性IP形象(占27.06%)、流行文化IP(占15.64%)、动漫角色(占13.32%)、商品(占12.69%)和车辆(占7.61%),可以说把日常生活中可能需要"查资料才能认出"的东西都包进去了。
考卷设计了三种不同的题型,考察AI从不同角度处理这一任务的能力。第一种叫"基于搜索的目标定位",规则是:给AI一张图和一个知识密集型的描述,AI必须输出目标在图中的精确矩形框坐标。第二种叫"基于搜索的目标分割",要求更高:AI不只是框出目标,还要给出精确到每个像素的轮廓蒙版,就像用橡皮擦把其他所有东西都抹掉,只留下目标本身的形状。第三种叫"基于搜索的视觉问答",这次反过来:图中某个区域已经用红框标注出来了,AI需要从四个选项里选出哪个描述是正确的,而正确选项包含需要联网查证的知识。
这三种题型的考题来源于同一批标注数据,这意味着对同一个物体,AI既要能找到它在哪儿,又要能精确描出它的轮廓,还要能基于搜索到的知识正确描述它——三重考核,缺一不可。
构建这套考卷本身就是一个工程。研究团队先从网络、新闻和社交媒体上收集了大量包含多个前景目标的图片,使用AI模型辅助筛选,去掉低质量、文字主导或者遮挡严重的图片。然后人工标注每个目标物体的轮廓蒙版和矩形框,同时让AI总结每个物体的视觉特征描述。接下来是最关键的一步:系统对每个物体发起三轮链式搜索,每轮搜索的结果都会成为下一轮搜索的出发点,重点收集近六个月内的非视觉信息,比如最新活动、品牌关系、发布历史、角色背景等。最后基于这些证据链生成问题,故意隐藏目标名称和视觉特征,只保留需要推理才能解锁的间接线索。
为了防止作弊,系统还设置了三重自动过滤:过滤掉不需要联网就能靠常识回答的题、过滤掉只靠看图就能解决的题、过滤掉因为问题里泄露了答案而导致多义性的题。这一步淘汰了38.2%的自动生成候选。通过自动过滤的样本再进入人工审核,审核员检查证据准确性、目标唯一性、蒙版质量等,又淘汰了49.2%。最终保留下来的每一道题都有完整的证据链可以追溯。
与以往的相关数据集相比,WebEyes的独特之处在于它同时满足了多个条件:既需要常识知识,又需要联网知识;既能考察目标定位,也能考察像素分割和视觉问答;每个样本都有精细标注,不是简单的图像级标签。以往的RefCOCO只考视觉推理,MMSearch只考搜索能力但输出是文字,WebEyes则把联网搜索和像素级视觉感知直接绑在一起,是一个更完整的挑战。
三、Pixel-Searcher:像侦探破案一样的两阶段视觉感知流程
有了考卷,研究团队也提出了自己的解题方案,叫做Pixel-Searcher。它的工作逻辑可以用侦探破案来理解:先通过线索调查锁定嫌疑人身份,再到案发现场找到嫌疑人的具体位置。
整个流程分成两个阶段。第一阶段是"主动搜索与目标身份解析"。系统收到问题和图片后,不急着去图里找东西,而是先拆解问题。如果问题涉及多个知识跳跃,系统会把它分解成一组按逻辑依赖关系排列的子问题,比如先查某个事件发生在哪一年,再查那年发生了什么,最后查相关人物是谁。然后系统进入搜索-推理-判断的循环:搜索是从外部获取证据,推理是把已有证据连接起来判断是否足够,判断是输出当前对目标身份的最佳猜测。这个循环会持续到积累了足够的证据,或者达到了预设的最大轮数为止。
这个阶段最终输出的不是一段文字回答,而是一个结构化的目标假设,包含三个要素:目标的具体名称、目标的视觉类别(比如"人物"、"手机"、"汽车"),以及一组可以在图片里实际验证的关键视觉线索。这个结构化假设是连接网络证据和视觉感知的关键桥梁——它把所有的推理过程浓缩成"去图里找什么"的指令。
系统还会主动验证这个假设是否可靠:检查解析出的目标是否只是一个中间推理步骤而非最终可见目标,排查假设是否过于宽泛或与视觉场景矛盾,必要时启动修复流程重新推导。
第二阶段是"主动定位与工具调用"。系统用第一阶段生成的目标假设而非原始问题来指导视觉定位,这个区别至关重要——原始问题里可能充满间接描述和知识跳跃,而目标假设已经把这些都转化成了直接可用的视觉检索指令。
定位过程本身也是一个多步骤的验证过程。系统会生成多个候选区域,然后用解析出的目标身份和关键线索逐一打分,选出最符合证据的那个区域。对于目标定位任务,选出的区域就是最终答案;对于目标分割任务,选出的区域会被传递给SAM3(一个专门的图像分割工具)来生成精确的像素蒙版,就像用精密刻刀沿着目标轮廓精确切割一样;对于视觉问答任务,流程反过来,系统对每个候选答案选项分别解析其涉及的实体,然后判断哪个选项的知识描述与图中标注区域最匹配。
四、实验结果:查完网页再找目标,AI的表现提升了多少
研究团队对多种AI系统进行了系统性测试,既包括GPT-4o、Gemini等闭源商业模型,也包括多种开源模型,以及他们提出的Pixel-Searcher方案。
在目标定位任务上,Pixel-Searcher是所有开源方案里表现最好的。以一个常用的质量指标IoU(衡量预测框和真实框的重叠程度,分数越高越准)来看,基础版的Qwen3-VL-8B模型得了26.81分,而Pixel-Searcher把它提升到了34.17分,提升幅度约27%。另一个常用指标Recall@0.5(衡量有多少目标被准确框住)也从32.61提升到了41.30,提升了约27%。提升最明显的类别是动漫角色和标志性IP形象,这两类恰好是最难靠外观直接辨认的类别,需要大量背景知识才能区分。
在目标分割任务上,Pixel-Searcher同样是开源方案中的最优选手,把基础模型的gIoU指标从35.78提升到39.17,cIoU指标从25.94提升到32.41。车辆、动漫和商品类别的提升最为显著,这意味着更准确的目标身份定位也确实带来了更好的像素级轮廓分割。
在视觉问答任务上,准确率从36.34提升到42.24,在标志性IP和商品类别上的提升尤为突出。
值得注意的是,即便是最顶尖的开源方案Pixel-Searcher,与最好的闭源商业模型(如Doubao-Seed-2.0-Pro)相比仍有差距。在目标定位上,后者能达到35.69 IoU,在目标分割上能达到61.22 gIoU,远超Pixel-Searcher的39.17。这说明WebEyes仍是一个困难的未解问题,即便有了联网搜索的帮助,距离人类水平仍有相当距离。
五、哪里出了问题?失败的根源在于查资料而非画轮廓
研究团队进行了深入的消融实验和失败分析,这部分结果揭示了一些出乎意料但颇有价值的发现。
先说消融实验。研究团队逐步移除Pixel-Searcher的各个组成部分来测试每个部分的贡献。最关键的发现是,移除"直接候选区域"这一步骤(也就是让系统不再生成多个候选框,而是直接猜测位置),会导致IoU从34.17急剧跌至20.14,Recall@0.5从41.30跌至19.72,几乎腰斩。这意味着候选生成与筛选机制是整个流程中最不可或缺的环节。但仅仅有直接候选而没有其他验证步骤,也同样不行——"仅直接定位"版本的IoU只有22.28,说明候选生成必须结合已解析的目标证据和视觉验证才能真正发挥作用。矛盾检测和参考图匹配这两个步骤虽然单独来看贡献相对较小,但组合在一起能带来稳定的提升,说明多重验证机制之间存在协同效应。
再说失败分析。研究团队仔细检查了389个失败案例,结论令人深思:其中304个(约78%)是因为搜索过程或实体解析出了问题,比如搜索到了错误的证据、把中间推理步骤当成了最终目标;75个(约19%)是实体身份已经正确解析,但在图片里仍然找到了错误的区域;只有10个(约3%)是正确找到了区域,但在转换为像素蒙版时出了问题。
这个分布透露出一个关键信息:这道题的瓶颈不在于"画蒙版有多精确",而在于"先把要找谁搞清楚"。换句话说,如果能更准确地从网络上搜集证据、更可靠地解析出目标身份,然后把这个身份正确地对应到图里的具体实例,那么最终的像素蒙版质量自然会跟上来。这一发现为后续研究指明了最值得投入的方向。
归根结底,这项研究做了三件事:定义了一个新问题、建了一套能测量这个问题的考卷、给出了一个能部分解决这个问题的方案,并且通过诊断实验精准指出了瓶颈所在。
目前AI视觉系统就像一个只会看图、不会查资料的助手——眼力不差,但知识不够用。WebEyes和Pixel-Searcher告诉我们,当视觉感知与主动信息搜索真正结合起来时,AI才有可能处理那些需要"先查网页才能看懂图"的真实世界问题。距离全面解决这个问题,还有相当长的路要走,但方向已经明确。
有兴趣深入了解这项研究全部细节的读者,可以通过arXiv编号2605.12497查阅完整论文。
Q&A
Q1:WebEyes数据集里的问题有多难,普通AI模型完全回答不了吗?
A:WebEyes里的问题刻意设计成需要多步联网推理才能解答,比如通过一个品牌收购事件找到相关代言人再对应到图中人物。直接使用视觉模型(不联网)的准确率普遍很低,比如某些模型的目标定位IoU只有个位数甚至接近零。但联网搜索也不是万能药,现有最好的开源方案Pixel-Searcher的整体IoU也只有34分左右,说明这套考卷对现有AI系统仍然相当困难。
Q2:Pixel-Searcher为什么不直接用现成的搜索引擎加图像识别,而要设计那么复杂的两阶段流程?
A:直接搜索加图像识别存在根本性的断层:搜索返回的是文字证据,而图像识别需要视觉特征。Pixel-Searcher的两阶段设计专门解决这个断层,第一阶段把文字证据浓缩成可视化的目标假设(包含名称、类别和可验证线索),第二阶段用这个结构化假设指导视觉定位并多重验证,而不是用原始问题直接对图。这个中间桥梁是整个流程能够工作的关键,消融实验也证实了各个环节缺一不可。
Q3:感知深度研究和现有的视觉问答、图像搜索有什么本质区别?
A:现有的视觉问答通常假设答案可以从图片加模型已知知识中推导出来;图像搜索是给文字描述找图片。感知深度研究的特殊之处在于:目标物体明明可见,但识别它的关键信息藏在图片之外的实时网络知识里,而且最终输出不是文字答案,而是图片里精确的像素坐标或蒙版。它要求AI同时具备主动搜索能力、多跳推理能力和像素级视觉感知能力,三者缺一不可,这在以往的任务设定中从未被同时要求过。





京公网安备 11011402013531号