当前位置: 首页 » 资讯 » 科技头条 » 正文

港科大等机构联手打造"进化式"多模态搜索AI

IP属地 中国·北京 科技行者 时间:2026-05-20 00:27:02


这项由香港科技大学、香港中文大学、北京大学、清华大学和爱丁堡大学联合完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.10832。感兴趣的读者可通过该编号查阅完整论文。

我们每天都在手机上问问题,有时候甚至直接拍张照片问"这是什么花""这道菜怎么做"。但如果问题变得特别复杂——比如"照片里这幅古地图上的那片区域,在1945年属于哪个国家管辖,当时的托管情况又是怎样的"——现有的AI助手就会开始犯难了。不仅要看懂图,还要去网上查资料,还要把查到的东西和图里的内容结合起来推理,还要不断地一步一步追问下去……这种能力,研究者们称之为"多模态深度搜索"。

打个比方,普通的图像识别AI就像一个只能看菜单点菜的服务员,而"多模态深度搜索"需要的是一个能看懂菜单、能去厨房查食材、能和大厨沟通、还能根据你的饮食禁忌最终给你推荐最合适菜品的全能管家。这种能力的培养,正是这篇论文要解决的核心问题。

研究团队发现,当前的AI系统在这件事上卡在两个关键瓶颈上。第一个瓶颈是:当AI用工具(比如网页搜索、图片查找)获得了一些中间图片证据时,这些图片用完就扔了,后续步骤根本无法再拿这些图片继续分析。第二个瓶颈是:训练AI用的数据是提前做好的"固定配方",不会根据AI当前的学习状态自动调整难度和内容。

为了解决这两个问题,研究团队设计了两套紧密配合的解决方案,并通过大规模实验证明,这套方案能让基础模型的平均准确率从约25%跳升到39%,甚至超越了谷歌旗下顶级商业AI——Gemini 2.5 Pro的表现。

一、从"用完即弃"到"随时可取":给AI建一个"图片银行"

要理解第一个瓶颈,可以用一个侦探办案的场景来思考。一个侦探在调查案件时,每到一个现场都会拍照、收集证据,然后把这些证据带回去研究,而且后续发现新线索后,还可以拿出之前的照片重新比对。这是人类做事的自然方式。

然而现有的多数AI搜索系统却像一个每次进入现场都不带相机的侦探——它在某一步用网络搜索到了一张相关图片,看了一眼、提取了文字信息,然后这张图就消失了。等到下一步需要对这张图做进一步分析时,它手头根本没有这张图了。

这套机制被集成进一个统一的"视觉原生智能体框架",整个框架配备了9种工具:网页搜索、图片搜索、学术文献搜索、网页浏览、谷歌图片识别(类似以图搜图)、图片局部放大、图片旋转、图片翻转和Python代码执行。这9种工具共享同一个图片存储室,形成一个完整的视觉工作台。

在实验验证中,研究团队做了一个"去掉图片复用功能"的对照实验——保留让AI看图的能力,但取消它把中间图片传给后续工具的功能。结果发现,在特别需要多步视觉分析的测试集上,准确率明显下降:MM-BrowseComp(一个专门测试多模态网页浏览能力的数据集)下降了4.9个百分点,HLE-VL(顶级学术难题视觉版)下降了2.9个百分点,MMSearch+下降了3.2个百分点。而且有一个规律非常清晰:一个测试集里AI复用中间图片的次数越多,去掉这个功能后性能下降就越大,两者的关系几乎是线性的。这说明图片复用带来的收益确实来自"让中间证据可以继续被使用",而不是其他原因。

进一步分析复用图片的用途后发现,被"二次使用"的图片主要是送去做"放大裁剪"和"谷歌图片识别"——这正是对视觉证据进行精细化分析的典型操作。换句话说,图片银行机制让AI具备了对视觉证据"反复打磨、逐步精化"的能力,就像侦探拿着模糊照片不断放大,直到辨认出关键细节一样。

二、不再用"固定食谱"喂AI:让训练数据跟着AI的水平自动进化

解决了"工作台"的问题,下一个核心问题就是:如何让AI在这个工作台上练就真本领?这就涉及训练数据的问题。

现有的训练数据大多是这样生成的:工程师们事先设计好一套"食谱"——从哪里取素材、生成什么类型的问题、验证方式是什么——然后按照这个固定食谱大规模生产数据,最后喂给AI学习。这种方式有个明显的问题:食谱是为"通用AI水平"设计的,它不知道你正在训练的这个AI当前处于什么水平、已经学会了什么、还欠缺什么。就好像一个体育教练给所有学员用完全一样的训练计划,不管你是初学者还是已经跑完马拉松的老手。

研究团队提出的"在线策略数据进化"(On-policy Data Evolution,简称ODE)机制就是为了解决这个问题。ODE的核心思想是:让数据生成过程本身变成一个会学习的系统,每一轮根据正在训练的AI的真实表现,自动调整下一轮数据的内容和难度。

整个ODE系统运转起来像一个精密的训练营。它由两个循环交替运作:一个是"向前产生数据"的流程,另一个是"向后优化配置"的流程,两者合在一起形成一个不断自我改善的闭环。

向前产生数据的流程分为四个阶段。第一阶段叫"种子提案",系统从11个主题领域(数学、体育、生活、科学、政治、娱乐、商业、艺术、历史、地理、新闻)、4种能力类型(纯感知、感知加搜索、感知加推理、感知加搜索加推理)和4个难度层级(简单、中等、困难、专家)中均衡地挑选一个起始实体,并为它找到一张信息丰富的图片——比如一张地图、一张博物馆标牌、一张技术图纸,而不是普通的装饰性照片。系统会确保这个实体至少有两个独立可靠的信息来源支撑,确保后续任务有据可查。

第二阶段叫"网页探索",系统用那9种工具围绕选定的实体展开调查,收集相关证据,整理成若干个"节点",每个节点记录着一个实体或概念的核心事实、来源链接,以及通过工具得到的图片编号。

第三阶段叫"图谱组织",系统把这些节点连接成一张"多模态证据图"——不同节点之间的关系(来源关系、因果关系、时间关系、跨模态依赖关系)都被标注出来。更关键的是,系统还会主动做两种深化:一种是"推理节点",用代码执行或网页浏览在多个来源之间发现定量关系或一致性校验,比如发现"1948年地图上标注了10个托管领土,而联合国的官方记录是11个,差了一个是因为某个地区的托管协议到1950年才生效";另一种是"感知节点",对已有图片做放大、旋转、翻转和图片识别,挖掘出原始图片中隐含的细节。

第四阶段叫"任务整理",系统在证据图中选取一条推理路径,设计出一道可以验证的问答题。题目设计完成后,系统还会做一轮"反向优化":去掉题目里可能泄露答案的线索,增加需要主动发现的证据环节,让题目对AI来说既不过于简单也不超出可学习范围。

向后优化配置的流程则负责给整个系统"打分"和"改进"。系统把刚生成的题目交给正在训练的AI去实际作答,然后用一套评分维度来分析这道题做得怎样。这套评分维度根据训练阶段不同而有所侧重。在"监督微调"(SFT)阶段,评分关注这道题的解答轨迹是否适合作为示范教材——步骤是否合适、工具用得是否精准、策略是否多样。在"强化学习"(RL)阶段,评分关注这道题是否恰好在AI"跳一跳够得着"的难度区间——太简单的题没有训练价值,太难的题又会产生混乱的学习信号。系统还会把每道题的失败原因归因到数据生成的哪个阶段出了问题,然后针对性地调整那个阶段的配置参数,比如扩大搜索范围、提高图片节点比例、加强推理步骤要求等。

通过这个闭环,每一轮产生的数据都比上一轮更贴合当前AI的学习需求。就像一个好教练会在每次训练后观察学员的状态,然后调整第二天的训练方案,而不是一成不变地执行预定计划。

三、进化的数据长什么样:从简单到专家的自动"升阶"

这套ODE系统实际产生了什么样的数据?研究团队给出了详细的统计数据,从中可以清楚地看到"进化"的痕迹。

ODE一共产生了三套数据集:用于监督微调的SFT示范集,以及分别针对8B参数模型(ODE-8B)和30B参数模型(ODE-30B-A3B)的两套强化学习任务集。

从主题覆盖来看,SFT示范集均匀涵盖了全部11个主题领域,数学占比最高(13.2%),新闻最低(6.8%),其余各领域分布在7%到10.5%之间。两套强化学习任务集同样保持了类似的均衡分布,每个领域的比例变化幅度极小。这说明ODE在根据AI能力定制数据难度的同时,并没有让主题覆盖崩塌——就像一个好的课程体系,不会因为要提高数学难度就彻底放弃历史课。

从难度分布来看,变化就非常戏剧化了。SFT示范集里,简单题占41%,中等题占19%,困难题和专家题合计约29%。然而到了ODE-8B的强化学习集,简单题已经大幅萎缩到33%,困难题和专家题的比例升至约61%。而到了面向更强大30B模型的ODE-30B-A3B集,简单题只剩下不足1%,困难题和专家题合计高达94%!

这个规律背后的逻辑非常直观:一个8B模型还有很多基础能力需要打磨,所以它的训练任务里保留了相当比例的中等题;而30B的模型底子更扎实,简单题对它来说几乎没有训练价值,系统自然而然地把任务集推向了专家难度。ODE通过真实的做题反馈,自动为每个能力水平的AI找到了最适合它的"学习区",而不需要工程师手动设置。

同样值得关注的是推理步骤的分布。ODE-8B的任务集中,70%的题目计划推理步骤在5到6步;而ODE-30B-A3B的任务集里,81%的题目需要9步或更多推理步骤。SFT示范集则平均需要8.47步,这是因为SFT用的是能力更强的GPT-5.2作为示范老师,它自然能完成更深层的推理链条。这再次印证了ODE的"自适应"特性:系统不只调整了题目的表面难度,连解题需要多少步骤、需要多深的推理链,都跟着训练对象的能力水平自动校准了。

四、"进化数据"和"固定食谱数据"的真实差距有多大

光说理论还不够,研究团队做了一个直接的对照实验:把ODE的初始配置固定下来,只运行向前生成数据的那个流程,不做任何向后优化,以此模拟"固定食谱"的做法。然后在相同的数据量下,分别用"进化数据"和"固定食谱数据"训练AI,比较最终效果。

在监督微调阶段,用进化数据训练的AI在大多数测试集上都优于固定食谱,尤其在需要视觉理解和搜索结合的评测上(HLE-VL、VDR、MMSearch+、FVQA)提升明显。但最有说服力的不是最终的测试分数,而是两套数据的内在质量差异。研究团队分析了每个数据样本中AI的解答轨迹,发现进化数据中有近70%的解答轨迹包含中间过程产生的图片(不只是原始题目图片),而固定食谱只有42.5%;进化数据中包含4张或更多中间图片的高密度视觉轨迹占比43%,固定食谱只有10.5%;使用"视觉操作加搜索"混合策略的轨迹,进化数据占近55%,固定食谱只有38%;工具调用序列的多样性,进化数据也远超固定食谱。简而言之,进化数据产生的示范轨迹不仅答对了更多题,更关键的是,这些轨迹展示了更丰富、更真实、更有参考价值的解题方式。就像一本烹饪教材,进化版里有更多种类的菜谱,每道菜的步骤也更详细、更实用。

在强化学习阶段,差距更加明显。从同一个微调后的模型出发,用进化数据继续强化学习的AI在所有测试集上都明显优于用固定食谱数据强化学习的AI。这个结果尤其有说服力,因为它排除了模型初始状态的干扰——两组AI的起点完全相同,唯一的区别就是训练它们所用的RL任务集是否经过进化优化。这说明对于强化学习来说,任务是否恰好卡在AI的"能学到东西"的难度区间,比其他因素都更关键。固定食谱生成的任务,有些AI早就会了(浪费),有些又远超AI的当前能力(混乱),都不是好的训练素材。

五、系统"内部"的变化:ODE到底在调整什么

研究团队还深入分析了ODE在不同训练阶段到底在改变数据的哪些特征。这里有一个非常有趣的发现:ODE对监督微调数据和强化学习数据的优化方向是截然不同的,尽管用的是完全相同的进化机制。

对于监督微调数据,经过5轮进化后,系统主要提升了两类维度的评分:视觉依赖性(即解题是否真的需要看图)和工具使用模式的多样性。更有趣的是,进化后的微调数据虽然用到的工具调用总步数反而少了一些,但每条轨迹里出现的中间图片数量和"以图片为输入的工具调用"数量都大幅增加了。这说明ODE不是靠"做更多步骤"来提升质量,而是靠"让每一步都更有效地处理视觉证据"。就像一个高效的侦探,不是靠跑更多的现场来破案,而是靠每次调查都能从证据里挖出更有价值的信息。

对于强化学习数据,进化后系统主要提升了信息复杂度、能力要求、难度匹配和学习价值这几个维度的评分。行为层面的变化也截然不同:进化后的RL任务让AI在解题时使用了更多的工具调用步骤、获取了更多的中间图片、做了更多"以图片为输入"的操作。这说明ODE在RL模式下把任务推向了更需要主动收集证据的方向,而不是那些一两步就能解决或者根本无从下手的任务。

这种"模式感知的进化"是ODE设计上的一个精妙之处:同样的进化框架,根据当前处于哪个训练阶段(学示范还是自我探索),自动选择不同的优化目标,让数据真正服务于当下的训练需求。

六、最终成绩单:在8项测试中全面超越竞品

研究团队在8个不同的多模态深度搜索测试集上对最终系统进行了全面评测,包括MM-BrowseComp、HLE-VL、BC-VL、VDR(视觉深度研究基准)、MMSearch、MMSearch+、SimpleVQA和FVQA。测试对象既有只靠自身知识回答问题的"直接推理"设置,也有配备搜索工具但没有经过专门训练的"智能体工作流"设置,还有经过ODE完整训练的最终模型。

没有经过ODE训练、仅使用新工作台的8B基础模型平均准确率为24.9%,加上ODE的监督微调后升至36.1%,再经过ODE的强化学习训练后最终达到39.0%,相比初始状态提升了14.1个百分点。30B版本从30.6%出发,经过ODE的两阶段训练后达到41.5%,提升了10.9个百分点。

更具参考价值的横向对比是与Gemini 2.5 Pro的比较。在"智能体工作流"设置下(即同样配备搜索工具),Gemini 2.5 Pro的平均准确率是37.9%,而经过ODE训练的8B模型达到39.0%,以小模型之躯超越了商业顶级大模型。在30B版本上,ODE训练后的模型更是以41.5%明显领先。

从单项测试来看,VDR这个专门测试多轮视觉和文本搜索的数据集上提升最为惊人:8B模型从4.2%跳升到20.4%,涨幅高达16.2个百分点;FVQA(需要外部知识的视觉问答)从44.7%升至64.7%,涨幅20个百分点;MMSearch+从10%升至24.9%,涨幅近15个百分点。这些提升最大的测试集,恰恰都是那些需要多步收集证据、将视觉信息和文本搜索结合起来的复杂任务——也就是ODE核心机制最直接作用的领域。

此外,值得注意的是,即便是在没有经过ODE训练的阶段,单纯替换成研究团队设计的新工作台(图片银行机制),就已经让Qwen3-VL-30B模型的平均准确率从24.8%提升到30.6%。这说明工作台本身的改进独立于训练数据的改进,两者各自贡献了真实的价值,共同构成了最终性能跃升的基础。

说到底,这项研究在做的是一件听起来简单但非常基础的事:让AI在解决复杂问题时,能像人一样把自己在过程中发现的视觉证据保存下来反复利用;同时让AI的训练过程不再是死板地啃固定教材,而是能根据自己当前的学习状态持续获得"刚刚好"的练习题。两件事都不算革命性的发明,但配合在一起,效果却相当突出——让一个参数量只有30亿到80亿的开源模型,在多模态深度搜索这个任务上超越了商业顶级产品。

这对普通人意味着什么?随着这类技术成熟,未来的AI助手将能够处理更复杂的视觉查询任务:你拍一张老照片让它考证历史,它会一步步放大细节、上网核实、交叉比对,最终给你一个有依据的答案;你把一份复杂的产品说明书拍给它,它会识别关键参数、搜索相关资料、比较不同版本,帮你做出真正有价值的判断。这一切的底层,都建立在"让AI真正学会用眼睛积累证据"这个简单但关键的改变上。

如果对完整的技术细节和实验数据感兴趣,可以通过arXiv编号2605.10832找到这篇论文的全文。

Q&A

Q1:图片银行引用协议是什么,它解决了什么问题?

A:图片银行引用协议是一种让AI能够"保存并重复使用中间图片"的机制。传统系统中,AI用工具搜索到的图片用完就消失了,后续步骤无法再用。图片银行则给每张获取的图片分配一个编号,AI在任何后续步骤都可以调出来继续分析,就像侦探可以反复翻看之前收集的照片一样。

Q2:在线策略数据进化(ODE)和普通的数据合成方法有什么本质区别?

A:普通数据合成是用固定配方一次性生产大量训练题目,不管AI当前的学习状态如何。ODE则是一个会"自我修正"的闭环系统:每一轮根据正在训练的AI的实际做题表现,自动调整下一轮生成数据的难度和类型,让每轮数据都恰好针对AI当前最薄弱的地方。这就像一个会观察学员状态的教练,而不是只会按固定计划训练的机器。

Q3:经过ODE训练的小模型为什么能超越Gemini 2.5 Pro这样的商业大模型?

A:ODE训练的8B模型能在多模态深度搜索任务上超越Gemini 2.5 Pro,主要原因是两者的比较场景有特定限定:在配备相同搜索工具的"智能体工作流"设置下,ODE专门针对"如何使用工具收集和整合多模态证据"这一能力进行了深度优化,而Gemini 2.5 Pro并未针对这类工具使用场景做专门的定向训练。规模更大的通用模型不代表在每个具体任务场景下都是最优的,专门优化的方向同样重要。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。