港科大等机构联手打造"进化式"多模态搜索AI

IP属地中国·北京 科技行者 时间：2026-05-20 00:27:02

这项由香港科技大学、香港中文大学、北京大学、清华大学和爱丁堡大学联合完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.10832。感兴趣的读者可通过该编号查阅完整论文。
我们每天都在手机上问问题，有时候甚至直接拍张照片问"这是什么花""这道菜怎么做"。但如果问题变得特别复杂——比如"照片里这幅古地图上的那片区域，在1945年属于哪个国家管辖，当时的托管情况又是怎样的"——现有的AI助手就会开始犯难了。不仅要看懂图，还要去网上查资料，还要把查到的东西和图里的内容结合起来推理，还要不断地一步一步追问下去……这种能力，研究者们称之为"多模态深度搜索"。
打个比方，普通的图像识别AI就像一个只能看菜单点菜的服务员，而"多模态深度搜索"需要的是一个能看懂菜单、能去厨房查食材、能和大厨沟通、还能根据你的饮食禁忌最终给你推荐最合适菜品的全能管家。这种能力的培养，正是这篇论文要解决的核心问题。
研究团队发现，当前的AI系统在这件事上卡在两个关键瓶颈上。第一个瓶颈是：当AI用工具（比如网页搜索、图片查找）获得了一些中间图片证据时，这些图片用完就扔了，后续步骤根本无法再拿这些图片继续分析。第二个瓶颈是：训练AI用的数据是提前做好的"固定配方"，不会根据AI当前的学习状态自动调整难度和内容。
为了解决这两个问题，研究团队设计了两套紧密配合的解决方案，并通过大规模实验证明，这套方案能让基础模型的平均准确率从约25%跳升到39%，甚至超越了谷歌旗下顶级商业AI——Gemini 2.5 Pro的表现。
一、从"用完即弃"到"随时可取"：给AI建一个"图片银行"
要理解第一个瓶颈，可以用一个侦探办案的场景来思考。一个侦探在调查案件时，每到一个现场都会拍照、收集证据，然后把这些证据带回去研究，而且后续发现新线索后，还可以拿出之前的照片重新比对。这是人类做事的自然方式。
然而现有的多数AI搜索系统却像一个每次进入现场都不带相机的侦探——它在某一步用网络搜索到了一张相关图片，看了一眼、提取了文字信息，然后这张图就消失了。等到下一步需要对这张图做进一步分析时，它手头根本没有这张图了。
这套机制被集成进一个统一的"视觉原生智能体框架"，整个框架配备了9种工具：网页搜索、图片搜索、学术文献搜索、网页浏览、谷歌图片识别（类似以图搜图）、图片局部放大、图片旋转、图片翻转和Python代码执行。这9种工具共享同一个图片存储室，形成一个完整的视觉工作台。
在实验验证中，研究团队做了一个"去掉图片复用功能"的对照实验——保留让AI看图的能力，但取消它把中间图片传给后续工具的功能。结果发现，在特别需要多步视觉分析的测试集上，准确率明显下降：MM-BrowseComp（一个专门测试多模态网页浏览能力的数据集）下降了4.9个百分点，HLE-VL（顶级学术难题视觉版）下降了2.9个百分点，MMSearch+下降了3.2个百分点。而且有一个规律非常清晰：一个测试集里AI复用中间图片的次数越多，去掉这个功能后性能下降就越大，两者的关系几乎是线性的。这说明图片复用带来的收益确实来自"让中间证据可以继续被使用"，而不是其他原因。
进一步分析复用图片的用途后发现，被"二次使用"的图片主要是送去做"放大裁剪"和"谷歌图片识别"——这正是对视觉证据进行精细化分析的典型操作。换句话说，图片银行机制让AI具备了对视觉证据"反复打磨、逐步精化"的能力，就像侦探拿着模糊照片不断放大，直到辨认出关键细节一样。
二、不再用"固定食谱"喂AI：让训练数据跟着AI的水平自动进化
解决了"工作台"的问题，下一个核心问题就是：如何让AI在这个工作台上练就真本领？这就涉及训练数据的问题。
现有的训练数据大多是这样生成的：工程师们事先设计好一套"食谱"——从哪里取素材、生成什么类型的问题、验证方式是什么——然后按照这个固定食谱大规模生产数据，最后喂给AI学习。这种方式有个明显的问题：食谱是为"通用AI水平"设计的，它不知道你正在训练的这个AI当前处于什么水平、已经学会了什么、还欠缺什么。就好像一个体育教练给所有学员用完全一样的训练计划，不管你是初学者还是已经跑完马拉松的老手。
研究团队提出的"在线策略数据进化"（On-policy Data Evolution，简称ODE）机制就是为了解决这个问题。ODE的核心思想是：让数据生成过程本身变成一个会学习的系统，每一轮根据正在训练的AI的真实表现，自动调整下一轮数据的内容和难度。
整个ODE系统运转起来像一个精密的训练营。它由两个循环交替运作：一个是"向前产生数据"的流程，另一个是"向后优化配置"的流程，两者合在一起形成一个不断自我改善的闭环。
向前产生数据的流程分为四个阶段。第一阶段叫"种子提案"，系统从11个主题领域（数学、体育、生活、科学、政治、娱乐、商业、艺术、历史、地理、新闻）、4种能力类型（纯感知、感知加搜索、感知加推理、感知加搜索加推理）和4个难度层级（简单、中等、困难、专家）中均衡地挑选一个起始实体，并为它找到一张信息丰富的图片——比如一张地图、一张博物馆标牌、一张技术图纸，而不是普通的装饰性照片。系统会确保这个实体至少有两个独立可靠的信息来源支撑，确保后续任务有据可查。
第二阶段叫"网页探索"，系统用那9种工具围绕选定的实体展开调查，收集相关证据，整理成若干个"节点"，每个节点记录着一个实体或概念的核心事实、来源链接，以及通过工具得到的图片编号。
第三阶段叫"图谱组织"，系统把这些节点连接成一张"多模态证据图"——不同节点之间的关系（来源关系、因果关系、时间关系、跨模态依赖关系）都被标注出来。更关键的是，系统还会主动做两种深化：一种是"推理节点"，用代码执行或网页浏览在多个来源之间发现定量关系或一致性校验，比如发现"1948年地图上标注了10个托管领土，而联合国的官方记录是11个，差了一个是因为某个地区的托管协议到1950年才生效"；另一种是"感知节点"，对已有图片做放大、旋转、翻转和图片识别，挖掘出原始图片中隐含的细节。
第四阶段叫"任务整理"，系统在证据图中选取一条推理路径，设计出一道可以验证的问答题。题目设计完成后，系统还会做一轮"反向优化"：去掉题目里可能泄露答案的线索，增加需要主动发现的证据环节，让题目对AI来说既不过于简单也不超出可学习范围。
向后优化配置的流程则负责给整个系统"打分"和"改进"。系统把刚生成的题目交给正在训练的AI去实际作答，然后用一套评分维度来分析这道题做得怎样。这套评分维度根据训练阶段不同而有所侧重。在"监督微调"（SFT）阶段，评分关注这道题的解答轨迹是否适合作为示范教材——步骤是否合适、工具用得是否精准、策略是否多样。在"强化学习"（RL）阶段，评分关注这道题是否恰好在AI"跳一跳够得着"的难度区间——太简单的题没有训练价值，太难的题又会产生混乱的学习信号。系统还会把每道题的失败原因归因到数据生成的哪个阶段出了问题，然后针对性地调整那个阶段的配置参数，比如扩大搜索范围、提高图片节点比例、加强推理步骤要求等。
通过这个闭环，每一轮产生的数据都比上一轮更贴合当前AI的学习需求。就像一个好教练会在每次训练后观察学员的状态，然后调整第二天的训练方案，而不是一成不变地执行预定计划。
三、进化的数据长什么样：从简单到专家的自动"升阶"
这套ODE系统实际产生了什么样的数据？研究团队给出了详细的统计数据，从中可以清楚地看到"进化"的痕迹。
ODE一共产生了三套数据集：用于监督微调的SFT示范集，以及分别针对8B参数模型（ODE-8B）和30B参数模型（ODE-30B-A3B）的两套强化学习任务集。
从主题覆盖来看，SFT示范集均匀涵盖了全部11个主题领域，数学占比最高（13.2%），新闻最低（6.8%），其余各领域分布在7%到10.5%之间。两套强化学习任务集同样保持了类似的均衡分布，每个领域的比例变化幅度极小。这说明ODE在根据AI能力定制数据难度的同时，并没有让主题覆盖崩塌——就像一个好的课程体系，不会因为要提高数学难度就彻底放弃历史课。
从难度分布来看，变化就非常戏剧化了。SFT示范集里，简单题占41%，中等题占19%，困难题和专家题合计约29%。然而到了ODE-8B的强化学习集，简单题已经大幅萎缩到33%，困难题和专家题的比例升至约61%。而到了面向更强大30B模型的ODE-30B-A3B集，简单题只剩下不足1%，困难题和专家题合计高达94%！
这个规律背后的逻辑非常直观：一个8B模型还有很多基础能力需要打磨，所以它的训练任务里保留了相当比例的中等题；而30B的模型底子更扎实，简单题对它来说几乎没有训练价值，系统自然而然地把任务集推向了专家难度。ODE通过真实的做题反馈，自动为每个能力水平的AI找到了最适合它的"学习区"，而不需要工程师手动设置。
同样值得关注的是推理步骤的分布。ODE-8B的任务集中，70%的题目计划推理步骤在5到6步；而ODE-30B-A3B的任务集里，81%的题目需要9步或更多推理步骤。SFT示范集则平均需要8.47步，这是因为SFT用的是能力更强的GPT-5.2作为示范老师，它自然能完成更深层的推理链条。这再次印证了ODE的"自适应"特性：系统不只调整了题目的表面难度，连解题需要多少步骤、需要多深的推理链，都跟着训练对象的能力水平自动校准了。
四、"进化数据"和"固定食谱数据"的真实差距有多大
光说理论还不够，研究团队做了一个直接的对照实验：把ODE的初始配置固定下来，只运行向前生成数据的那个流程，不做任何向后优化，以此模拟"固定食谱"的做法。然后在相同的数据量下，分别用"进化数据"和"固定食谱数据"训练AI，比较最终效果。
在监督微调阶段，用进化数据训练的AI在大多数测试集上都优于固定食谱，尤其在需要视觉理解和搜索结合的评测上（HLE-VL、VDR、MMSearch+、FVQA）提升明显。但最有说服力的不是最终的测试分数，而是两套数据的内在质量差异。研究团队分析了每个数据样本中AI的解答轨迹，发现进化数据中有近70%的解答轨迹包含中间过程产生的图片（不只是原始题目图片），而固定食谱只有42.5%；进化数据中包含4张或更多中间图片的高密度视觉轨迹占比43%，固定食谱只有10.5%；使用"视觉操作加搜索"混合策略的轨迹，进化数据占近55%，固定食谱只有38%；工具调用序列的多样性，进化数据也远超固定食谱。简而言之，进化数据产生的示范轨迹不仅答对了更多题，更关键的是，这些轨迹展示了更丰富、更真实、更有参考价值的解题方式。就像一本烹饪教材，进化版里有更多种类的菜谱，每道菜的步骤也更详细、更实用。
在强化学习阶段，差距更加明显。从同一个微调后的模型出发，用进化数据继续强化学习的AI在所有测试集上都明显优于用固定食谱数据强化学习的AI。这个结果尤其有说服力，因为它排除了模型初始状态的干扰——两组AI的起点完全相同，唯一的区别就是训练它们所用的RL任务集是否经过进化优化。这说明对于强化学习来说，任务是否恰好卡在AI的"能学到东西"的难度区间，比其他因素都更关键。固定食谱生成的任务，有些AI早就会了（浪费），有些又远超AI的当前能力（混乱），都不是好的训练素材。
五、系统"内部"的变化：ODE到底在调整什么
研究团队还深入分析了ODE在不同训练阶段到底在改变数据的哪些特征。这里有一个非常有趣的发现：ODE对监督微调数据和强化学习数据的优化方向是截然不同的，尽管用的是完全相同的进化机制。
对于监督微调数据，经过5轮进化后，系统主要提升了两类维度的评分：视觉依赖性（即解题是否真的需要看图）和工具使用模式的多样性。更有趣的是，进化后的微调数据虽然用到的工具调用总步数反而少了一些，但每条轨迹里出现的中间图片数量和"以图片为输入的工具调用"数量都大幅增加了。这说明ODE不是靠"做更多步骤"来提升质量，而是靠"让每一步都更有效地处理视觉证据"。就像一个高效的侦探，不是靠跑更多的现场来破案，而是靠每次调查都能从证据里挖出更有价值的信息。
对于强化学习数据，进化后系统主要提升了信息复杂度、能力要求、难度匹配和学习价值这几个维度的评分。行为层面的变化也截然不同：进化后的RL任务让AI在解题时使用了更多的工具调用步骤、获取了更多的中间图片、做了更多"以图片为输入"的操作。这说明ODE在RL模式下把任务推向了更需要主动收集证据的方向，而不是那些一两步就能解决或者根本无从下手的任务。
这种"模式感知的进化"是ODE设计上的一个精妙之处：同样的进化框架，根据当前处于哪个训练阶段（学示范还是自我探索），自动选择不同的优化目标，让数据真正服务于当下的训练需求。
六、最终成绩单：在8项测试中全面超越竞品
研究团队在8个不同的多模态深度搜索测试集上对最终系统进行了全面评测，包括MM-BrowseComp、HLE-VL、BC-VL、VDR（视觉深度研究基准）、MMSearch、MMSearch+、SimpleVQA和FVQA。测试对象既有只靠自身知识回答问题的"直接推理"设置，也有配备搜索工具但没有经过专门训练的"智能体工作流"设置，还有经过ODE完整训练的最终模型。
没有经过ODE训练、仅使用新工作台的8B基础模型平均准确率为24.9%，加上ODE的监督微调后升至36.1%，再经过ODE的强化学习训练后最终达到39.0%，相比初始状态提升了14.1个百分点。30B版本从30.6%出发，经过ODE的两阶段训练后达到41.5%，提升了10.9个百分点。
更具参考价值的横向对比是与Gemini 2.5 Pro的比较。在"智能体工作流"设置下（即同样配备搜索工具），Gemini 2.5 Pro的平均准确率是37.9%，而经过ODE训练的8B模型达到39.0%，以小模型之躯超越了商业顶级大模型。在30B版本上，ODE训练后的模型更是以41.5%明显领先。
从单项测试来看，VDR这个专门测试多轮视觉和文本搜索的数据集上提升最为惊人：8B模型从4.2%跳升到20.4%，涨幅高达16.2个百分点；FVQA（需要外部知识的视觉问答）从44.7%升至64.7%，涨幅20个百分点；MMSearch+从10%升至24.9%，涨幅近15个百分点。这些提升最大的测试集，恰恰都是那些需要多步收集证据、将视觉信息和文本搜索结合起来的复杂任务——也就是ODE核心机制最直接作用的领域。
此外，值得注意的是，即便是在没有经过ODE训练的阶段，单纯替换成研究团队设计的新工作台（图片银行机制），就已经让Qwen3-VL-30B模型的平均准确率从24.8%提升到30.6%。这说明工作台本身的改进独立于训练数据的改进，两者各自贡献了真实的价值，共同构成了最终性能跃升的基础。
说到底，这项研究在做的是一件听起来简单但非常基础的事：让AI在解决复杂问题时，能像人一样把自己在过程中发现的视觉证据保存下来反复利用；同时让AI的训练过程不再是死板地啃固定教材，而是能根据自己当前的学习状态持续获得"刚刚好"的练习题。两件事都不算革命性的发明，但配合在一起，效果却相当突出——让一个参数量只有30亿到80亿的开源模型，在多模态深度搜索这个任务上超越了商业顶级产品。
这对普通人意味着什么？随着这类技术成熟，未来的AI助手将能够处理更复杂的视觉查询任务：你拍一张老照片让它考证历史，它会一步步放大细节、上网核实、交叉比对，最终给你一个有依据的答案；你把一份复杂的产品说明书拍给它，它会识别关键参数、搜索相关资料、比较不同版本，帮你做出真正有价值的判断。这一切的底层，都建立在"让AI真正学会用眼睛积累证据"这个简单但关键的改变上。
如果对完整的技术细节和实验数据感兴趣，可以通过arXiv编号2605.10832找到这篇论文的全文。
Q&A
Q1：图片银行引用协议是什么，它解决了什么问题？
A：图片银行引用协议是一种让AI能够"保存并重复使用中间图片"的机制。传统系统中，AI用工具搜索到的图片用完就消失了，后续步骤无法再用。图片银行则给每张获取的图片分配一个编号，AI在任何后续步骤都可以调出来继续分析，就像侦探可以反复翻看之前收集的照片一样。
Q2：在线策略数据进化（ODE）和普通的数据合成方法有什么本质区别？
A：普通数据合成是用固定配方一次性生产大量训练题目，不管AI当前的学习状态如何。ODE则是一个会"自我修正"的闭环系统：每一轮根据正在训练的AI的实际做题表现，自动调整下一轮生成数据的难度和类型，让每轮数据都恰好针对AI当前最薄弱的地方。这就像一个会观察学员状态的教练，而不是只会按固定计划训练的机器。
Q3：经过ODE训练的小模型为什么能超越Gemini 2.5 Pro这样的商业大模型？
A：ODE训练的8B模型能在多模态深度搜索任务上超越Gemini 2.5 Pro，主要原因是两者的比较场景有特定限定：在配备相同搜索工具的"智能体工作流"设置下，ODE专门针对"如何使用工具收集和整合多模态证据"这一能力进行了深度优化，而Gemini 2.5 Pro并未针对这类工具使用场景做专门的定向训练。规模更大的通用模型不代表在每个具体任务场景下都是最优的，专门优化的方向同样重要。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

东莞腾讯会议凑数医学学术会议充场外籍演员活动人气支持

AI周报 |豆包、千问下线智能体功能；阿里内部全面禁用Claude Code

世界杯来了，电视却卖不动了

韬定律论文更新！项立刚：建议提名华为半导体总裁何庭波为中国双院院士

俄罗斯缺油加剧！民众抢购中国电动车插混车销量已翻倍

鸿蒙智行享界G9尾部实车照片曝光，消息称后备箱是侧开门

全站最新

东莞腾讯会议凑数医学学术会议充场外籍演员活动人气支持

AI周报 |豆包、千问下线智能体功能；阿里内部全面禁用Claude Code

世界杯来了，电视却卖不动了

韬定律论文更新！项立刚：建议提名华为半导体总裁何庭波为中国双院院士

热门推荐

东莞腾讯会议凑数医学学术会议充场外籍演员活动人气支持

AI周报 |豆包、千问下线智能体功能；阿里内部全面禁用Claude Code

今年前 5 个月我国机器人出口近 200 亿元，清洁机器人占七成

世界杯来了，电视却卖不动了

韬定律论文更新！项立刚：建议提名华为半导体总裁何庭波为中国双院院士

俄罗斯缺油加剧！民众抢购中国电动车插混车销量已翻倍

鸿蒙智行享界G9尾部实车照片曝光，消息称后备箱是侧开门

何小鹏：中国智驾领先全球，L2级辅助驾驶将加速出海

今年前5个月中国机器人出口近200亿元，清洁机器人占七成

英国“星际之门”项目被曝为“空头支票”，OpenAI从未实地考察核心选址

PC及内存硬盘价格持续高位：硬盘一天三个价，经销商喊出“非刚需别买”

23岁4年逆袭，奥特曼连人带公司全买了

消息称美国政府与Anthropic尚未商议政府入股该公司一事

智界赵长江称改天将公布入驻的前法拉利首席设计师是谁

宇树的1/2，机器人“祖师爷”彻底卖身