当前位置: 首页 » 资讯 » 科技头条 » 正文

苹果公司首次推出能搜网页的多模态AI

IP属地 中国·北京 科技行者 时间:2025-11-20 22:11:48


这项由约翰斯·霍普金斯大学和苹果公司联合开展的研究发表于2025年1月,论文标题为"DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search"。这项研究的主要作者包括约翰斯·霍普金斯大学的Kartik Narayan和Vishal M. Patel,以及苹果公司的Yang Xu、Tian Cao等多位研究人员。有兴趣深入了解的读者可以通过arXiv:2510.12801查询完整论文。

一、当AI遇到"知识盲区":为什么需要能上网搜索的智能助手

当你拿着一张照片问AI"这是哪里的船赛"时,如果这张照片展示的是今年刚刚举办的印尼廖内省年度Pacu Jalur划船比赛,即便是最先进的AI模型也可能答不上来。这不是因为AI不够聪明,而是因为它们就像一个博学但与世隔绝的学者,只能依靠脑海中已有的知识来回答问题。

现在的多模态大语言模型确实很厉害,它们能够同时理解文字和图片,可以描述图片内容、回答视觉相关的问题。但是当遇到需要最新信息、冷门知识或者特定细节的问题时,它们就像一个没有网络连接的智能手机——功能强大却无法获取实时信息。特别是当涉及到一些罕见的地点、最新发生的事件,或者需要查证具体事实的时候,这些AI就显得力不从心了。

苹果公司和约翰斯·霍普金斯大学的研究团队意识到了这个问题,于是开发出了DeepMMSearch-R1这个突破性的系统。这就像给原本只能在图书馆里查资料的学者配备了一台能连接互联网的电脑,让它不仅能分析眼前的图片,还能主动到网上搜索相关信息来完善答案。

这个系统的特别之处在于,它不是简单地把现有的搜索功能"贴"到AI上,而是让AI学会了如何像人类一样思考搜索策略。当AI看到一张图片并收到问题后,它会先分析需要什么信息,然后决定是搜索图片还是搜索文字,甚至会根据搜索结果调整下一步的搜索策略。这种能力让AI真正具备了解决现实世界复杂问题的潜力。

二、突破传统限制:三种搜索工具的巧妙组合

传统的AI搜索系统就像一个只会按固定程序操作的机器人,要么必须搜索,要么完全不搜索,缺乏灵活性。而DeepMMSearch-R1采用了一种更加智能的方法,它配备了三种不同的"搜索工具",每种工具都有自己的专长。

第一种工具是文字搜索工具。当AI能够识别出图片中的物体,但需要更多事实信息时,它会使用这个工具。比如AI认出了图片中的一只鸟是白鹭,但不知道白鹭的飞行速度,就会搜索"白鹭飞行速度"来获取具体数据。这个工具最厉害的地方在于,AI可以根据第一次搜索的结果来调整第二次搜索的关键词,就像一个经验丰富的研究者会根据初步发现来深入挖掘信息一样。

第二种工具是图片搜索工具,用来识别AI不认识的视觉元素。当AI看到一个陌生的建筑物、不认识的动物或者特殊的标志时,它会把图片传到网上搜索类似的图片,通过比对来确定具体是什么。不过这里有个巧妙的设计:系统会先使用第三种工具。

第三种工具叫做"定位裁剪工具",这是整个系统最创新的部分。在现实生活中,一张照片往往包含很多元素,比如背景中的树木、天空、路人等等,但问题可能只涉及其中的一个小部分。如果直接用整张照片去搜索,这些无关的元素会干扰搜索结果。定位裁剪工具的作用就是让AI先描述它想要搜索的具体区域,比如"飞翔在水面上的白色鸟类",然后系统会自动找到图片中对应的区域并裁剪出来,再用这个裁剪后的小图片去搜索。这就像用放大镜聚焦到关键部分,搜索结果会更加准确。

这三种工具的配合使用让AI具备了类似人类的搜索思维。AI会先评估问题需要什么信息,然后选择最合适的搜索策略,甚至会在搜索过程中根据获得的信息调整策略,这种"自我反思和纠错"的能力是以前的AI系统所不具备的。

三、从零开始训练:教会AI如何像侦探一样搜索

要让AI学会何时搜索、搜索什么、如何搜索,研究团队需要创建一个特殊的"教科书"。他们开发了一个名为DeepMMSearchVQA的训练数据集,这个数据集包含了一万个精心设计的问答对话,每个对话都展示了完整的思考和搜索过程。

这个数据集的创建过程本身就很有趣。研究团队首先从InfoSeek数据集中选择了20万个图片问答样本,然后让先进的AI模型Gemini-2.5-Pro来"表演"整个搜索过程。Gemini会分析每个问题,决定需要什么信息,选择使用哪种搜索工具,然后根据搜索结果继续思考或进行下一步搜索,最终给出答案。这个过程被完整记录下来,形成了详细的"思考轨迹"。

为了确保数据质量,研究团队只保留了那些Gemini最终答对的案例,这样就得到了约4.7万个高质量的对话样本。然后他们从中精选出1万个样本,确保这些样本覆盖了各种不同类型的知识领域,并且在需要搜索和不需要搜索的问题之间保持平衡。

训练过程分为两个阶段,就像培养一个学徒侦探一样。第一阶段是"监督学习",AI通过观察这1万个案例来学习基本的搜索技巧。系统会学会识别什么时候需要搜索,应该使用哪种搜索工具,如何根据搜索结果调整策略等等。这个阶段使用的基础模型是Qwen2.5-VL-7B,研究团队对它进行了精细调整,就像给一个聪明的学生提供了大量的练习题。

第二阶段采用了一种叫做GRPO的强化学习方法,这就像让AI在实际环境中练习并通过试错来改进。在这个阶段,AI会生成多个候选答案,然后通过一个评分系统来判断哪个答案更好。评分标准包括答案的准确性和搜索过程的效率性。通过不断的练习和反馈,AI逐渐学会了更加高效和准确的搜索策略。

这种两阶段训练方法的效果非常显著。经过训练的AI不仅学会了何时需要搜索,还学会了如何根据问题的特点选择最合适的搜索策略,甚至能够在搜索过程中发现之前的策略不当并及时调整。这种自我纠错能力让AI的表现更加接近人类专家的水平。

四、实战表现:远超传统方法的智能搜索

为了验证DeepMMSearch-R1的实际效果,研究团队设计了全面的对比实验。他们选择了六个不同的数据集进行测试,这些数据集涵盖了从基础视觉问答到需要复杂推理的知识密集型问题。测试结果让人印象深刻:在平均性能上,DeepMMSearch-R1达到了57.13分,显著超过了之前最好的开源基线模型MMSearch-R1的50.56分。

更令人惊喜的是,在某些特定的数据集上,DeepMMSearch-R1的表现甚至可以与OpenAI的GPT-o3模型相媲美。比如在InfoSeek数据集上,DeepMMSearch-R1得到了47.51分,而GPT-o3是48.22分,差距微乎其微。要知道GPT-o3是目前最先进的商业AI模型之一,能够达到如此接近的性能说明了这个系统的技术水平。

研究团队还进行了更细致的分析,发现了一些有趣的现象。首先,关于裁剪图片搜索的效果,数据显示这个功能平均能够提升1.75分的性能。虽然数字看起来不大,但在AI评测中这已经是相当显著的改进了。特别是对于那些需要识别图片中特定物体的问题,裁剪搜索的效果更加明显。

其次,AI的自我反思和纠错能力也带来了明显的性能提升。在一些复杂的问题中,AI能够根据第一次搜索的结果判断信息是否充分,如果不够就会调整搜索词进行第二次或第三次搜索。这种多轮搜索的策略让AI能够处理那些需要多步推理的复杂问题。

特别值得一提的是,在强化学习训练后,AI的搜索行为变得更加智能和高效。虽然AI进行裁剪搜索的频率有所下降,但这实际上是一种进步,因为AI学会了更准确地判断什么时候真正需要使用这个功能。同时,AI进行多轮文字搜索的频率有所增加,说明它学会了通过更深入的信息收集来解决问题。

五、技术突破背后的深层创新

DeepMMSearch-R1的成功不仅仅体现在性能数字上,更重要的是它代表了AI系统设计理念的重大转变。传统的AI系统往往采用固定的处理流程,要么完全依赖内部知识,要么机械地执行预设的搜索步骤。而DeepMMSearch-R1实现了真正的动态决策能力。

这种动态性首先体现在搜索时机的判断上。AI会根据问题的复杂程度和自己的知识储备来决定是否需要搜索。对于简单的问题,如识别常见物体或回答基础知识,AI会直接给出答案而不进行不必要的搜索。而对于复杂问题,AI会主动寻求外部信息的帮助。这种判断能力让系统既保持了效率,又确保了准确性。

其次,系统在搜索策略的选择上展现了类似人类的思维模式。当AI看到一张图片时,它不会盲目地使用所有可用的搜索工具,而是会分析问题的具体需求。如果问题涉及图片中的特定区域,AI会使用裁剪搜索;如果需要事实性信息,AI会进行文字搜索;如果需要识别整体场景,AI会使用完整图片搜索。这种策略性思维是以前的AI系统难以达到的。

更重要的是,系统具备了自我监控和调整的能力。在搜索过程中,AI会持续评估获得的信息是否足够回答原始问题。如果发现信息不足或者搜索方向有误,AI会调整搜索策略。这种"元认知"能力让AI能够处理那些需要多步推理和信息整合的复杂问题。

从技术架构的角度来看,DeepMMSearch-R1还解决了一个重要的工程问题:如何在保持AI原有能力的同时,增加新的搜索功能。研究团队采用了巧妙的参数更新策略,只对模型的语言理解部分进行微调,而保持视觉理解部分不变。这样既避免了破坏原有的视觉能力,又成功地增加了搜索和推理能力。

六、实际应用中的表现分析

在实际测试中,DeepMMSearch-R1展现出了令人印象深刻的问题解决能力。研究团队提供了一个典型的案例来说明系统的工作过程。当用户询问"图片中鸟类的最高记录飞行速度是多少"时,AI首先分析了图片,识别出这是一只在水面上飞翔的白色鸟类。

接下来,AI的思考过程展现了高度的策略性。它首先使用裁剪搜索工具,专门搜索"飞翔在水面上的白色鸟类",而不是使用整张可能包含背景干扰的图片。通过这次搜索,AI确定这是一只白鹭,并且了解到这种鸟类生活在南卡罗来纳州的猎岛州立公园等地。

但是AI并没有满足于这个初步结果,而是继续进行文字搜索来获取更具体的速度信息。第一次文字搜索"白鹭速度"得到了一些基本信息,但AI发现这些信息主要是关于平均巡航速度的,并不是问题所要求的最高记录速度。于是AI展现了自我纠错能力,调整搜索词为"白鹭最高记录飞行速度",最终找到了准确答案:32英里每小时。

这个案例展示了DeepMMSearch-R1的几个关键优势。首先是精准的视觉分析能力,AI能够准确识别出图片中的关键元素并描述相关特征。其次是策略性的搜索能力,AI知道什么时候使用哪种搜索工具,并且能够根据搜索结果调整策略。最重要的是自我监控能力,AI能够判断获得的信息是否充分回答了原始问题,如果不够就会继续深入搜索。

在更广泛的测试中,研究团队发现DeepMMSearch-R1在处理不同类型问题时表现出了不同的搜索模式。对于需要识别罕见物体或地标的问题,系统更多地依赖图片搜索;对于需要具体事实或数据的问题,系统更倾向于使用文字搜索;对于复杂的多步推理问题,系统会结合使用多种搜索工具。

这种适应性让DeepMMSearch-R1在处理现实世界的复杂问题时表现出色。无论是识别历史建筑、查询动物习性、了解地理信息,还是验证事实数据,系统都能够选择合适的策略并给出准确的答案。

七、与现有方法的对比优势

为了更好地理解DeepMMSearch-R1的突破性,需要将它与现有的其他方法进行对比。目前主流的AI信息获取方法主要分为三类,每类都有其固有的局限性。

第一类是传统的RAG方法,这类方法就像让AI只能在一个固定的图书馆里查阅资料。虽然这个图书馆可能很大,但它的内容是静态的,无法获取最新信息。更重要的是,这种方法往往会为每个问题都进行信息检索,不管是否真的需要,这就像一个学生不管题目难易都要翻遍所有参考书一样,既浪费时间又可能引入无关信息。

第二类是提示词驱动的搜索代理方法,这类方法就像给一个普通的AI助手临时教会使用搜索工具。虽然这种方法比较灵活,但由于AI本身没有经过专门的搜索训练,往往不知道如何有效地利用搜索结果,就像一个从未学过研究方法的人突然被要求做学术研究一样,虽然有了工具但不知道如何正确使用。

第三类是之前的搜索增强型AI模型,这类方法在某些方面已经比较先进,但仍然存在明显的局限性。最重要的问题是它们通常只能进行一次搜索,没有自我纠错和策略调整的能力。而且在图片搜索方面,它们往往使用整张图片,容易受到背景噪声的干扰。

相比之下,DeepMMSearch-R1在多个方面实现了突破。首先,它具备了真正的动态决策能力,能够根据问题的具体情况决定是否需要搜索,以及使用哪种搜索策略。这种能力让系统既保持了效率,又确保了准确性。

其次,系统的多轮搜索能力让它能够处理复杂的多步推理问题。AI可以根据第一次搜索的结果来调整第二次搜索的策略,这种迭代优化的过程更接近人类专家的工作方式。

最重要的是,DeepMMSearch-R1的裁剪搜索功能解决了一个长期存在的技术难题。在现实应用中,用户的问题往往只涉及图片中的一部分内容,而背景中的无关元素会严重干扰搜索结果。通过智能裁剪功能,系统能够专注于相关区域,大大提高了搜索的准确性。

实验数据清楚地展现了这些优势。在与其他方法的对比中,DeepMMSearch-R1在RAG工作流程上平均提升了21.13分,在提示词驱动的搜索代理方法上提升了8.89分。这种显著的性能提升说明了系统设计理念的先进性。

八、技术实现的工程复杂性

DeepMMSearch-R1的成功不仅在于算法创新,更在于复杂工程问题的巧妙解决。整个系统的实现涉及多个技术层面的挑战,每个挑战都需要精心设计的解决方案。

在数据处理层面,系统需要处理三种不同类型的搜索工具返回的异构数据。文字搜索返回的是网页文本信息,图片搜索返回的是图片描述和元数据,而裁剪工具返回的是坐标和图片片段。系统必须将这些不同格式的信息统一整合到AI的推理过程中,这就像让一个翻译官同时处理文字、图片和手势三种不同的信息载体。

为了解决这个问题,研究团队设计了一套统一的信息表示格式。所有搜索结果都会被转换成结构化的文本描述,然后通过特殊的标记符号嵌入到AI的推理过程中。这样AI就能够在一个统一的框架内处理所有类型的信息。

在模型训练层面,研究团队面临的挑战是如何在不破坏原有能力的基础上增加新功能。他们采用了一种叫做LoRA的参数高效微调技术,这种技术只更新模型中的一小部分参数,就像在一个复杂的机器上只替换几个关键部件而不影响整体功能。

具体来说,系统保持了视觉编码器和视觉投影层的参数不变,只对语言模型部分进行微调。这样既保证了系统原有的视觉理解能力不会退化,又成功地增加了搜索和推理能力。这种精确控制的训练方法是整个系统成功的关键因素之一。

在推理效率方面,系统需要在保证性能的同时控制计算成本。由于每次搜索都需要调用外部API,系统必须智能地平衡搜索次数和答案质量。研究团队设计了一套约束机制,限制每次推理过程中的最大搜索次数,并且通过强化学习训练AI学会在有限的搜索机会内获得最佳结果。

质量控制是另一个重要的工程挑战。由于系统依赖于实时的网络搜索,搜索结果的质量可能会有很大差异。为了应对这个问题,系统集成了一个基于GPT的信息摘要模块,这个模块会自动筛选和总结搜索结果,确保AI获得的信息既相关又简洁。

九、性能评估的多维度分析

DeepMMSearch-R1的性能评估采用了多个维度的综合分析方法,这种全面的评估方式让我们能够深入理解系统的优势和特点。研究团队选择了六个不同特性的数据集,每个数据集都代表了现实应用中的不同挑战类型。

在InfoSeek数据集上,这个数据集专门测试AI处理知识密集型视觉问题的能力,DeepMMSearch-R1取得了47.51分的成绩。这个分数特别有意义,因为InfoSeek包含了大量需要外部知识才能回答的问题,比如识别特定的历史建筑、了解某个物种的生物学特征等等。系统在这个数据集上的优异表现说明了其搜索和知识整合能力的强大。

在SimpleVQA和DynVQA这两个较新的数据集上,系统的表现尤其突出,分别达到了55.87分和45.87分。这两个数据集包含了更多需要实时信息和动态知识的问题,这正是DeepMMSearch-R1的强项所在。系统能够通过网络搜索获取最新信息,而不是依赖于训练时的静态知识。

有趣的是,在OKVQA和A-OKVQA这两个传统数据集上,系统的表现相对平稳,分别为67.80分和73.45分。这两个数据集中很多问题实际上不需要外部搜索就能回答,过度的搜索反而可能引入噪声。这个现象说明了系统智能搜索决策的重要性,也验证了训练过程中搜索平衡策略的有效性。

研究团队还进行了详细的工具使用分析,发现了一些有价值的使用模式。在需要更多外部知识的数据集如DynVQA上,系统使用搜索工具的频率达到了87.7%,而在相对简单的OKVQA上,使用频率仅为43.5%。这种自适应的行为模式说明系统真正学会了判断何时需要外部帮助。

更深入的分析显示,经过强化学习训练后,系统的搜索行为变得更加高效和精准。虽然裁剪搜索的使用频率有所下降,但这实际上是一种进步,因为AI学会了更准确地判断什么时候真正需要这个功能。同时,多轮文字搜索的频率有所增加,说明系统学会了通过深入的信息挖掘来解决复杂问题。

十、实际应用前景和局限性分析

DeepMMSearch-R1代表了AI技术发展的一个重要里程碑,它的成功为多个实际应用领域开辟了新的可能性。在教育领域,这种技术可以成为强大的学习助手,学生可以拍摄教科书中的图片或现实中的物体,然后提出问题,AI会自动搜索相关信息并提供详细解答。这种互动式学习方式比传统的文字搜索更直观更高效。

在旅游和文化探索方面,DeepMMSearch-R1可以成为理想的导游助手。游客只需要拍摄看到的建筑、艺术品或自然景观,AI就能够识别具体位置并提供相关的历史背景、文化意义和实用信息。这种即时的信息获取能力可以大大丰富旅游体验。

在专业工作场景中,这种技术也有广阔的应用前景。医生可以使用它来辅助诊断,通过拍摄症状图片并结合最新的医学研究信息;研究人员可以用它来快速查证实验结果或文献资料;记者可以用它来验证新闻图片的真实性和背景信息。

然而,这项技术也面临一些重要的局限性和挑战。首先是对网络连接的依赖性,系统必须能够实时访问搜索引擎才能发挥作用,这在网络不稳定或离线环境下会成为问题。其次是信息质量的不可控性,由于系统依赖于网络搜索结果,可能会遇到错误信息或偏见内容,这需要更强的信息验证机制。

计算资源的消耗也是一个现实考虑。每次搜索都需要调用多个外部服务,包括搜索引擎、图片识别API和文本摘要服务,这会带来一定的延迟和成本。在大规模部署时,需要仔细平衡性能和资源消耗。

另一个值得关注的问题是隐私保护。用户上传的图片可能包含敏感信息,系统需要确保这些信息在搜索过程中得到妥善保护。这需要在技术实现中加入严格的隐私保护机制。

尽管存在这些挑战,研究团队的工作为解决这些问题指明了方向。他们在论文中提到了多个改进方向,包括优化搜索策略以减少不必要的外部调用、加强信息验证机制、以及探索更高效的模型架构。

说到底,DeepMMSearch-R1的意义不仅仅在于它解决了一个技术问题,更在于它展示了AI系统设计的新思路。通过将动态搜索能力与多模态理解相结合,这项研究开辟了AI助手发展的新方向。未来的AI系统将不再是封闭的知识处理器,而是能够主动获取和整合信息的智能代理。

这种转变对于AI技术的普及和实用化具有重要意义。当AI能够像人类一样主动搜索和学习新信息时,它们在处理现实世界问题时的能力将得到质的提升。这不仅会改变我们与AI交互的方式,也会推动整个人工智能产业向更实用、更智能的方向发展。对于普通用户来说,这意味着将来会有更强大、更便捷的AI助手来帮助解决日常生活和工作中的各种问题。有兴趣深入了解这项技术细节的读者,可以通过论文编号arXiv:2510.12801查阅完整的技术报告。

Q&A

Q1:DeepMMSearch-R1是什么?它与普通AI有什么不同?

A:DeepMMSearch-R1是由苹果公司和约翰斯·霍普金斯大学联合开发的多模态AI系统,它最大的特点是能够像人类一样主动上网搜索信息。与普通AI只能依靠训练时的知识不同,DeepMMSearch-R1可以看图片、理解问题,然后自主决定是否需要搜索,选择合适的搜索工具,甚至根据搜索结果调整策略。这让它能够回答那些需要最新信息或专门知识的复杂问题。

Q2:DeepMMSearch-R1的裁剪搜索功能是如何工作的?

A:裁剪搜索功能是这个系统最创新的部分。当AI看到一张包含多个元素的图片时,它会先描述想要搜索的具体区域,比如"飞翔在水面上的白色鸟类",然后系统会自动定位并裁剪出图片中对应的区域,再用这个裁剪后的小图片去搜索。这样可以避免背景噪声的干扰,让搜索结果更加准确。就像用放大镜聚焦到关键部分一样,大大提高了识别的精确度。

Q3:这个技术什么时候能普及到日常应用中?

A:虽然DeepMMSearch-R1在研究测试中表现出色,但要普及到日常应用还需要解决一些实际问题。主要挑战包括网络依赖性、计算成本控制、信息质量验证和隐私保护等。目前这项技术更多用于研究和专业场景,但随着技术的不断优化和基础设施的完善,预计在未来几年内会逐步应用到教育助手、旅游导览、专业咨询等领域。普通用户可能会首先在一些特定的应用场景中体验到这种技术。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新