当前位置: 首页 » 资讯 » 科技头条 » 正文

阿里开源创新AI Agent:媲美Deep Research,Github每日增长第一

IP属地 中国·北京 编辑:刘敏 AIGC开放社区 时间:2025-07-26 10:04:09

人类在信息检索过程中受到认知能力的限制,例如,有限的记忆、易分散的注意力以及无法同时探索多条路径。随着互联网的普及,信息量呈爆炸式增长,人类在海量信息中寻找答案的能力逐渐显得力不从心。

虽然OpenAI发布的Deep Research等产品可以有效解决这个难题,不过是闭源的不利于该技术发展。

所以,阿里巴巴的通义实验室开源了创新AI Agent框架WebSailor。根据测试数据显示,WebSailor在多个基准测试中表现非常出色。例如,在BrowseComp-en/zh测试中,WebSailor性能显著优于所有开源智能体,可媲美专属闭源模型。

除了在复杂任务上的卓越表现,WebSailor在简单任务上也表现出色。例如,在SimpleQA基准测试中,WebSailor的性能超过了所有其他方法。

开源地址:https://github.com/Alibaba-NLP/WebAgent

WebSailor的核心技术主要围绕复杂任务生成和强化学习模块展开,这两个模块相互配合,共同推动了开源智能体在复杂信息检索任务中的性能提升。

复杂任务生成是WebSailor技术体系中的关键一环。研究团队通过构建复杂的知识图谱来模拟真实世界中的信息环境。这些知识图谱并非简单的线性结构,而是通过随机游走的方式生成,具有高度的非线性和复杂性。

这种复杂性体现在图谱中节点和边的多样化组合上,每个节点代表一个实体,而边则代表实体之间的关系。这种结构为生成高不确定性的任务提供了基础,因为模型需要在这些复杂的图谱中探索和推理,才能找到问题的答案。

为了进一步增加任务的难度,研究团队采用了子图采样和信息模糊化技术。子图采样是从知识图谱中提取具有不同拓扑结构的子图,每个子图都代表了一组独特的实体和关系组合。基于这些子图,研究团队构建了问答对。

但仅仅这样还不够。为了增加任务的初始不确定性,团队还引入了信息模糊化技术。例如,将精确的日期替换为模糊的时间段,将具体的名字替换为部分隐藏的描述,或者将定量的属性描述为定性的特征。这种模糊化处理使得问题变得更加复杂,模型不能简单地通过查找来解决问题,而是需要进行复杂的推理和信息合成。

强化学习模块则是WebSailor技术体系中的另一个关键部分。强化学习的目标是通过与环境的交互来优化模型的行为策略,使其能够在复杂任务中找到最优的解决方案。WebSailor采用了两阶段的训练方法:首先是基于拒绝采样的微调(RFT)冷启动阶段,然后是强化学习(RL)阶段。

在RFT冷启动阶段,研究团队通过筛选高质量的轨迹,为模型提供了基本的工具使用能力和推理框架。这个阶段的目的是让模型在复杂的任务环境中能够稳定地进行推理和工具调用。通过拒绝采样,团队只保留那些最终答案正确的轨迹,从而确保了监督信号的质量。

同时,为了适应模型的能力,团队还对轨迹的长度进行了限制,只保留那些长度适中的轨迹。此外,为了确保任务的复杂性,团队还筛选出了那些需要多个工具调用的轨迹,因为这些轨迹通常涉及到更复杂的推理和决策过程。

在强化学习阶段,WebSailor采用了动态采样策略优化训练过程。这个阶段的目标是进一步提升模型的推理能力和样本效率。研究团队提出了DUPO算法,该算法通过在训练前后进行动态采样,提高了训练的效率和效果。

DUPO算法的核心思想是在训练过程中动态调整采样策略,使得模型能够更有效地探索和利用环境中的信息。通过这种方式,DUPO算法不仅提高了模型的推理能力,还显著提升了样本效率,使得模型能够在更少的样本上达到更好的性能。

在强化学习过程中,WebSailor还采用了基于规则的奖励机制。这种奖励机制结合了格式验证和答案验证,确保了模型生成的轨迹既符合要求又准确。格式验证主要检查模型生成的轨迹是否符合预定义的格式,例如是否正确地使用了工具调用和答案标签。

答案验证则使用另一个语言模型作为评估器,来判断模型生成的答案是否正确。通过这种奖励机制,WebSailor能够有效地引导模型在复杂的任务环境中进行优化从而提高其性能。

目前,WebSailor在Github已经超过5000颗星,并且还拿下过每日增长趋势第一名的好成绩。

本文素材来源阿里巴巴,如有侵权请联系删除

END

标签: 模型 任务 信息 团队 技术 能力 轨迹 答案 子图 阶段 开源 过程 模糊化 环境 成绩 图谱 算法 复杂性 机制 冷启动 效率 信息检索 人类 互联网 实体 无法 策略 属性 闭源 代表 普及

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。