DeepDiver-V2来了，华为开源原生多智能体系统，“团战”深度研究

IP属地中国·北京 量子位 时间：2025-09-12 14:09:38

允中发自凹非寺
量子位 | 公众号 QbitAI
让智能体组团搞深度研究，效果爆表！
华为最新发布DeepDiver-V2原生多智能体系统
采用了“团队作战”模式：一个Planner负责任务分解，任务分发，进度审视和成果验收，多个专业Executor并行处理子任务，通过共享文件系统高效交换信息。

与仅通过推理框架实现的多智能体系统不同，DeepDiver-V2以多智能体形态进行训练，模型天然具备更强的角色扮演和协同推理能力。这套系统不仅在复杂知识问答任务上取得突破，更是能够生成数万字的高质量深度研究报告，在多个榜单中表现亮眼。
它基于华为openPangu Agent推出的DeepDiver-V2，这是一个专攻AI深度搜索和长文调研报告生成的模型。目前已开源
开源模型地址：https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver技术报告地址：https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver/blob/main/docs/openpangu-deepdiver-v2-tech-report.pdf
性能爆表：优于同规格竞品
数字最有说服力。DeepDiver-V2-7B和DeepDiver-V2-38B和在多个权威基准测试中表现亮眼：
BrowseComp-zh：DeepDiver-V2-38B达到34.6分，超越WebSailor-72B（30.1分）和WebSailor-32B（25.5分）；DeepDiver-V2-7B同样超过了WebSailor和MiroThinker同规格模型。BrowseComp-en：DeepDiver-V2-38B达到13.4分，同规模开源模型中最高, 也超过了WebSailor-72B。
在长文报告生成方面，DeepDiver-V2提出了一个全新的面向深度调研报告生成的基准测试WebPuzzle-Writing，该基准给每个调研query设置了详细的调研范围而非开放生成，可以更加方便多个模型之间的横评。
在该测试中，DeepDiver-V2生成的报告平均长度达24.6K tokens，是OpenAI o3 DeepResearch（10.6K）的两倍多。自动评测结果也显示DeepDiverV2效果与主流agent产品相当, 在信息度上格外亮眼，Content Diversity指标优于其他模型。

架构创新：从单兵作战到团队协作
团队之前的研究成果DeepDiver-V1就像一个全能选手，需要在一个超长的上下文窗口中处理所有任务，结果往往因为负担过重而表现不佳。DeepDiver-V2改变了这一模式。它采用以Planner（规划器）为中心, 协调多个Executor（执行器）的MAS（Multi-Agent System，多智能体系统）架构。
智能任务分解
Planner接到复杂查询后，会进行自适应复杂度评估。简单问题直接处理，复杂问题则构建一个”任务树”，将大任务层层分解为可并行/串行/嵌套执行的子任务。
Planner甚至会采用”竞争赛马”机制——让多个 Executor同时处理相似任务，通过交叉验证提高结果可靠性。

文件系统通信
不同于DeepDiver-V1使用单个上下文窗口处理多个任务，智能体之间各自执行任务, 并通过共享文件系统交换信息：
交换的信息 = {当前任务摘要, 任务执行过程产生的中间物料的元数据}
每个智能体只需传递精炼的任务摘要和文件元数据，而非完整上下文。详细内容存储在共享文件中，其他智能体按需读取。这种设计带来三大优势：
1、可扩展通信：消息大小保持可控，不受任务复杂度影响。
2、持久化状态：历史信息得以完整保存，LLM Agents无需维护完整对话历史。
3、并行执行：独立子任务可同时处理，避免上下文冲突。
专业化分工
系统包含两类核心Executor：
1、Information Seeker（信息搜集助手）：负责证据收集, 验证, 去噪等。Information Seeker可以网罗相关信息, 筛选特定信息源, 深度分析并提取关键事实和数据, 迭代式的完善收集到的信息以解决Planner分发的任务。
2、Writer（写作助手）：负责长文本生成, writer可以构建章节大纲, 并分配资料到各个章节. Writer使用逐章节写作的方式, 并能够迭代式的完善行文, 能够保持全局的连贯性。
MAS（多智能体系统）训练
训练多智能体系统面临独特挑战：当最终任务失败时，如何判断是哪个智能体的责任？当最终任务成功时, 如何判断是哪个智能体做出了贡献? DeepDiver-V2提出了Planner-centric（以规划器为中心的）的分配机制。

训练流程采用多阶段优化：
1、冷启动监督微调
首先让模型学会基本的多角色协作、工具调用和文件系统操作，奠定多智能体能力基础。
2、拒绝采样微调（RFT）
Trajectory-wise（按轨迹粒度的）过滤：从planner的视角出发, 保留得出正确答案的执行路径。Step-wise（按步骤粒度的）评分：使用LLM评判每个planner中间步骤的质量（1-10分）。Credit Broadcasting（信用传播）：planner的评分通过任务分配和协调关系传播到executor轨迹上，这种从粗到细的过滤确保只有高质量的推理步骤用于训练。
3、在线RFT
在离线RFT的基础上, DeepDiver使用相同的credit assignment策略,进一步进行在线RFT训练, 结合partial rollout（部分轨迹采样）和dynamic rollout-buffered batching（动态轨迹缓存批处理）策略, DeepDiver-V2的在线训练得以高效且稳定的进行。
训练数据上, DeepDiver-V2继续沿用了DeepDiver-V1的训练数据WebPuzzle, 然而在WebPuzzle的基础上, DeepDiver-V2进一步增加了更多有挑战性, 验证性更强的数据, 同时加入了原本WebPuzzle没有的长文写作数据. 经过了这些数据的训练, DeepDiver-V2表现出了更强大的性能。
技术支撑：纯血昇腾NPU集群加速
DeepDiver-V2的训练完全使用Atlas 800I A2集群进行, 依托于1000+ NPU组成的大规模计算集群。每个节点包含8个 NPU，这些NPU通过华为高速缓存一致性系统（HCCS）以全互联拓扑相连，每个NPU配备64GB内存。用于跨节点通信时，集群采用基于以太网的RDMA，通过200 Gbps链路为跨节点的NPU提供高带宽连接。团队开发了专门的强化学习框架，包括：
Agent Factory：算法优先的代码库，简化多智能体开发。StaleSync：staleness-aware的梯度的同步调度机制，提升30%设备利用率。分布式训练：支持在线和离线的SFT、RFT和RL训练。
实验分析
研究团队进行了系统性的消融实验和深度分析，揭示了多智能体协作背后的几个关键机制和意外发现。
Executor能力是性能瓶颈，Planner”够用就好”
团队通过”角色互换”实验发现了一个有趣现象：系统性能对Executor能力极其敏感，但对Planner要求相对宽松。
具体数据显示：

将7B Executor升级为38B，BrowseComp-zh分数猛增9分（18.3→27.3）。将7B Planner升级为38B，仅提升6.3分（18.3→24.6）。在长文本写作任务中，升级Writer涉及的模块带来的提升（5.51→5.80）远超升级Planner（5.51→5.56）

这个发现颠覆了以往的认知——一般大家会以为”大脑”（Planner）最重要，但实际上”手脚”（Executor）的能力才是关键。研究团队分析，这是因为Planner的任务相对标准化（分解问题、分配任务），而 Executor需要处理各种复杂的实际场景。一个中等能力的7B Planner已经能胜任大部分协调工作。
单体能力的意外涌现：团队训练造就全能选手
最令人惊讶的发现是：为团队协作训练的, 服务于Planner的子智能体，单独使用时竟然也是高手
当研究团队将Information Seeker从系统中剥离出来单独测试时：

38B Information Seeker在BrowseComp-zh上得分26.3，Single Agent（ReACT）模式同样超越了WebSailor-32B（25.5分）。7B Information Seeker得分15.9，超过完整的WebSailor-7B系统（14.2分）。在相对简单的Xbench-DeepSearch上，38B Information Seeker单枪匹马就达到52.0分，几乎等同于完整系统（53.0分）。
这种现象说明，多智能体训练不仅提升了协作能力，还让每个子智能体在处理扩展任务集时变得更加鲁棒。就像优秀的团队成员，既能配合默契，又能独当一面。
展望：AI搜索的新范式
DeepDiver-V2相对DeepDiver-V1, 从单一模型的”独角戏”到多智能体的”交响乐”，这种转变为解决更复杂的现实问题开辟了道路。未来, DeepDiver将在企业调研、科学文献综述、专业数据分析等专业领域发挥巨大作用。

[1] Shi, Wenxuan, et al. “Pangu deepdiver: Adaptive search intensity scaling via open-web reinforcement learning.” arXiv preprint arXiv:2505.24332 (2025).
[2] Li, Kuan, et al. “WebSailor: Navigating Super-human Reasoning for Web Agent.” arXiv preprint arXiv:2507.02592 (2025).
[3] Li, Xiaoxi, et al. “Webthinker: Empowering large reasoning models with deep research capability.” arXiv preprint arXiv:2504.21776 (2025).

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

地平线斩获日本TOP OEM主流车型平台订单

MiniMax M2开源登顶，高智能低成本，中国AI普惠升级

科学家领奖台告白妻子火出圈，网友直呼：太好嗑！

向仄秒进军！超快激光“与时间赛跑”，重塑量子、生物等战略领域发展格局

年轻人想尝试直播带货却不知如何选品和吆喝？他们把创业技能培训送进社区

一加 Ace6 手机支持同档唯一 165 超高帧游戏

全站最新

地平线斩获日本TOP OEM主流车型平台订单

MiniMax M2开源登顶，高智能低成本，中国AI普惠升级

科学家领奖台告白妻子火出圈，网友直呼：太好嗑！

向仄秒进军！超快激光“与时间赛跑”，重塑量子、生物等战略领域发展格局

热门推荐

齐鲁银行增资获批，因可转债转股新增股本所致

地平线斩获日本TOP OEM主流车型平台订单

MiniMax M2开源登顶，高智能低成本，中国AI普惠升级

科学家领奖台告白妻子火出圈，网友直呼：太好嗑！

向仄秒进军！超快激光“与时间赛跑”，重塑量子、生物等战略领域发展格局

三季度手机业观察：换机潮下全球回暖中国市场竞逐AI

谁说科研人不懂浪漫？57岁科学家领奖台深情告白

年轻人想尝试直播带货却不知如何选品和吆喝？他们把创业技能培训送进社区

一加 Ace6 手机支持同档唯一 165 超高帧游戏

X平台“Twitter.com”域名11月退役，硬件安全密钥用户需重设

OPPO Pad5 柔光版体验：好看的屏幕是基本，更轻更薄更合理的基础款

2025外滩年会聚焦人工智能：金融创新与风险治理并行

科技巨头财报将至，AI投资回报仍是未知数

一加15手机发布，“冰河散热系统”有两大行业首发

中美AI炒股阶段战果出炉：DeepSeek稳健致胜，Gemini高频交易失效