华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

IP属地中国·北京 量子位 时间：2026-02-10 16:16:51

允中发自凹非寺
量子位 | 公众号 QbitAI
大模型通往现实世界的“最后三公里”，Agent已然成为最具代表性的入场券。
但当下的共识发生了微妙的变化：
衡量一个Agent够不够强，早已不再看它能不能“答对问题”，而是看它在面对多轮推理、工具调用及复杂协作时，能否用最短的路径、最少的交互预算，稳定地搞定任务
在这一背景下，一个长期被行业忽视的底层命题浮出水面：
当Agent的框架、工具、数据和训练方式都保持一致时，仅仅改变语言模型的生成范式（Autoregressive vs Diffusion），是否会系统性地改变Agent的规划与行为模式？
近日，来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队，在最新工作《DLLM Agent: See Farther, Run Faster》中，对这一问题给出了迄今为止最“对照实验式”的回答。
他们发现，仅仅是把“底座”换成了扩散式大模型（DLLM），Agent就像突然开了“上帝视角”，执行速度不仅提升了30%以上，甚至在部分复杂任务中跑出了8倍于传统AR模型的效率。
文章链接：
https://arxiv.org/pdf/2602.07451
官方网页：
https://noah-dllm.github.io/
核心结论一览
在完全相同的Agent工作流、训练数据和交互预算下，研究发现：
在准确率基本持平的前提下，DLLM Agent端到端执行速度平均提升30%以上在成功解题的条件下，DLLM Agent使用更少的交互轮次和工具调用DLLM展现出更强的planner能力：更早收敛到正确轨迹、回溯和冗余更少；这种优势并非仅来自并行解码速度，而是体现在Agent级别的规划与决策行为上。
一个“极端公平”的对照实验设计
为了避免“框架差异”、“提示工程”、“数据不一致”等干扰因素，作者采用了非常严格的对照实验设置：
使用同一个Agent框架：DeepDiver（多智能架构，层级式规划，https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver）；使用同一套工具接口与解析规则使用完全相同的Agent任务进行继续训练；统一context长度上限（32K）、最大交互轮数、tool call上限唯一变化因素：Agent背后的生成范式
Autoregressive LLM（AR）：openpangu 7b-v1
Diffusion Large Language Model（DLLM）：openpangu diffusion 7b，这个模型是从openpangu 7b-v1续训得到的，模型的基础推理能力相似。
这意味着，实验中观察到的行为差异，不能归因于数据/模型的基础能力或workflow，而只能来自生成范式本身。
不过，考虑到生成范式的不同，针对多轮长链交互的DLLM训练，作者使用了针对性调整的Mask策略和Attention裁剪策略，提升了DLLM Agent训练和推理的一致性。
同样的终点，更短的路径
在构建了对照平台后，研究团队将关注点转向了核心指标：即DLLM这种生成范式的改变，究竟能在多大程度上提升Agent的实战表现？
实验结果证明，DLLM Agent的优势并非仅仅来自“算得快”，更在于它在复杂规划中“走得直”
1、BrowseComp-zh基准测试：效率的全面跨越
研究团队在包含110条任务的BrowseComp-zh（中文多轮Web浏览）子集上，完成了性能测试。

通过对海量测试结果的深度复盘，研究人员观察到了几个关键规律：
DLLM Agent在准确率持平的情况下，
平均工具调用次数显著减少；Agent轨迹平均更短；端到端延迟下降约30%。
但同时也暴露出一个现实问题：原生DLLM更容易产生结构化tool-call错误。
此外，作者还展示了DLLM Agent和AR Agent在Information Seeker完成问题上的分布，可以清晰地看到DLLM Agent在处理问题时，往往能以更少的交互次数完成同样的任务。

2、案例实录：8.18倍速度落差的背后
为了更直观地展现这种“走直路”的能力，可以看一个典型的多约束检索案例（涉及动物命名+中国互联网公司+团队合并+软硬件等多个维度），query如下：

结果发现，尽管AR Agent和DLLM Agent最终都给出了正确答案，但其执行逻辑却展现出巨大的差异，不仅表现在端到端有8.18×的速度差异上（如下表）：

也表现在具体的planner执行过程上——
DLLM Agent的planner质量更高，从而在部分case上表现出来远超过基础模型的效率差异的端到端性能收益。

DLLM为何是天生的“强Planner”？
论文并未停留在表面的数据对比，而是深入分析了entropy和confidence与扩散过程中的内部动态，试图从生成范式的底层原理，来解释DLLM为何在规划上更具优势。
一、Planner Agent：先全局、后细节
在任务拆解阶段，DLLM Planner表现出独特的两阶段特征，这与人类先构思大纲再填补内容的思维方式不谋而合：
阶段一：并行提取关键信息
用户问题中的4个核心约束，往往在1–2个diffusion step内就能被同时识别。
阶段二：逐步细化任务结构
在已有全局框架下，再逐步补充具体的逻辑细节。
这与AR的差异，主要体现在：
AR必须按token顺序“边想边写”；一旦早期判断偏差，往往只能通过多轮todo/re-plan/verification来修正。
这也直接解释了，为什么AR Agent在实验中更容易产生多个todo_v1/todo_v2冗余规划文档的原因。下图详细解释了planner在这个过程中的变化：

二、Information Seeker：先定方向，再填参数
在具体的工具调用阶段，DLLM的生成模式呈现出一种极其稳定的结构化倾向：
它会首先确定调用哪个工具；随后，并行生成参数与细节；整个tool-call被视为一个整体“动作块”，并在生成过程中被反复refinement。
相比之下，AR Agent的生成过程更像是一条不可回头的流水线：函数名→参数1→参数2→ …
一旦前面的token出现语法或逻辑错误，AR无法原地修正，只能寄希望于下一轮tool call来补救

三、注意力演化：确定性的迅速锁定
研究团队通过对扩散过程中Mask Token的熵（Entropy）演化，以及不同阶段Attention的集中与分散的分析，得出了更深层的结论：
在DLLM的生成过程中，高不确定性集中在决策的早期阶段一旦高层决策形成，后续细节的生成会表现出极高的收敛速度attention机制呈现出更明显的“全局 → 局部”协调模式，这与AR仅仅追求token-level的局部最优决策，形成了鲜明对比。
不过，作者并没有回避DLLM的不足之处——
Diffusion模型在处理Agent场景时，对结构化输出更敏感
通过设计训推一致的Mask策略与Attention策略（如context-clean corruption和span-aware attention mask），可以提升DLLM Agent的推理性能。
这意味着，要充分发挥DLLM的潜力，并不能将其作为AR的简单替代品，而需要针对Agent的交互场景，重新对齐接口与训练目标
生成范式重塑Agent设计维度
这项工作为Agent研究提供了一个全新的视角——
生成范式本身，会深刻塑造Agent的行为方式。
在完全相同的数据基底与技术框架下，DLLM Agent展现出了超越传统自回归模型的执行效率：
更早形成全局计划更少走弯路更快速度结束任务
这使得Diffusion不再只是“另一种生成模型”，而成为构建高效Agent的一个全新设计维度。
下方Demo直观展示了DLLM Agent在效率上的显著优势（同类对比示例可参考原论文中的Case1）：

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

字节图像生成模型Seedream 5.0上线，剪映即梦可测试

阿里千问最新图像基座模型正式发布，图片编辑仅次于Nano Banana Pro

鸿蒙最强影像旗舰！华为测试双潜望长焦方案：支持10倍光学变焦

字节Seedance2.0引爆AI应用行情多家券商看好游戏、影视等领域

机构：2026年中际旭创、新易盛共可囊括近八成谷歌800G以上光模块订单

炸裂！元宝直接发红包了，全网都在薅羊毛！（附赠邀请码）

全站最新

字节图像生成模型Seedream 5.0上线，剪映即梦可测试

阿里千问最新图像基座模型正式发布，图片编辑仅次于Nano Banana Pro

鸿蒙最强影像旗舰！华为测试双潜望长焦方案：支持10倍光学变焦

字节Seedance2.0引爆AI应用行情多家券商看好游戏、影视等领域

热门推荐

内存泡沫，和它背后的幽灵订单

全年狂揽60亿净利润，华友钴业上演“大象起舞”

老乡鸡、海底捞、库迪……餐饮巨头们都在互相抢生意？

复星医药的“腾笼换鸟”：出清、收购、分拆

当红包开始狂撒，“AI新大陆”正在向平民招手

左右互搏：元宝撞上微信红线，揭开AI流量荒下的巨头焦虑

年会停了，但没人怀念它

钠电池打响突围战，何时能“挑大梁”？

Swisse的“蓝帽子难红”

进军印度受阻?Anthropic 遭遇重名诉讼，本土公司索赔千万卢比

继元宝和千问之后，豆包也撒钱了！官宣上总台春晚，除夕狂送 10 万份科技豪礼

具身智能新突破！达摩院开源 RynnBrain，包揽 16 项全球榜单冠军

算力不够，友商来凑？Kimi 官宣回应“宕机”：正在找算力，急用先去 DeepSeek

AI 版“App Store”来了？亚马逊入局内容授权市场：出版商向大模型“收租”时代开启

耗资 2 万美元！Anthropic 工程师组建 AI “特工队”写出 C 编译器

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

核心结论一览

一个“极端公平”的对照实验设计

同样的终点，更短的路径

DLLM为何是天生的“强Planner”？

生成范式重塑Agent设计维度