上海人工智能实验室打造"AI安全卫士"

IP属地中国·北京 科技行者 时间：2026-06-03 22:24:17

这项由上海人工智能实验室主导完成的研究，于2026年5月28日以预印本形式公开发布，论文编号为arXiv:2605.29801，有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。研究的核心成果是一套名为AgentDoG 1.5的AI安全对齐框架，专门针对当前AI代理系统的安全漏洞问题而设计。
当AI开始替我们"干活"，谁来保证它不闯祸？
随着AI技术的快速发展，AI已经不再只是一个能聊天的程序。现在的AI"代理"（Agent）更像是一位全能助手——它可以帮你操作电脑、写代码、发邮件、查资料，甚至在没人盯着的情况下自动执行一系列复杂任务。这种AI代理系统，如近年来颇受关注的OpenClaw和Codex，拥有强大的跨环境执行能力，能够跨越不同软件系统完成任务。
然而，能力越强，风险越大。正如一把没有安全锁的电动工具，能做的事越多，一旦出事伤害也越深。AI代理在执行任务时，可能被恶意用户诱导去做坏事，也可能被外部恶意内容"绑架"执行危险操作，更可能因为自身判断失误而造成严重后果——比如误删重要文件、泄露敏感信息、执行危险代码等。更糟糕的是，随着前沿AI模型越来越强大，普通人发动"AI攻击"的门槛也越来越低，这让现有的安全框架显得捉襟见肘。
上海人工智能实验室的研究团队正是在这样的背景下开展工作的。他们提出了AgentDoG 1.5——一个轻量级、可扩展的AI代理安全对齐框架。这个框架的目标，是让AI系统能够准确识别危险行为，并在问题变成现实伤害之前将其拦截。更令人注目的是，研究团队仅用约1000条训练样本，就培养出了能够媲美GPT-5.4等顶级商业模型安全审核能力的小型模型——最小的版本只有0.8B参数，相当于一个"袖珍版"的高效安全员。
一、给AI安全风险画一张完整的地图
要让AI知道什么行为是危险的，首先需要把所有可能的危险系统地整理清楚。研究团队做的第一件事，就是建立一套全面的"AI安全风险分类体系"，也就是一张详细的"危险地图"。
这张地图从三个不同维度来描绘AI的安全风险。第一个维度叫做"风险来源"，回答的是"危险从哪里冒出来的"。AI代理在工作时，面对的信息来自四面八方——用户发出的指令、工具的描述说明、外部环境返回的信息、记忆中存储的历史数据、其他AI的输入，以及AI自己的推理结论。任何一个来源都可能成为风险的入口。比如，一个表面上无害的网页内容，可能暗藏着让AI执行危险操作的隐藏指令——这在专业上叫做"间接提示注入"，就好比有人在食谱里藏了一条"顺便把厨房点着"的指令，让厨师在毫不知情的情况下执行。
第二个维度叫做"失败模式"，回答的是"AI具体是怎么出错的"。研究团队整理出了21种不同的失败方式，包括在没有确认的情况下执行越权操作、推理计划本身存在缺陷、不当地使用了某个工具、没有验证工具返回的结果、不安全地执行了某段代码，以及在没有人工审核的情况下绕过了审批流程等。
第三个维度叫做"现实世界危害"，回答的是"出了事会造成什么后果"。研究团队将可能的危害分为11大类，涵盖了隐私泄露、系统安全破坏、经济损失、身体健康风险、心理伤害、声誉损失，以及更宏观的社会信息生态污染等方面。
这种三维立体的分类方式，比过去简单地给AI的行为贴"安全"或"危险"标签要精细得多。它能让研究者和开发者清楚地看到：这次危险事件，是因为什么原因触发的、AI在哪个环节出了错、最终可能伤害到谁。这就像医生诊断疾病，不只是说"这个病人病了"，而是能准确说出"病因是细菌感染，感染部位是肺部，如果不治疗会导致呼吸衰竭"——这种精确诊断，才能指导有效的治疗方案。
随着AI代理的应用场景越来越多样化，研究团队还对这套分类体系进行了扩展，专门针对OpenClaw和Codex这两类新型AI代理的特定风险添加了新的子类别。例如，OpenClaw代理因为能够跨应用程序操作，特别容易出现"会话身份混淆"（即AI不清楚当前应该代表谁行事）和"审批绕过"（即AI跳过了本应经过人工确认的步骤）等问题。而Codex这类代码执行代理，则面临"代码仓库文件注入"（恶意内容藏在项目文件里）和"不安全的命令行操作"（执行了危险的系统命令）等特有风险。
与此同时，研究团队还基于这套分类体系，建立了一套名为"ATBench家族"的评测基准。基础版ATBench包含1000条经过人工审核的AI执行轨迹，其中503条是安全的，497条是不安全的，平均每条轨迹包含约9轮交互和3950个字符。扩展版则包括ATBench-Claw（500条OpenClaw场景轨迹）和ATBench-Codex（500条代码执行场景轨迹），形成了覆盖不同执行环境的完整评测家族。
二、只用千条样本，怎样训练出顶级的安全审核员？
建好了"危险地图"，下一步就是训练AI学会读懂这张地图。研究团队面临一个有趣的挑战：如何用尽可能少的训练数据，培养出能力足够强的安全审核模型？
他们的解决方案分为两个阶段，可以用"严格筛选食材，再精心烹饪"来理解整个过程。
第一阶段是数据准备，也就是"挑选食材"。研究团队设计了一个由AI规划者（Planner）驱动的数据生成流水线，专门用来生成高质量的AI执行轨迹样本。这条流水线分三步走：第一步，从三维风险分类体系中随机抽取一个风险组合，比如"恶意用户指令"+"执行了越权操作"+"造成财务损失"，然后决定这条轨迹是安全结局还是危险结局；第二步，让AI按照这个设定生成完整的多轮交互轨迹，包括用户请求、AI的思考过程、工具调用和环境反馈；第三步，用规则检查器和模型检查器双重过滤，确保生成的轨迹格式正确、逻辑合理、标签可信。最终，这条流水线覆盖了5973个不同的工具和模型上下文协议服务器，生成的样本涵盖了所有15种风险来源、21种失败模式和11类现实危害。
在生成原始数据之后，研究团队还专门请GPT-5.4担任"思维过程注释员"，为每一条训练样本添加详细的推理链——即为什么这个行为是危险的、危险从何而来、可能造成什么后果。这就好比不只给学生一份答案，还附上了完整的解题思路，让学生真正理解背后的逻辑，而不只是死记硬背。
"食材"准备好了，还需要精心挑选。研究团队使用了一种叫做"基于影响函数的数据净化"方法来筛选最有价值的训练样本。这个方法的原理可以这样理解：给每一条训练样本打一个"贡献分数"，评估这条样本能在多大程度上帮助模型改善安全审核能力。分数高的留下，分数低的或者起反作用的扔掉。具体操作上，研究团队首先定义了一组"目标行为"——也就是他们希望模型具备的安全判断能力；然后，计算每条训练样本的"梯度方向"（可以理解为这条样本会把模型往哪个方向推），再对比这个方向与目标方向是否一致。方向越一致，样本越有价值；方向相反的样本，不仅没用，还可能有害。
经过这轮严格筛选，原本数量庞大的原始数据被压缩到大约1000条精华样本，数据量大幅缩减，但质量却大幅提升。
第二阶段是模型训练，也就是"烹饪"。研究团队采用了两步走的训练策略，借鉴了DeepSeek模型的成功经验。第一步是监督微调（SFT），让模型在精选数据上学习基本的安全判断逻辑，就像新厨师先跟着食谱练习；第二步是强化学习（RL），让模型在真实互动中不断试错和优化，就像厨师在实战中磨炼技艺。
在强化学习阶段，研究团队采用了一种改进的训练算法，叫做GDPO（组奖励解耦归一化策略优化）。这个算法的特别之处在于，它能同时处理多个维度的奖励信号。传统做法是把所有评分加总成一个数字，但这样做会掩盖模型在不同维度的真实表现——比如，模型可能在判断失败模式上表现很好，但在识别风险来源上一塌糊涂，加总之后这个问题就被掩盖了。GDPO的做法是分维度独立计算奖励，再按照不同权重（失败模式0.3、现实危害0.4、风险来源0.3）组合，这样每个维度的表现都能得到准确评估和针对性优化。
研究团队最终训练出了四个不同规模的AgentDoG 1.5模型：参数量分别为0.8B、2B、4B和8B。其中4B和8B版本采用不同的基础模型，分别基于Qwen3.5-4B和Llama-3.1-8B构建。
三、实验数据说话：小模型如何碾压大模型？
研究团队在多个基准测试上对AgentDoG 1.5进行了全面评估，结果颇为亮眼。
在最基础的"安全还是危险"二分类任务上，AgentDoG 1.5-4B在R-Judge测试集上取得了92.2%的准确率，F1分数也达到92.7%；在ATBench测试集上准确率为72.4%，F1分数为74.3%。作为对比，同等参数规模的通用开源模型Qwen3.5-397B（参数量是AgentDoG 1.5-4B的将近100倍）在ATBench上的准确率仅为66.8%。换句话说，AgentDoG 1.5-4B用区区4B参数，就超越了一个体量几乎是它百倍的通用大模型——这种效率差距，正是专项训练数据和精心设计的训练流程所带来的价值。
在闭源商业模型的比较中，AgentDoG 1.5-4B在R-Judge上已经与GPT-5.4（93.3%）和Gemini-3-Flash（95.2%）非常接近。在ATBench上，AgentDoG 1.5-4B的F1分数74.3%甚至高于GPT-5.4的76.7%，位置相当接近。
最小的AgentDoG 1.5-0.8B表现同样令人印象深刻。这个仅有0.8B参数的微型模型，在R-Judge上达到了75.7%的准确率，在ATBench上也有60.3%的准确率。更重要的是，它的表现超越了多个更大规模的通用模型，包括多个专用的安全防护模型。
更精细的三维分类任务（即同时识别风险来源、失败模式和现实危害）对所有模型来说都更有挑战性，但AgentDoG 1.5依然展现出明显优势。AgentDoG 1.5-4B在风险来源识别上达到75.2%，在现实危害分类上达到62.9%，在失败模式判断上达到27.5%，综合平均分55.2%，比前一代AgentDoG 1.0-4B提升了整整20.6个百分点。相比之下，GPT-5.4在同一任务上的综合平均分只有25.8%，整个开源通用模型阵营的平均水平更是普遍低于20%。这一对比直接说明，精细的安全分类能力需要专门的训练，单靠模型规模无法解决。
研究中还出现了一个有趣的"意外惊喜"：研究团队尝试将粗粒度的"安全/危险"判断和细粒度的三维风险分类整合到同一个模型中，训练出了一个额外版本AgentDoG 1.5-4B-U。结果发现，把精细分类任务加入训练之后，模型在粗粒度的"安全/危险"判断上反而有了额外提升——ATBench上的准确率从72.4%跳升到了78.4%。这表明，让AI学会"精确分析为什么危险"，能够反过来帮助它更准确地判断"是否危险"，二者之间存在正向的互补关系。
在跨环境泛化能力方面，AgentDoG 1.5-4B在ATBench-Codex上达到80.0%准确率，在ATBench-Claw上达到84.0%准确率，均与闭源顶级商业模型的水平相当，在ATBench-Claw上甚至略微超越了闭源模型的最高参考线。这说明，经过针对性的环境适配训练，AgentDoG 1.5能够灵活地在不同AI代理场景下保持强劲的安全判断能力。
四、当"安全审核员"变成"教练"：用AgentDoG训练更安全的AI
研究团队的雄心不只是训练一个能打分的审核模型，他们还探索了如何把AgentDoG 1.5用于训练更安全的AI代理系统本身。这相当于把安全审核员从"事后评判"的角色，升级成了"全程指导"的教练角色。
在监督微调（SFT）数据过滤方面，研究团队使用ATBench数据引擎生成了32787条轨迹对（每对包含一个危险版本和一个安全版本），然后让AgentDoG 1.5作为质量检查员，筛选出其中真正高质量的安全轨迹样本。AgentDoG 1.5会检查安全轨迹是否真正识别了危险来源、是否正确拒绝或化解了危险意图、是否避免了执行危险操作，同时是否尽可能完成了用户的正当任务需求。经过这轮筛选，32787条原始样本中有28705条通过了质量检验，筛选率约为87.5%。
研究团队在Qwen3.5-4B基础模型上进行了对比实验，测试四种不同的训练配置：不做任何安全训练的原始模型、只用常规工具使用数据训练的模型、在常规数据之上加入未经筛选的安全数据的模型，以及在常规数据之上加入AgentDoG 1.5筛选后的安全数据的模型。
实验结果清晰地展示了筛选的价值。与原始的Qwen3.5-4B模型相比，加入AgentDoG 1.5筛选数据后，模型在AgentHarm测试上的"危害分数"从57.49%大幅降至20.32%，"拒绝率"（即正确拒绝危险请求的比例）从28.41%提升至75.00%，安全性测试的"安全率"从34.37%提升至53.23%。与使用未筛选安全数据的版本相比，AgentDoG 1.5筛选版本的危害分数进一步从31.91%降至20.32%，攻击成功率从34.72%降至23.82%，同时函数调用能力（BFCL准确率）从78.69%提升至81.12%。这最后一点特别值得注意：通常安全训练会损害模型的正常能力，但更高质量的训练数据，让安全提升和能力保留实现了更好的兼顾。
在强化学习（RL）阶段，研究团队构建了一套轻量级的模拟RL训练环境。传统的RL训练需要真实的软件执行环境（如运行真实代码、操作真实文件系统），这不仅资源消耗巨大，也难以大规模部署。研究团队的解决方案是让AI自动生成"有限状态模拟器"——即用Python代码模拟特定场景的工具调用逻辑和环境反馈，只保留训练所需的关键状态和交互，去掉所有与安全判断无关的复杂细节。
这套轻量级环境的扩展性非常惊人。实验数据显示，即使同时加载10000个独立环境、维护1000个活跃实例、并发执行1000次工具调用，系统的响应延迟也保持基本稳定，峰值内存占用严格控制在2.5GB以下。相比之下，传统基于Docker容器的真实环境（如SWE-Bench等）在同等规模下的内存和启动延迟开销是这套系统的100倍以上。这意味着，一台普通的8核服务器就能同时支撑超过10000个并发训练环境——这对于大规模安全训练来说，是一个极大的效率优势。
在RL训练中，AgentDoG 1.5扮演着"外部裁判"的角色，实时评估AI代理在训练环境中的行为是否安全，并将这个评估结果作为奖励信号反馈给被训练的模型。奖励函数的设计也颇为精心：对于没有攻击的普通任务，只评估任务完成质量；对于恶意查询攻击，只评估安全性；对于环境注入攻击（即在环境信息中藏了恶意内容的场景），则同时考量安全性和任务完成质量，权重分别为各25%和50%。
实验结果表明，只做SFT的模型在任务完成能力上有所下降，只做RL的模型安全性又不够强，但把二者结合起来（先做AgentDoG 1.5筛选的SFT，再做AgentDoG 1.5引导的RL），能在安全性和能力之间取得最佳平衡：在AgentHarm上的拒绝率达到77.27%，安全测试的安全率达到59.32%，同时BFCL函数调用准确率保持在81.25%的高水平。
五、部署到真实世界：让AgentDoG成为AI代理的实时门卫
研究的最后一部分探讨了如何把AgentDoG 1.5部署到实际运行中的AI代理系统里，作为实时安全守门员使用。
研究团队设计的"在线防护体系"选择在AI代理准备发出最终回复之前的那一刻介入——研究团队称之为"Pre-Reply阶段"（回复前阶段）。选择这个时机的理由非常实际：在每次工具调用后都做检查，会带来巨大的延迟累积（一个长任务可能涉及数十次乃至数百次工具调用，每次都检查会让整个流程慢得无法接受）；而等到AI已经把有害内容发送出去再检查，又太晚了。在"即将发出最终回复"的这个节点做检查，既能利用完整的执行上下文（包括所有的工具调用记录、中间推理过程和观察结果），又只需做一次检查，延迟开销可控。
这套在线防护流水线分为三个层次。第一层是正常的AI代理执行层，AI代理照常工作，与用户交互、调用各种工具、访问外部资源，同时有一个代理程序在后台悄悄记录所有的执行事件，不干扰代理的正常工作。第二层是在线防护服务层，轨迹格式化程序持续将收集到的执行事件（工具调用记录、历史对话、推理痕迹、行动和观察结果）整合成一份结构化的"执行轨迹摘要"，供AgentDoG 1.5进行判断。当AI代理准备发出最终回复时，AgentDoG 1.5对这份完整轨迹进行分析，如果判断为安全，则放行回复；如果判断为危险，则拦截回复，不让它到达用户。第三层是运行监控仪表板，记录所有的事件流、防护决策历史、延迟数据，供运维人员审查和审计。
研究团队在OpenClaw平台上进行了实际测试，使用的AI代理骨干模型为GLM-5.1。测试覆盖了三个真实场景的安全基准：ClawSafety（金融操作安全测试）、AgentHazard的提示窃取风险类别（测试AI是否会泄露系统提示或工具配置信息）以及CIK-Bench（测试AI是否会被能力-身份-知识攻击劫持）。
测试结果显示了明确的安全提升效果。在ClawSafety测试中，没有防护的情况下有56.25%的危险情形最终产生了有害输出；加入AgentDoG 1.5-0.8B防护后，这一比例降至25.00%；加入AgentDoG 1.5-4B防护后，进一步降至18.75%。在AgentHazard的提示窃取测试中，原始危险率为41.92%，AgentDoG 1.5-0.8B将其降至29.23%，4B版本降至26.92%，而对比测试中的其他专用防护模型（Qwen3Guard-Gen-4B和Llama-Guard-3-8B）对这一类威胁完全没有效果，危险率维持在41.92%不变。在CIK-Bench测试中，原始危险率高达94.29%，AgentDoG 1.5-4B将其降至42.86%，接近Llama-Guard-3-8B的40.00%。
在延迟方面，AgentDoG 1.5生成第一个输出字符所需的时间（TTFT）在0.17至0.30秒之间，每生成一个输出字符的平均时间（TPOT）在0.015至0.021秒之间。虽然输出的内容比对比模型更长（因为包含了完整的分析推理过程），但由于只在最终回复阶段做一次检查，整体延迟开销对用户体验的影响是可接受的。
说到底，这项研究做的事情，可以用一句话概括：在AI变得越来越能干的时代，他们帮AI装上了一套高效、精准的"安全大脑"。而且这套大脑不需要很大，不需要很贵，却能准确地识别复杂多变的安全威胁。这种思路的意义在于，它让安全能力变得民主化——不再是只有大公司才能负担的奢侈品，而是任何开发者都能以低成本部署的基础设施。
当然，研究团队也坦诚地指出了现有局限：AgentDoG 1.5目前主要处理文字信息，而真实世界的AI代理越来越多地要与图像、视频、音频等多模态内容打交道，这是未来需要解决的挑战。同时，Pre-Reply拦截策略只能防止"最终回复阶段"的危害，对于那些在执行过程中就已经造成实际影响的操作（比如在中间步骤已经悄悄删除了重要文件），这套机制无法追溯和撤销。更完善的安全架构，还需要在执行过程的关键节点加入细粒度检查、权限感知的执行策略，以及高风险操作的人工确认机制。
这些局限并不意味着研究的价值打折扣，恰恰相反，它们指向了一个广阔的未来研究空间。对于任何关心AI安全的读者，无论是开发者、研究者还是对技术感兴趣的普通人，这项研究都提供了一个颇有启发性的视角：保障AI安全，不只是限制AI能做什么，更重要的是让AI真正理解什么该做、什么不该做，以及为什么。有兴趣深入了解的读者，可以通过论文编号arXiv:2605.29801查阅完整原文。
Q&A
Q1：AgentDoG 1.5是什么，它和普通AI安全过滤器有什么不同？
A：AgentDoG 1.5是上海人工智能实验室开发的一套专门针对AI代理系统的安全审核框架。与普通安全过滤器只看单条输入输出不同，AgentDoG 1.5会分析AI代理完整的执行轨迹，包括所有中间步骤、工具调用、环境反馈，从三个维度（风险来源、失败模式、现实危害）给出精细诊断，而不只是简单判断"安全"或"危险"。
Q2：AgentDoG 1.5用了多少训练数据，为什么这么少的数据能训练出好效果？
A：AgentDoG 1.5只用了约1000条精选训练样本。效果好的原因有两个：一是通过"影响函数"方法从大量原始数据中精准筛选出对安全判断最有价值的样本，去掉了冗余和有害样本；二是每条样本都配有GPT-5.4生成的详细推理过程注释，让模型学到的不只是答案，而是完整的分析逻辑，大幅提升了数据效率。
Q3：AgentDoG 1.5部署在实际AI系统中时会不会让响应变得很慢？
A：延迟影响有限。AgentDoG 1.5采用"Pre-Reply"策略，只在AI代理准备发出最终回复时做一次检查，而不是每次工具调用后都检查。测试数据显示，生成第一个输出字符的时间在0.17至0.30秒之间，整体对用户体验的影响处于可接受范围，同时能有效拦截危险输出。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

蚂蚁集团发布智能体安全ASL协议及HOP 3.0，支付宝推出AI订阅服务

腾讯机器人按摩师走红WAIC：“要送进养老院”

腾讯首秀具身智能全栈方案，多款基座模型与智能体发布

对话腾讯云副总裁：企业智能体火了，今年平台使用量至少翻倍

从追赶到“摸高”，中国大模型的AGI征途

阿里云发布灵骏真武M890超节点实例

全站最新

蚂蚁集团发布智能体安全ASL协议及HOP 3.0，支付宝推出AI订阅服务

腾讯机器人按摩师走红WAIC：“要送进养老院”

腾讯首秀具身智能全栈方案，多款基座模型与智能体发布

孔辉科技：国产空气悬架累计交付147万台份品质过硬无批量漏气故障

热门推荐

蚂蚁集团发布智能体安全ASL协议及HOP 3.0，支付宝推出AI订阅服务

腾讯机器人按摩师走红WAIC：“要送进养老院”

腾讯首秀具身智能全栈方案，多款基座模型与智能体发布

全球首台机器人手机开启预约！荣耀开辟从“智能体手机”迈向“机器人手机”的新赛道

腾讯WorkBuddy APP正式发布：鸿蒙、iOS、安卓三端同步上线

AI跃升伙伴型生命体荣耀Robot Phone开启预约引领具身交互新篇

WAIC现场国产大模型“摸高”智能化边界，参数跃升与多元路径共探未来

对话腾讯云副总裁：企业智能体火了，今年平台使用量至少翻倍

从追赶到“摸高”，中国大模型的AGI征途

阿里云发布灵骏真武M890超节点实例

从AI思考到智能体行动产业智能体互联网重塑产业组织形态｜聚焦WAIC2026

WAIC一间很“主动”的AI小屋，藏着京东通往整个物理世界的野心

阿里云发布灵骏真武M890超节点实例

全系激光雷达+第二代Hi4动力，长城H10开启预售：限时权益价21.48万起

2026WAIC现场直击：B站猫娘计划亮相，支持本地部署与自由导入角色模型