当前位置: 首页 » 资讯 » 科技头条 » 正文

上海人工智能实验室打造"AI安全卫士"

IP属地 中国·北京 科技行者 时间:2026-06-03 22:24:17


这项由上海人工智能实验室主导完成的研究,于2026年5月28日以预印本形式公开发布,论文编号为arXiv:2605.29801,有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。研究的核心成果是一套名为AgentDoG 1.5的AI安全对齐框架,专门针对当前AI代理系统的安全漏洞问题而设计。

当AI开始替我们"干活",谁来保证它不闯祸?

随着AI技术的快速发展,AI已经不再只是一个能聊天的程序。现在的AI"代理"(Agent)更像是一位全能助手——它可以帮你操作电脑、写代码、发邮件、查资料,甚至在没人盯着的情况下自动执行一系列复杂任务。这种AI代理系统,如近年来颇受关注的OpenClaw和Codex,拥有强大的跨环境执行能力,能够跨越不同软件系统完成任务。

然而,能力越强,风险越大。正如一把没有安全锁的电动工具,能做的事越多,一旦出事伤害也越深。AI代理在执行任务时,可能被恶意用户诱导去做坏事,也可能被外部恶意内容"绑架"执行危险操作,更可能因为自身判断失误而造成严重后果——比如误删重要文件、泄露敏感信息、执行危险代码等。更糟糕的是,随着前沿AI模型越来越强大,普通人发动"AI攻击"的门槛也越来越低,这让现有的安全框架显得捉襟见肘。

上海人工智能实验室的研究团队正是在这样的背景下开展工作的。他们提出了AgentDoG 1.5——一个轻量级、可扩展的AI代理安全对齐框架。这个框架的目标,是让AI系统能够准确识别危险行为,并在问题变成现实伤害之前将其拦截。更令人注目的是,研究团队仅用约1000条训练样本,就培养出了能够媲美GPT-5.4等顶级商业模型安全审核能力的小型模型——最小的版本只有0.8B参数,相当于一个"袖珍版"的高效安全员。

一、给AI安全风险画一张完整的地图

要让AI知道什么行为是危险的,首先需要把所有可能的危险系统地整理清楚。研究团队做的第一件事,就是建立一套全面的"AI安全风险分类体系",也就是一张详细的"危险地图"。

这张地图从三个不同维度来描绘AI的安全风险。第一个维度叫做"风险来源",回答的是"危险从哪里冒出来的"。AI代理在工作时,面对的信息来自四面八方——用户发出的指令、工具的描述说明、外部环境返回的信息、记忆中存储的历史数据、其他AI的输入,以及AI自己的推理结论。任何一个来源都可能成为风险的入口。比如,一个表面上无害的网页内容,可能暗藏着让AI执行危险操作的隐藏指令——这在专业上叫做"间接提示注入",就好比有人在食谱里藏了一条"顺便把厨房点着"的指令,让厨师在毫不知情的情况下执行。

第二个维度叫做"失败模式",回答的是"AI具体是怎么出错的"。研究团队整理出了21种不同的失败方式,包括在没有确认的情况下执行越权操作、推理计划本身存在缺陷、不当地使用了某个工具、没有验证工具返回的结果、不安全地执行了某段代码,以及在没有人工审核的情况下绕过了审批流程等。

第三个维度叫做"现实世界危害",回答的是"出了事会造成什么后果"。研究团队将可能的危害分为11大类,涵盖了隐私泄露、系统安全破坏、经济损失、身体健康风险、心理伤害、声誉损失,以及更宏观的社会信息生态污染等方面。

这种三维立体的分类方式,比过去简单地给AI的行为贴"安全"或"危险"标签要精细得多。它能让研究者和开发者清楚地看到:这次危险事件,是因为什么原因触发的、AI在哪个环节出了错、最终可能伤害到谁。这就像医生诊断疾病,不只是说"这个病人病了",而是能准确说出"病因是细菌感染,感染部位是肺部,如果不治疗会导致呼吸衰竭"——这种精确诊断,才能指导有效的治疗方案。

随着AI代理的应用场景越来越多样化,研究团队还对这套分类体系进行了扩展,专门针对OpenClaw和Codex这两类新型AI代理的特定风险添加了新的子类别。例如,OpenClaw代理因为能够跨应用程序操作,特别容易出现"会话身份混淆"(即AI不清楚当前应该代表谁行事)和"审批绕过"(即AI跳过了本应经过人工确认的步骤)等问题。而Codex这类代码执行代理,则面临"代码仓库文件注入"(恶意内容藏在项目文件里)和"不安全的命令行操作"(执行了危险的系统命令)等特有风险。

与此同时,研究团队还基于这套分类体系,建立了一套名为"ATBench家族"的评测基准。基础版ATBench包含1000条经过人工审核的AI执行轨迹,其中503条是安全的,497条是不安全的,平均每条轨迹包含约9轮交互和3950个字符。扩展版则包括ATBench-Claw(500条OpenClaw场景轨迹)和ATBench-Codex(500条代码执行场景轨迹),形成了覆盖不同执行环境的完整评测家族。

二、只用千条样本,怎样训练出顶级的安全审核员?

建好了"危险地图",下一步就是训练AI学会读懂这张地图。研究团队面临一个有趣的挑战:如何用尽可能少的训练数据,培养出能力足够强的安全审核模型?

他们的解决方案分为两个阶段,可以用"严格筛选食材,再精心烹饪"来理解整个过程。

第一阶段是数据准备,也就是"挑选食材"。研究团队设计了一个由AI规划者(Planner)驱动的数据生成流水线,专门用来生成高质量的AI执行轨迹样本。这条流水线分三步走:第一步,从三维风险分类体系中随机抽取一个风险组合,比如"恶意用户指令"+"执行了越权操作"+"造成财务损失",然后决定这条轨迹是安全结局还是危险结局;第二步,让AI按照这个设定生成完整的多轮交互轨迹,包括用户请求、AI的思考过程、工具调用和环境反馈;第三步,用规则检查器和模型检查器双重过滤,确保生成的轨迹格式正确、逻辑合理、标签可信。最终,这条流水线覆盖了5973个不同的工具和模型上下文协议服务器,生成的样本涵盖了所有15种风险来源、21种失败模式和11类现实危害。

在生成原始数据之后,研究团队还专门请GPT-5.4担任"思维过程注释员",为每一条训练样本添加详细的推理链——即为什么这个行为是危险的、危险从何而来、可能造成什么后果。这就好比不只给学生一份答案,还附上了完整的解题思路,让学生真正理解背后的逻辑,而不只是死记硬背。

"食材"准备好了,还需要精心挑选。研究团队使用了一种叫做"基于影响函数的数据净化"方法来筛选最有价值的训练样本。这个方法的原理可以这样理解:给每一条训练样本打一个"贡献分数",评估这条样本能在多大程度上帮助模型改善安全审核能力。分数高的留下,分数低的或者起反作用的扔掉。具体操作上,研究团队首先定义了一组"目标行为"——也就是他们希望模型具备的安全判断能力;然后,计算每条训练样本的"梯度方向"(可以理解为这条样本会把模型往哪个方向推),再对比这个方向与目标方向是否一致。方向越一致,样本越有价值;方向相反的样本,不仅没用,还可能有害。

经过这轮严格筛选,原本数量庞大的原始数据被压缩到大约1000条精华样本,数据量大幅缩减,但质量却大幅提升。

第二阶段是模型训练,也就是"烹饪"。研究团队采用了两步走的训练策略,借鉴了DeepSeek模型的成功经验。第一步是监督微调(SFT),让模型在精选数据上学习基本的安全判断逻辑,就像新厨师先跟着食谱练习;第二步是强化学习(RL),让模型在真实互动中不断试错和优化,就像厨师在实战中磨炼技艺。

在强化学习阶段,研究团队采用了一种改进的训练算法,叫做GDPO(组奖励解耦归一化策略优化)。这个算法的特别之处在于,它能同时处理多个维度的奖励信号。传统做法是把所有评分加总成一个数字,但这样做会掩盖模型在不同维度的真实表现——比如,模型可能在判断失败模式上表现很好,但在识别风险来源上一塌糊涂,加总之后这个问题就被掩盖了。GDPO的做法是分维度独立计算奖励,再按照不同权重(失败模式0.3、现实危害0.4、风险来源0.3)组合,这样每个维度的表现都能得到准确评估和针对性优化。

研究团队最终训练出了四个不同规模的AgentDoG 1.5模型:参数量分别为0.8B、2B、4B和8B。其中4B和8B版本采用不同的基础模型,分别基于Qwen3.5-4B和Llama-3.1-8B构建。

三、实验数据说话:小模型如何碾压大模型?

研究团队在多个基准测试上对AgentDoG 1.5进行了全面评估,结果颇为亮眼。

在最基础的"安全还是危险"二分类任务上,AgentDoG 1.5-4B在R-Judge测试集上取得了92.2%的准确率,F1分数也达到92.7%;在ATBench测试集上准确率为72.4%,F1分数为74.3%。作为对比,同等参数规模的通用开源模型Qwen3.5-397B(参数量是AgentDoG 1.5-4B的将近100倍)在ATBench上的准确率仅为66.8%。换句话说,AgentDoG 1.5-4B用区区4B参数,就超越了一个体量几乎是它百倍的通用大模型——这种效率差距,正是专项训练数据和精心设计的训练流程所带来的价值。

在闭源商业模型的比较中,AgentDoG 1.5-4B在R-Judge上已经与GPT-5.4(93.3%)和Gemini-3-Flash(95.2%)非常接近。在ATBench上,AgentDoG 1.5-4B的F1分数74.3%甚至高于GPT-5.4的76.7%,位置相当接近。

最小的AgentDoG 1.5-0.8B表现同样令人印象深刻。这个仅有0.8B参数的微型模型,在R-Judge上达到了75.7%的准确率,在ATBench上也有60.3%的准确率。更重要的是,它的表现超越了多个更大规模的通用模型,包括多个专用的安全防护模型。

更精细的三维分类任务(即同时识别风险来源、失败模式和现实危害)对所有模型来说都更有挑战性,但AgentDoG 1.5依然展现出明显优势。AgentDoG 1.5-4B在风险来源识别上达到75.2%,在现实危害分类上达到62.9%,在失败模式判断上达到27.5%,综合平均分55.2%,比前一代AgentDoG 1.0-4B提升了整整20.6个百分点。相比之下,GPT-5.4在同一任务上的综合平均分只有25.8%,整个开源通用模型阵营的平均水平更是普遍低于20%。这一对比直接说明,精细的安全分类能力需要专门的训练,单靠模型规模无法解决。

研究中还出现了一个有趣的"意外惊喜":研究团队尝试将粗粒度的"安全/危险"判断和细粒度的三维风险分类整合到同一个模型中,训练出了一个额外版本AgentDoG 1.5-4B-U。结果发现,把精细分类任务加入训练之后,模型在粗粒度的"安全/危险"判断上反而有了额外提升——ATBench上的准确率从72.4%跳升到了78.4%。这表明,让AI学会"精确分析为什么危险",能够反过来帮助它更准确地判断"是否危险",二者之间存在正向的互补关系。

在跨环境泛化能力方面,AgentDoG 1.5-4B在ATBench-Codex上达到80.0%准确率,在ATBench-Claw上达到84.0%准确率,均与闭源顶级商业模型的水平相当,在ATBench-Claw上甚至略微超越了闭源模型的最高参考线。这说明,经过针对性的环境适配训练,AgentDoG 1.5能够灵活地在不同AI代理场景下保持强劲的安全判断能力。

四、当"安全审核员"变成"教练":用AgentDoG训练更安全的AI

研究团队的雄心不只是训练一个能打分的审核模型,他们还探索了如何把AgentDoG 1.5用于训练更安全的AI代理系统本身。这相当于把安全审核员从"事后评判"的角色,升级成了"全程指导"的教练角色。

在监督微调(SFT)数据过滤方面,研究团队使用ATBench数据引擎生成了32787条轨迹对(每对包含一个危险版本和一个安全版本),然后让AgentDoG 1.5作为质量检查员,筛选出其中真正高质量的安全轨迹样本。AgentDoG 1.5会检查安全轨迹是否真正识别了危险来源、是否正确拒绝或化解了危险意图、是否避免了执行危险操作,同时是否尽可能完成了用户的正当任务需求。经过这轮筛选,32787条原始样本中有28705条通过了质量检验,筛选率约为87.5%。

研究团队在Qwen3.5-4B基础模型上进行了对比实验,测试四种不同的训练配置:不做任何安全训练的原始模型、只用常规工具使用数据训练的模型、在常规数据之上加入未经筛选的安全数据的模型,以及在常规数据之上加入AgentDoG 1.5筛选后的安全数据的模型。

实验结果清晰地展示了筛选的价值。与原始的Qwen3.5-4B模型相比,加入AgentDoG 1.5筛选数据后,模型在AgentHarm测试上的"危害分数"从57.49%大幅降至20.32%,"拒绝率"(即正确拒绝危险请求的比例)从28.41%提升至75.00%,安全性测试的"安全率"从34.37%提升至53.23%。与使用未筛选安全数据的版本相比,AgentDoG 1.5筛选版本的危害分数进一步从31.91%降至20.32%,攻击成功率从34.72%降至23.82%,同时函数调用能力(BFCL准确率)从78.69%提升至81.12%。这最后一点特别值得注意:通常安全训练会损害模型的正常能力,但更高质量的训练数据,让安全提升和能力保留实现了更好的兼顾。

在强化学习(RL)阶段,研究团队构建了一套轻量级的模拟RL训练环境。传统的RL训练需要真实的软件执行环境(如运行真实代码、操作真实文件系统),这不仅资源消耗巨大,也难以大规模部署。研究团队的解决方案是让AI自动生成"有限状态模拟器"——即用Python代码模拟特定场景的工具调用逻辑和环境反馈,只保留训练所需的关键状态和交互,去掉所有与安全判断无关的复杂细节。

这套轻量级环境的扩展性非常惊人。实验数据显示,即使同时加载10000个独立环境、维护1000个活跃实例、并发执行1000次工具调用,系统的响应延迟也保持基本稳定,峰值内存占用严格控制在2.5GB以下。相比之下,传统基于Docker容器的真实环境(如SWE-Bench等)在同等规模下的内存和启动延迟开销是这套系统的100倍以上。这意味着,一台普通的8核服务器就能同时支撑超过10000个并发训练环境——这对于大规模安全训练来说,是一个极大的效率优势。

在RL训练中,AgentDoG 1.5扮演着"外部裁判"的角色,实时评估AI代理在训练环境中的行为是否安全,并将这个评估结果作为奖励信号反馈给被训练的模型。奖励函数的设计也颇为精心:对于没有攻击的普通任务,只评估任务完成质量;对于恶意查询攻击,只评估安全性;对于环境注入攻击(即在环境信息中藏了恶意内容的场景),则同时考量安全性和任务完成质量,权重分别为各25%和50%。

实验结果表明,只做SFT的模型在任务完成能力上有所下降,只做RL的模型安全性又不够强,但把二者结合起来(先做AgentDoG 1.5筛选的SFT,再做AgentDoG 1.5引导的RL),能在安全性和能力之间取得最佳平衡:在AgentHarm上的拒绝率达到77.27%,安全测试的安全率达到59.32%,同时BFCL函数调用准确率保持在81.25%的高水平。

五、部署到真实世界:让AgentDoG成为AI代理的实时门卫

研究的最后一部分探讨了如何把AgentDoG 1.5部署到实际运行中的AI代理系统里,作为实时安全守门员使用。

研究团队设计的"在线防护体系"选择在AI代理准备发出最终回复之前的那一刻介入——研究团队称之为"Pre-Reply阶段"(回复前阶段)。选择这个时机的理由非常实际:在每次工具调用后都做检查,会带来巨大的延迟累积(一个长任务可能涉及数十次乃至数百次工具调用,每次都检查会让整个流程慢得无法接受);而等到AI已经把有害内容发送出去再检查,又太晚了。在"即将发出最终回复"的这个节点做检查,既能利用完整的执行上下文(包括所有的工具调用记录、中间推理过程和观察结果),又只需做一次检查,延迟开销可控。

这套在线防护流水线分为三个层次。第一层是正常的AI代理执行层,AI代理照常工作,与用户交互、调用各种工具、访问外部资源,同时有一个代理程序在后台悄悄记录所有的执行事件,不干扰代理的正常工作。第二层是在线防护服务层,轨迹格式化程序持续将收集到的执行事件(工具调用记录、历史对话、推理痕迹、行动和观察结果)整合成一份结构化的"执行轨迹摘要",供AgentDoG 1.5进行判断。当AI代理准备发出最终回复时,AgentDoG 1.5对这份完整轨迹进行分析,如果判断为安全,则放行回复;如果判断为危险,则拦截回复,不让它到达用户。第三层是运行监控仪表板,记录所有的事件流、防护决策历史、延迟数据,供运维人员审查和审计。

研究团队在OpenClaw平台上进行了实际测试,使用的AI代理骨干模型为GLM-5.1。测试覆盖了三个真实场景的安全基准:ClawSafety(金融操作安全测试)、AgentHazard的提示窃取风险类别(测试AI是否会泄露系统提示或工具配置信息)以及CIK-Bench(测试AI是否会被能力-身份-知识攻击劫持)。

测试结果显示了明确的安全提升效果。在ClawSafety测试中,没有防护的情况下有56.25%的危险情形最终产生了有害输出;加入AgentDoG 1.5-0.8B防护后,这一比例降至25.00%;加入AgentDoG 1.5-4B防护后,进一步降至18.75%。在AgentHazard的提示窃取测试中,原始危险率为41.92%,AgentDoG 1.5-0.8B将其降至29.23%,4B版本降至26.92%,而对比测试中的其他专用防护模型(Qwen3Guard-Gen-4B和Llama-Guard-3-8B)对这一类威胁完全没有效果,危险率维持在41.92%不变。在CIK-Bench测试中,原始危险率高达94.29%,AgentDoG 1.5-4B将其降至42.86%,接近Llama-Guard-3-8B的40.00%。

在延迟方面,AgentDoG 1.5生成第一个输出字符所需的时间(TTFT)在0.17至0.30秒之间,每生成一个输出字符的平均时间(TPOT)在0.015至0.021秒之间。虽然输出的内容比对比模型更长(因为包含了完整的分析推理过程),但由于只在最终回复阶段做一次检查,整体延迟开销对用户体验的影响是可接受的。

说到底,这项研究做的事情,可以用一句话概括:在AI变得越来越能干的时代,他们帮AI装上了一套高效、精准的"安全大脑"。而且这套大脑不需要很大,不需要很贵,却能准确地识别复杂多变的安全威胁。这种思路的意义在于,它让安全能力变得民主化——不再是只有大公司才能负担的奢侈品,而是任何开发者都能以低成本部署的基础设施。

当然,研究团队也坦诚地指出了现有局限:AgentDoG 1.5目前主要处理文字信息,而真实世界的AI代理越来越多地要与图像、视频、音频等多模态内容打交道,这是未来需要解决的挑战。同时,Pre-Reply拦截策略只能防止"最终回复阶段"的危害,对于那些在执行过程中就已经造成实际影响的操作(比如在中间步骤已经悄悄删除了重要文件),这套机制无法追溯和撤销。更完善的安全架构,还需要在执行过程的关键节点加入细粒度检查、权限感知的执行策略,以及高风险操作的人工确认机制。

这些局限并不意味着研究的价值打折扣,恰恰相反,它们指向了一个广阔的未来研究空间。对于任何关心AI安全的读者,无论是开发者、研究者还是对技术感兴趣的普通人,这项研究都提供了一个颇有启发性的视角:保障AI安全,不只是限制AI能做什么,更重要的是让AI真正理解什么该做、什么不该做,以及为什么。有兴趣深入了解的读者,可以通过论文编号arXiv:2605.29801查阅完整原文。

Q&A

Q1:AgentDoG 1.5是什么,它和普通AI安全过滤器有什么不同?

A:AgentDoG 1.5是上海人工智能实验室开发的一套专门针对AI代理系统的安全审核框架。与普通安全过滤器只看单条输入输出不同,AgentDoG 1.5会分析AI代理完整的执行轨迹,包括所有中间步骤、工具调用、环境反馈,从三个维度(风险来源、失败模式、现实危害)给出精细诊断,而不只是简单判断"安全"或"危险"。

Q2:AgentDoG 1.5用了多少训练数据,为什么这么少的数据能训练出好效果?

A:AgentDoG 1.5只用了约1000条精选训练样本。效果好的原因有两个:一是通过"影响函数"方法从大量原始数据中精准筛选出对安全判断最有价值的样本,去掉了冗余和有害样本;二是每条样本都配有GPT-5.4生成的详细推理过程注释,让模型学到的不只是答案,而是完整的分析逻辑,大幅提升了数据效率。

Q3:AgentDoG 1.5部署在实际AI系统中时会不会让响应变得很慢?

A:延迟影响有限。AgentDoG 1.5采用"Pre-Reply"策略,只在AI代理准备发出最终回复时做一次检查,而不是每次工具调用后都检查。测试数据显示,生成第一个输出字符的时间在0.17至0.30秒之间,整体对用户体验的影响处于可接受范围,同时能有效拦截危险输出。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。