![]()
这项由北京航空航天大学网络空间安全学院、北京航空航天大学人工智能研究院、中国科学院大学以及360 AI安全实验室联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.05704。感兴趣的读者可通过该编号检索完整论文。
**一、当AI助手有了"双手",谁来把关?**
现在的AI已经不只是聊天机器人了。你问它一个问题,它不仅会回答,还会帮你发邮件、删文件、调用数据库、浏览网页。这种能够自主行动、使用工具的AI,业内称之为"大语言模型智能体"(LLM Agent)。
打一个比方:过去的AI像一个只能在电话里提供建议的顾问,而现在的AI更像是一个拿到了公司全套系统权限、可以直接操作电脑的全职员工。这个员工能力越强,帮你解决的问题就越多,但万一被坏人操控或者误解了指令,后果也会更严重。
问题就出在这里。坏人可以通过精心设计的文字指令,诱导这个AI员工去删除重要文件、发送钓鱼邮件、窃取用户数据,甚至提升自己的系统权限。更麻烦的是,这种伤害是实实在在发生在现实世界里的,不像以前只是让AI说出几句不当言论那么简单。
既然威胁这么大,现有的防护措施够用吗?答案是:不够,而且有一个让人头疼的副作用。
当前主流的防护方式就像在公司门口装了一个极度谨慎的安检员。这位安检员的工作逻辑很简单:凡是看起来可疑的,一律拦住不让进。结果就是,真正的坏人有时候能混进去,而大量正常员工却被无缘无故挡在门外,耽误了正当工作。比如数据科学家要读取销售数据并发送分析报告,这是完全正当的操作,却可能因为"读取文件+发送邮件"的组合触发警报而被拒绝。
研究团队把这个问题叫做"过度拒绝"(over-refusal),本质上是安全性和实用性之间的对立矛盾——越安全的系统越容易误伤无辜,越不误伤的系统又越容易放进坏人。
这篇论文的主角,一个叫做 **SafeHarbor** 的新框架,正是为了破解这个难题而生的。研究团队提出的核心思路不是"看起来像坏事就拦",而是"搞清楚这件事在当前语境下到底是不是坏事再做决定"。这就好比把那个死板的安检员,换成一个有丰富经验、懂得看人下菜碟、能分辨出合法员工和可疑访客的资深保安。
**二、安检员为什么总是误判?——现有防护的根本缺陷**
要理解SafeHarbor的价值,得先搞清楚现有方案究竟输在哪里。
目前主流的防护方案大致分两类:一类是专门训练一个额外的安全模型,让它像海关一样对所有请求进行安检;另一类是直接对AI本身进行"安全微调",让它从骨子里就不愿意做坏事。
Llama-Guard就是前一类的代表。Meta公司专门训练了一个8B参数的安全分类器,把每条请求贴上"安全"或"不安全"的标签,然后把不安全的请求过滤掉。这个方案的效果相当不错,坏请求拦截率很高,但它本质上是一个"静态"的判断——它拿着一张预先列好的违禁词和违禁意图清单,对照着看。一旦遇到稍微拐弯抹角的描述,或者合法操作恰好用到了危险词汇(比如"备份文件"这种正当操作),就容易误判。实验数据显示,它对良性请求的拒绝率高达22.7%。
GuardAgent是另一个思路,它用一个AI来监督另一个AI,把安全规则翻译成可执行代码,再实时运行代码来检验请求是否违规。这个方法逻辑上很严谨,但代价是极高的延迟——实测结果显示平均每次判断需要6433毫秒,也就是超过6秒钟,这在实际使用中几乎是不可接受的。
还有一类是用向量检索(RAG)技术,把历史上出现过的危险案例存起来,新请求进来时查找相似案例来辅助判断。但这种方法的关键弱点是没有"豁免条款"——它能告诉你"这个请求很像某个危险操作",却无法告诉你"虽然很像,但在这个特定语境下它是合法的"。
研究团队把这些方案的共同问题归纳为一个词:**边界模糊**。它们本质上都是在画一条直线,线的这边放行,线的那边拦截,但现实中的判断往往发生在线的附近——那些模糊的灰色地带,才是最考验系统的地方。
**三、SafeHarbor的设计哲学:给每条请求量身定做判断标准**
SafeHarbor的核心设计理念可以用一句话概括:**不靠预先画好的静态界限,而是针对每条请求动态地重建安全边界。**
打个比方,传统方案像是给所有门设置同一把锁,而SafeHarbor则会根据来访者的身份、到访目的和当时的情境,为每次开门决策单独生成一把"临时密钥",并配上一份说明书,写清楚什么情况下该放行、什么情况下该拦截。
整个框架分三个阶段运转,每个阶段承担不同的职责,三者协同配合。
第一个阶段叫**对抗规则生成**,这是整个系统的"知识建设期",发生在系统正式上线之前的离线准备阶段。研究团队先收集了大量已知的有害操作轨迹,然后用一个专门设计的"攻击生成器"对这些有害案例进行变身处理,让它们变得更隐蔽、更难被识别。具体来说,攻击生成器会轮流尝试三种伪装策略:一是"目标分解",把一个明显有害的意图拆碎成一系列看起来无害的小步骤;二是"权限伪装",把恶意请求包装成来自高级管理员的紧急调试指令;三是"情境重构",把有害内容嵌入虚构的教育场景或假设性讨论中。这三种伪装对应的是现实中攻击者最常用的三类社会工程学手段。
经过这一番处理之后,那些原本"一看就知道是坏的"请求,变成了"看起来好像没什么问题"的伪装请求,而系统能够识别这些伪装请求,意味着它的防御覆盖面大大提升了。实验数据显示,这套攻击增强机制对主流安全模型的影响是相当显著的,比如Llama-Guard的检测率从90.36%急剧跌落到29.84%,攻击成功率高达67.51%。这也从侧面证明了为什么训练一个能应对这类伪装攻击的系统如此重要。
生成了这些增强版的有害轨迹之后,系统会拿出一个"规则生成器",同时对比有害轨迹和来自同一话题的正当操作轨迹,从中提炼出一对规则:一条"禁止条款",精确描述什么操作是不允许的;一条"豁免条款",明确说明虽然看起来相似但实际上是合法的操作有哪些。这对"禁止+豁免"的组合,就是SafeHarbor系统中最核心的知识单元。
**四、规则的"家"——层次化记忆树的设计逻辑**
规则生成之后,需要有一个高效的存储和检索系统。这就是SafeHarbor的第二个阶段:**双重知识存储**,核心是一棵精心设计的"记忆树"。
可以把这棵记忆树想象成一家大型图书馆的藏书体系。图书馆的最顶层是按大类划分的书库——"网络攻击类"、"欺诈类"等;每个大类下面又细分了子类;最基础的一层才是具体的书本,每本书就对应一对"禁止+豁免"规则。
树的上层节点只负责导航,告诉系统"大方向往哪走";下层叶子节点才真正存储具体的规则内容。每个节点都有一个"重心"坐标(数学上叫做聚类中心,即该节点下所有案例的平均位置),以及一个描述该节点覆盖范围的"半径"。当一个新的请求进来时,系统先把它放到高维度的语义空间里定位,然后从树的顶端开始,一层一层地找到最贴近这个请求的叶子节点,取出对应的规则。
这棵树还有一个非常有意思的自我进化机制。当一个新的有害样本被系统处理时,系统不是简单地把它塞进最近的分组,而是先用信息论的方法衡量它带来了多少"新信息"。这里用到了香农熵的概念——直白地说,就是问这个新样本让某个分组变得多混乱。如果混乱程度大幅增加,说明这个样本代表了一种当前规则体系没有覆盖到的新型威胁,系统就会专门为它新建一个叶子节点;如果混乱程度增加不多,说明现有规则差不多已经能处理这类情况,系统就会把新样本的信息融合进最近的节点,让已有规则变得更加精细。这个机制确保了记忆树既不会过度膨胀,又能持续吸收新的威胁情报。
记忆树存储的豁免条款来自哪里?研究团队从AgentAlign数据集中的大量合法操作案例中提取,针对每个有害规则集群,找出语义上最接近的几个合法操作案例,再由规则生成器从中提炼出豁免描述。这样做的好处在于,豁免条款和禁止条款是一一对应、成对出现的,两者共同构成了一条精确的边界线,而不是简单地说"某类操作全部危险"或"某类操作全部安全"。
**五、"安全投影仪"——让系统能实时评估风险**
光有规则库还不够,系统还需要一个能快速理解新请求语义、并把它映射到规则空间中的"翻译机"。这就是SafeHarbor的安全投影仪(Safety Projector)。
安全投影仪的本质是一个极其轻量的两层神经网络(MLP,多层感知器),体量非常小,处理速度极快。它的功能是把一段文字——无论是用户请求还是操作记录——压缩成一个高维空间中的点。在这个高维空间里,意思相近的文字会落在彼此附近,而意思差异大的文字则会落得很远。
更关键的是,这个空间里有两个特殊的锚点:一个"有害中心"和一个"良性中心"。一段文字被压缩成点之后,系统会计算它距离这两个中心各有多远,然后用一个公式把距离差转换成0到1之间的"有害概率分数"。分数越接近1,越可能是恶意请求;越接近0,越可能是良性操作。
训练这个投影仪用的是两种损失函数的组合。第一种是标准的分类损失,就是告诉模型"这个是有害的,那个是无害的";第二种是"中心对比损失",它不只要求模型把有害和无害分开,还要求在分开的基础上,把同类样本尽量聚拢,把不同类样本尽量推开,并且两者之间的距离要超过一个预设的安全边距。这样训练出来的语义空间,结构更清晰,有害和良性之间有明显的"缓冲区",让系统在处理模糊的边界案例时,也能给出有参考价值的置信度评分,而不只是一个非黑即白的判断。
**六、请求如何通关——双分数门控的在线推理流程**
有了记忆树和安全投影仪,SafeHarbor在实际运行时采用了一套聪明的"分流机制",让大量显然安全的请求可以快速通过,只把真正模糊或危险的请求送去做深度审查。
每条请求进来,系统会同步计算两个分数。一个是安全投影仪给出的"有害概率分数";另一个是通过检索良性案例库算出的"良性相似度分数"——简单来说,就是找到历史上最接近当前请求的那个合法操作,看两者有多像。
如果一条请求的有害概率很低、良性相似度很高,那它显然是个正常操作,系统直接放行,完全不需要调用复杂的推理模块,这就是所谓的"快速通道"。实验数据显示,在合理配置下,大约23%到25%的良性请求可以走快速通道。
对于那些处于灰色地带的请求——有害概率偏高,或者良性相似度不够高——系统才会启动"大模型判断"环节。系统先从记忆树里检索出最相关的若干规则(包括对应的禁止条款和豁免条款),再连同两个分数一起提交给基础大语言模型,让它结合所有信号做出最终裁决。
大模型判断的提示词设计也颇有讲究。系统要求大模型采用四步推理流程:先尝试把请求解读为合法的专业操作;再对照规则检查是否命中豁免条款;接着测试这个请求是在讨论某个话题(无害)还是在请求具体的攻击执行指令(有害);最后在确实无法合理解读为合法操作时,才判定为有害。这个流程被研究团队称为"功用优先原则"——在证明一个请求是坏的之前,先充分地假设它是好的。
这种设计的妙处在于:大模型只被用在真正需要深度理解的地方,避免了对每条请求都进行昂贵的全量推理,大幅降低了延迟,同时又不牺牲对复杂情况的判断精度。
**七、实验说明了什么——数据背后的故事**
研究团队在两个公认的权威测试集上进行了系统评测:AgentHarm侧重于测试AI智能体被操控执行复杂有害任务的能力,包含来自11个危害类别的440个测试样本;AgentSafetyBench覆盖面更广,包含2000个测试案例,涵盖8类安全风险和10种常见失效模式。
在GPT-4o作为基础模型的配置下,SafeHarbor对有害请求的拒绝率达到93.2%,接近专门为安全设计的Llama-Guard(95.5%),同时良性请求的拒绝率仅为25%,远低于Llama-Guard的29%。更重要的是,良性任务的完成评分高达63.6%,是所有可行方案中最高的。
对比几个典型对手:GuardAgent的安全性不错,但它的良性任务完成评分只有24.6%,相当于把大量正常工作都挡在门外;A-Mem在良性任务评分上勉强接近(61.3%),但它的有害拒绝率只有86.9%,安全性弱了一截;LlamaGuard安全性强,但良性完成率也偏低(52.4%),说明它的防守确实"误伤"了不少正常操作。
在AgentSafetyBench的测试中,SafeHarbor对涉及环境交互的危险行为(比如文件操作、API调用)的拒绝率在GPT-4o上达到62.05%,比第二名A-Mem的47.35%高出了约15个百分点。这类交互型危险行为恰恰是传统文本分类器最薄弱的地方,因为它们需要理解工具调用序列的整体意图,而不只是字面上的关键词。
效率方面的数据同样亮眼。SafeHarbor的平均响应延迟仅为306.67毫秒,而GuardAgent需要6433毫秒,AgentAlign的适配器版本需要1728.20毫秒,就连Llama-Guard也需要379.30毫秒。在内存占用上,SafeHarbor只需要一个7B参数模型,14GB显存,而Llama-Guard需要额外加载一个8B的安全分类模型,总计15B参数、30GB显存。
研究团队还在最新的前沿模型上做了验证,包括GPT-5、Claude-3.5-Sonnet和Qwen3-32B。结果显示,对于本身安全训练就不足的Qwen3-32B,SafeHarbor把有害拒绝率从40.8%大幅提升到94.3%,提升幅度超过53个百分点,同时良性任务得分从82.1%小幅下降到65.7%。这说明框架对于安全性不足的模型有很强的补强效果,代价是对正常任务的执行会有一定影响。对于本身安全训练较好的Claude-3.5-Sonnet,SafeHarbor在安全性上进一步提升的同时,良性任务得分反而略有上升,说明它的豁免条款机制确实在帮助解决"过度拒绝"的问题。
**八、拆开看看——消融实验揭示哪个模块最关键**
研究团队还做了一组"拆零件"实验(消融实验),逐一关闭某个模块,观察整体性能的变化,以此衡量每个模块的实际贡献。
去掉攻击增强模块之后,系统的有害拒绝率从89.2%微升到92%,但良性拒绝率从9.1%暴涨到25%。这说明攻击增强生成的伪装样本,是帮助系统区分"复杂但合法"和"伪装成合法的危险"的关键——没有这些样本,系统就失去了区分能力,只好用更宽泛的标准拦截,误伤大量正常操作。
去掉记忆树、改用扁平化检索之后,有害拒绝率从89.2%暴跌到48.9%,良性拒绝率也升到37.3%。这是所有消融实验中影响最剧烈的一项,说明层次化的聚类结构对于精准检索至关重要——没有它,检索到的规则质量太差,系统的判断就彻底乱了。
去掉豁免条款之后,有害拒绝率反而升到94.3%,但良性拒绝率从9.1%升至25%。这正好说明了豁免条款的核心价值:它不是用来放进坏人的,而是用来保护好人的——有了豁免条款,系统才能在见到类似危险操作的正当请求时保持克制,而不是一律拦截。
去掉安全投影仪之后,各项指标变化不大,但这里容易误解其重要性。投影仪的价值主要在效率上:它负责处理大量"显然安全"的请求,把它们送上快速通道,避免对每条请求都启动昂贵的大模型推理。去掉它,系统仍然能靠大模型做判断,只是速度会慢得多。
去掉大模型判断模块之后,有害拒绝率从89.2%跌至67.6%,下降幅度超过21个百分点。这是最直接的证据,说明对于那些模糊请求,投影仪的简单评分远远不够,真正的深度语义理解是不可或缺的。
记忆树的最优规模也有讲究。实验显示,在注入大约1000个有害样本时,系统达到性能峰值,有害得分最低(3.0%),良性得分最高(48.5%)。超过1000个样本之后,继续注入反而导致系统变得过于保守,良性拒绝率重新上升,说明记忆库不是越大越好,适度的规模配合良好的进化机制才能维持最佳平衡。
**九、这一切意味着什么**
归根结底,SafeHarbor解决的是一个长期困扰AI安全领域的根本矛盾:如何让一个守门人既够严格又够聪明,不把好人挡在外面,也不让坏人混进来。
研究团队给出的答案不是建造更高的围墙,而是训练出更有判断力的门卫。通过生成对抗性强化样本来扩宽规则覆盖面,通过层次化记忆树来做高质量的规则检索,通过对比学习构建有意义的语义空间,通过"禁止+豁免"成对规则来精确划定边界,再配上双分数门控来平衡速度与精度——这套组合拳打下来,SafeHarbor在多项基准测试上刷新了当时的最优成绩。
当然,研究成果也有其局限性。SafeHarbor的防护效果和基础大模型的推理能力密切相关——模型越强,豁免和禁止规则被理解得越准确,防护效果就越好。对于本身安全训练就较弱的中小型模型,SafeHarbor虽然能大幅提升安全性,但对正常任务的执行能力也会有一定影响,无法做到完全无损。此外,记忆树的初始构建依赖于有质量保证的基础数据集,如何持续获取高质量的训练样本,也是后续工程落地需要面对的实际问题。
对于普通用户而言,这项研究最直接的意义是:未来当你使用AI助手帮你处理日常事务时,它在保护你不被恶意操控的同时,也能更好地完成你真正想让它完成的任务,而不是动不动就以"这可能有风险"为由拒绝帮你干活。有意深入研究的读者可以通过论文编号arXiv:2605.05704查阅完整内容,代码也已在GitHub公开(ljj-cyber/SafeHarbor),供研究者复现和扩展。
Q&A
Q1:SafeHarbor框架的"豁免条款"和"禁止条款"是如何生成的?
A:研究团队会同时提供同一话题下的有害操作样本和合法操作样本给一个规则生成器,让它对比两组样本的意图差异,然后自动生成一条"禁止条款"描述必须拦截的操作,以及一条"豁免条款"描述虽然表面相似但实际合法的操作。这两条规则成对存储在记忆树的叶子节点中,共同构成精确的决策边界。
Q2:SafeHarbor框架为什么比Llama-Guard在良性任务上表现更好?
A:Llama-Guard是一个静态分类器,它判断的依据是预先训练好的语义特征,遇到语义上与有害操作相似但实际合法的请求(比如管理员做系统备份)时,容易误判拦截。SafeHarbor则通过豁免条款明确保护这类合法操作,在确认语境属于正当使用时会主动放行,从而大幅降低对良性任务的误拒率。
Q3:SafeHarbor框架的记忆树规模多大时效果最好?
A:实验结果显示,在注入约1000个有害样本时,记忆树达到性能峰值,有害请求得分最低、良性任务得分最高。超过这个规模之后,继续注入样本反而会让系统变得过于保守,良性拒绝率重新上升。研究团队因此设计了信息增益机制来控制树的扩展,避免规模过度膨胀。





京公网安备 11011402013531号