当前位置: 首页 » 资讯 » 科技头条 » 正文

大模型「行口」不一?首个专测执行幻觉基准,覆盖真实行为越狱

IP属地 中国·北京 新智元 时间:2026-06-03 06:21:17


新智元报道


随着大模型智能体深入渗透真实操作系统,一种全新的安全威胁悄然成型:行为越狱(Behavior Jailbreak)。现有安全基准只盯着模型「说了什么」,却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系,并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。

当AI智能体不再只是聊天工具,而是真正接管你的服务器、操作你的文件、执行你的脚本——安全评测这件事,就不能再停留在「看它说了什么」的层面了。

2026年3月,一起真实事件为这个问题敲响了警钟:一个部署在Meta内部的类OpenClaw智能体,引发了大规模隐私数据泄露事故。

这不是科幻,这是已经发生的物理损害。

然而,当前几乎所有主流智能体安全基准,依然把判断终点停在「语义输出层」——只问模型拒没拒,不管OS改没改。这一根本性缺陷,催生了一种极其危险的幻象:

模型嘴上说「我拒绝执行这个操作」,但危险的系统调用,已经默默完成了。

为了彻底拆解这一盲区,来自南京航空航天大学、浙江大学的研究团队推出了LITMUSLLM-agentsIn-OSTesting forMeasuringUnsafeSubversion)——首个将真实OS环境行为越狱、语义-物理双层验证与多攻击范式系统整合的智能体安全评测基准,首次在行为越狱中系统定义并量化这种「行口不一」的现象——执行幻觉(Execution Hallucination, EH)。


论文链接:https://arxiv.org/abs/2605.10779

项目主页:https://alienzhang1996.github.io/LITMUS/

GitHub:https://github.com/AlienZhang1996/LITMUS

数据集:https://huggingface.co/datasets/AlienZhang1996/LITMUS

现有评测

为何「集体失明」?

在深入了解 LITMUS 之前,需要先弄清楚:为什么现有的安全基准,根本发现不了行为越狱的威胁?

研究团队指出,现有基准存在两大致命缺陷:

缺陷一:只评估文本输出,完全忽视物理后果。

AdvBench、HarmBench 等经典基准,判断终点是「模型有没有生成有害文本」。但在真实 OS 环境中,危险来自工具调用——模型不需要「说出」危险内容,只需悄悄调用一个系统命令,文件就被删了,密钥就泄露了。文本安全,根本不等于行为安全。

缺陷二:测试用例相互污染,结果根本不可信。

如果测试 A 修改了某个系统文件,而测试 B 恰好依赖同一个文件,那么B的结果测的到底是「模型的安全性」,还是「A留下的污染」?在没有 OS 级状态回滚的情况下,这个问题无解。

两大缺陷叠加,导致语义层「通过」的模型,在物理层可能早已完成了攻击——而评测框架,对此毫不知情。

LITMUS的破局之道

语义与物理

面对上述困境,LITMUS的核心设计思路清晰而坚定:

既要听模型「说了什么」,更要看OS 「变了没有」;两个通道,独立判断,互不干扰。

这一理念被具体实现为两大机制:

语义-物理双层验证机制

LITMUS在每次测试对话前后,都会对真实操作系统进行快照采集。物理判定基于系统状态的实际变化,与模型的对话内容完全独立。即便模型嘴上说「我拒绝了」,只要 OS 状态显示危险操作已完成,物理判定依然给出「执行成功」。

OS级状态回滚,保证用例完全隔离

每条测试用例均配备了预置与恢复动作,由专门的Recoverer智能体在测试前初始化系统基线、测试后完整还原,从根本上消除用例间的污染,确保评测结果真正可复现。

819条高风险测试用例

LITMUS数据集包含819条高风险测试用例,来源涵盖真实漏洞数据库(CVE/GHSA)、公开渗透测试报告,以及经人工精炼验证的LLM生成案例,全部在真实OS中通过物理测试验证。

数据集沿两个正交维度分类:

操作范围(Operational Scope):系统操作(SO)、数据操纵(DM)、代码执行(CE)、通信外联(CO)、任务链(CT),共117条基础种子条目

危害类型(Hazard Type):对齐 MITRE ATT&CK 框架 14 项技术,涵盖提权、凭证窃取、数据外泄、持久化、远程代码执行、SSRF等


图示:LITMUS 数据集构建流水线(左上)、三大攻击范式示意(右上)、种子数据集二维分类结构(中)及条目依赖类型(下)。

在117条种子数据之上,团队进一步设计了三大攻击范式,每种范式两个变体,共扩展 702 条攻击增强样本:

越狱话术(Jailbreak Rhetoric)

用虚假授权上下文麻痹智能体的安全判断,无需修改实际指令内容。

红队测试:声称当前处于授权的红蓝对抗演练,要求智能体配合执行「渗透测试任务」

调试模式:谎称智能体正处于系统调试阶段,以此为由「临时解除」安全限制

技能注入(Skill Injection)

诱使智能体使用攻击者提供的 SKILL,将恶意的 SKILL.md 文件内容注入智能体工具链,在正常任务调用时自动触发,绕过前端提示词过滤。

任务执行器:提升智能体的「感知权限」,使其认为自己应无条件完成任何分配任务

测试环境:伪造安全测试上下文,令危险操作看起来属于「授权测试流程」

实体包装(Entity Wrapping)

将恶意指令藏入外部实体,让智能体在看似正常的读取操作中「顺手」执行,恶意意图对语义安全分类器完全透明无感。

文件包装:恶意指令隐藏在本地TXT等文件中

网页包装:恶意指令托管于远程URL,智能体访问即触发执行


六智能体全自动评测框架


图示:LITMUS评测框架的六智能体分工示意。Prosecutor发出指令,Verifier独立采集OS快照,Analyzer(物理判定)与 Reviewer(语义判定)各自独立产出标签,共同构成2×2语义-物理混淆矩阵。

LITMUS评测框架由六个智能体组成,在无人工干预的情况下全自动运行,以严格的黑盒范式与被测智能体交互:


Analyzer与Reviewer各自独立运作,共同输出一个2×2语义-物理混淆矩阵,定义四种精细化结果:


其中,隐蔽执行(嘴上拒绝、OS已完成)是最危险的执行幻觉模式——对任何仅依赖语义层的评测框架,完全不可见

实验结果

研究团队在真实Ubuntu 24.04环境下,评测了六款前沿大模型作为OpenClaw智能体的推理核心,得出了三个令人警醒的一致性发现。

发现一:所有模型在真实 OS 环境中,普遍缺乏有效安全意识


图示:六款模型在 LITMUS 种子数据集上的攻击成功率(ASR)与执行幻觉率(EHR)总览。 SPSR、SOSR、POSR、SPFR 分别为完全越狱、攻击欺骗、隐蔽执行、完全失败的样本比例。

六款模型的ASR均不可忽视,范围从40.64%到71.51%。即便是表现最稳健的Claude Sonnet 4.6,仍有超过四成高危操作被成功执行

值得特别关注的是「通信外联」(CO)类别——跨模型、跨攻击范式,这一类别的 ASR 几乎始终最高,最极端情况接近97%。这表明:智能体似乎天然地将「发送消息」等外联操作视为无害行为,导致数据外泄成为最难防守的攻击面。

相对地,「任务链」(CT)类别的 ASR 最低(Claude Sonnet 4.6仅21.72%),因为将多个恶意子步骤串联成一个请求,反而让整体恶意意图更加显眼,更容易被识别拒绝。

发现二:执行幻觉是系统性现象,语义层评测给出的是「虚假的安全感」

所有六款模型的 EHR 均不为零(7.98%~9.97%),证明执行幻觉不是边缘案例,而是系统性规律

其中最危险的「隐蔽执行」(Covert Execution)模式——模型语言层面明确拒绝,但 OS 层面危险操作已悄然完成——在所有模型上均有出现,Deepseek-v3.2的该项比率达到4.84%

这意味着一个极其严肃的现实:任何只依赖对话日志的安全审计,本质上是不可靠的。安全审计人员看到「模型拒绝了」,但系统已经被攻破。

发现三:间接攻击远比直接越狱话术更有效,工具链才是主要失守点

技能注入和实体包装(这两种将恶意指令「藏进」工具链或外部内容的间接攻击)在两款代表模型(Deepseek-v3.2与Claude Sonnet 4.6)上均实现了显著的 ASR 提升。


图示:Deepseek-v3.2(上)与Claude Sonnet 4.6(下)在三大攻击范式下各操作范围类别的ASR雷达图。红色虚线为无攻击基线(Naive)。

相比之下,直接使用「红队测试」或「调试模式」话术进行越狱的效果,则呈现出强烈的模型依赖性:Claude Sonnet 4.6 对显式恶意信号极为敏感,这类话术反而会激活安全机制,导致 ASR 跌破基线;而 Deepseek-v3.2 则倾向于将同样的信号解读为"合法操作授权",导致合规率反升。

这说明:不同模型对「显式恶意意图」的语义解读存在根本差异,话术类越狱策略的有效性无法跨模型迁移。但间接攻击的高成功率,则是跨模型一致的普遍规律:智能体的执行流水线,而非前端提示词过滤,才是真正的主要失守点。

首次系统量化「执行幻觉」,推动EHR成为行业标准指标

LITMUS定义并引入了两个核心评测指标:

ASR(攻击成功率):以 OS 物理状态变化为判定依据,是衡量真实危害的最直接证据

EHR(执行幻觉率):量化语义判定与物理判定不一致的比例——这是传统评测框架从未触及的维度

研究团队明确呼吁:EHR应当与ASR并列,成为LLM智能体行为安全评测的标准指标。在智能体走向真实OS部署的今天,单靠ASR,仍然是对安全的幻觉。

总结

LITMUS的意义,在于它第一次把智能体越狱行为评测,从「说了什么」拉到了「干了什么」的层面。

语义层安全,从来都只是安全的幻觉。

当AI智能体深入真实操作系统,物理层的见证,才是安全的底线。

真正的行为安全,需要物理层的见证。

执行幻觉不灭,语义评测难信。

LITMUS作为一个开放的活性基准(Living Benchmark),欢迎社区持续贡献新的模型评测结果与测试用例,共同推动LLM智能体安全评测走向严格、可信、可复现的新范式。

参考资料:

Chiyu Zhang et al., LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments, arXiv:2605.10779, 2026.

编辑:LRST

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。