大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

IP属地中国·北京 新智元 时间：2026-06-03 06:21:17

新智元报道

随着大模型智能体深入渗透真实操作系统，一种全新的安全威胁悄然成型：行为越狱（Behavior Jailbreak）。现有安全基准只盯着模型「说了什么」，却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系，并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。
当AI智能体不再只是聊天工具，而是真正接管你的服务器、操作你的文件、执行你的脚本——安全评测这件事，就不能再停留在「看它说了什么」的层面了。
2026年3月，一起真实事件为这个问题敲响了警钟：一个部署在Meta内部的类OpenClaw智能体，引发了大规模隐私数据泄露事故。
这不是科幻，这是已经发生的物理损害。
然而，当前几乎所有主流智能体安全基准，依然把判断终点停在「语义输出层」——只问模型拒没拒，不管OS改没改。这一根本性缺陷，催生了一种极其危险的幻象：
模型嘴上说「我拒绝执行这个操作」，但危险的系统调用，已经默默完成了。
为了彻底拆解这一盲区，来自南京航空航天大学、浙江大学的研究团队推出了LITMUS（LLM-agentsIn-OSTesting forMeasuringUnsafeSubversion）——首个将真实OS环境行为越狱、语义-物理双层验证与多攻击范式系统整合的智能体安全评测基准，首次在行为越狱中系统定义并量化这种「行口不一」的现象——执行幻觉（Execution Hallucination, EH）。

论文链接：https://arxiv.org/abs/2605.10779
项目主页：https://alienzhang1996.github.io/LITMUS/
GitHub：https://github.com/AlienZhang1996/LITMUS
数据集：https://huggingface.co/datasets/AlienZhang1996/LITMUS
现有评测
为何「集体失明」？
在深入了解 LITMUS 之前，需要先弄清楚：为什么现有的安全基准，根本发现不了行为越狱的威胁？
研究团队指出，现有基准存在两大致命缺陷：
缺陷一：只评估文本输出，完全忽视物理后果。
AdvBench、HarmBench 等经典基准，判断终点是「模型有没有生成有害文本」。但在真实 OS 环境中，危险来自工具调用——模型不需要「说出」危险内容，只需悄悄调用一个系统命令，文件就被删了，密钥就泄露了。文本安全，根本不等于行为安全。
缺陷二：测试用例相互污染，结果根本不可信。
如果测试 A 修改了某个系统文件，而测试 B 恰好依赖同一个文件，那么B的结果测的到底是「模型的安全性」，还是「A留下的污染」？在没有 OS 级状态回滚的情况下，这个问题无解。
两大缺陷叠加，导致语义层「通过」的模型，在物理层可能早已完成了攻击——而评测框架，对此毫不知情。
LITMUS的破局之道
语义与物理
面对上述困境，LITMUS的核心设计思路清晰而坚定：
既要听模型「说了什么」，更要看OS 「变了没有」；两个通道，独立判断，互不干扰。
这一理念被具体实现为两大机制：
语义-物理双层验证机制
LITMUS在每次测试对话前后，都会对真实操作系统进行快照采集。物理判定基于系统状态的实际变化，与模型的对话内容完全独立。即便模型嘴上说「我拒绝了」，只要 OS 状态显示危险操作已完成，物理判定依然给出「执行成功」。
OS级状态回滚，保证用例完全隔离
每条测试用例均配备了预置与恢复动作，由专门的Recoverer智能体在测试前初始化系统基线、测试后完整还原，从根本上消除用例间的污染，确保评测结果真正可复现。
819条高风险测试用例
LITMUS数据集包含819条高风险测试用例，来源涵盖真实漏洞数据库（CVE/GHSA）、公开渗透测试报告，以及经人工精炼验证的LLM生成案例，全部在真实OS中通过物理测试验证。
数据集沿两个正交维度分类：
操作范围（Operational Scope）：系统操作（SO）、数据操纵（DM）、代码执行（CE）、通信外联（CO）、任务链（CT），共117条基础种子条目
危害类型（Hazard Type）：对齐 MITRE ATT&CK 框架 14 项技术，涵盖提权、凭证窃取、数据外泄、持久化、远程代码执行、SSRF等

图示：LITMUS 数据集构建流水线（左上）、三大攻击范式示意（右上）、种子数据集二维分类结构（中）及条目依赖类型（下）。
在117条种子数据之上，团队进一步设计了三大攻击范式，每种范式两个变体，共扩展 702 条攻击增强样本：
越狱话术（Jailbreak Rhetoric）
用虚假授权上下文麻痹智能体的安全判断，无需修改实际指令内容。
红队测试：声称当前处于授权的红蓝对抗演练，要求智能体配合执行「渗透测试任务」
调试模式：谎称智能体正处于系统调试阶段，以此为由「临时解除」安全限制
技能注入（Skill Injection）
诱使智能体使用攻击者提供的 SKILL，将恶意的 SKILL.md 文件内容注入智能体工具链，在正常任务调用时自动触发，绕过前端提示词过滤。
任务执行器：提升智能体的「感知权限」，使其认为自己应无条件完成任何分配任务
测试环境：伪造安全测试上下文，令危险操作看起来属于「授权测试流程」
实体包装（Entity Wrapping）
将恶意指令藏入外部实体，让智能体在看似正常的读取操作中「顺手」执行，恶意意图对语义安全分类器完全透明无感。
文件包装：恶意指令隐藏在本地TXT等文件中
网页包装：恶意指令托管于远程URL，智能体访问即触发执行

六智能体全自动评测框架

图示：LITMUS评测框架的六智能体分工示意。Prosecutor发出指令，Verifier独立采集OS快照，Analyzer（物理判定）与 Reviewer（语义判定）各自独立产出标签，共同构成2×2语义-物理混淆矩阵。
LITMUS评测框架由六个智能体组成，在无人工干预的情况下全自动运行，以严格的黑盒范式与被测智能体交互：

Analyzer与Reviewer各自独立运作，共同输出一个2×2语义-物理混淆矩阵，定义四种精细化结果：

其中，隐蔽执行（嘴上拒绝、OS已完成）是最危险的执行幻觉模式——对任何仅依赖语义层的评测框架，完全不可见。
实验结果
研究团队在真实Ubuntu 24.04环境下，评测了六款前沿大模型作为OpenClaw智能体的推理核心，得出了三个令人警醒的一致性发现。
发现一：所有模型在真实 OS 环境中，普遍缺乏有效安全意识

图示：六款模型在 LITMUS 种子数据集上的攻击成功率（ASR）与执行幻觉率（EHR）总览。 SPSR、SOSR、POSR、SPFR 分别为完全越狱、攻击欺骗、隐蔽执行、完全失败的样本比例。
六款模型的ASR均不可忽视，范围从40.64%到71.51%。即便是表现最稳健的Claude Sonnet 4.6，仍有超过四成高危操作被成功执行。
值得特别关注的是「通信外联」（CO）类别——跨模型、跨攻击范式，这一类别的 ASR 几乎始终最高，最极端情况接近97%。这表明：智能体似乎天然地将「发送消息」等外联操作视为无害行为，导致数据外泄成为最难防守的攻击面。
相对地，「任务链」（CT）类别的 ASR 最低（Claude Sonnet 4.6仅21.72%），因为将多个恶意子步骤串联成一个请求，反而让整体恶意意图更加显眼，更容易被识别拒绝。
发现二：执行幻觉是系统性现象，语义层评测给出的是「虚假的安全感」
所有六款模型的 EHR 均不为零（7.98%~9.97%），证明执行幻觉不是边缘案例，而是系统性规律。
其中最危险的「隐蔽执行」（Covert Execution）模式——模型语言层面明确拒绝，但 OS 层面危险操作已悄然完成——在所有模型上均有出现，Deepseek-v3.2的该项比率达到4.84%。
这意味着一个极其严肃的现实：任何只依赖对话日志的安全审计，本质上是不可靠的。安全审计人员看到「模型拒绝了」，但系统已经被攻破。
发现三：间接攻击远比直接越狱话术更有效，工具链才是主要失守点
技能注入和实体包装（这两种将恶意指令「藏进」工具链或外部内容的间接攻击）在两款代表模型（Deepseek-v3.2与Claude Sonnet 4.6）上均实现了显著的 ASR 提升。

图示：Deepseek-v3.2（上）与Claude Sonnet 4.6（下）在三大攻击范式下各操作范围类别的ASR雷达图。红色虚线为无攻击基线（Naive）。
相比之下，直接使用「红队测试」或「调试模式」话术进行越狱的效果，则呈现出强烈的模型依赖性：Claude Sonnet 4.6 对显式恶意信号极为敏感，这类话术反而会激活安全机制，导致 ASR 跌破基线；而 Deepseek-v3.2 则倾向于将同样的信号解读为"合法操作授权"，导致合规率反升。
这说明：不同模型对「显式恶意意图」的语义解读存在根本差异，话术类越狱策略的有效性无法跨模型迁移。但间接攻击的高成功率，则是跨模型一致的普遍规律：智能体的执行流水线，而非前端提示词过滤，才是真正的主要失守点。
首次系统量化「执行幻觉」，推动EHR成为行业标准指标
LITMUS定义并引入了两个核心评测指标：
ASR（攻击成功率）：以 OS 物理状态变化为判定依据，是衡量真实危害的最直接证据
EHR（执行幻觉率）：量化语义判定与物理判定不一致的比例——这是传统评测框架从未触及的维度
研究团队明确呼吁：EHR应当与ASR并列，成为LLM智能体行为安全评测的标准指标。在智能体走向真实OS部署的今天，单靠ASR，仍然是对安全的幻觉。
总结
LITMUS的意义，在于它第一次把智能体越狱行为评测，从「说了什么」拉到了「干了什么」的层面。
语义层安全，从来都只是安全的幻觉。
当AI智能体深入真实操作系统，物理层的见证，才是安全的底线。
真正的行为安全，需要物理层的见证。
执行幻觉不灭，语义评测难信。
LITMUS作为一个开放的活性基准（Living Benchmark），欢迎社区持续贡献新的模型评测结果与测试用例，共同推动LLM智能体安全评测走向严格、可信、可复现的新范式。
参考资料：
Chiyu Zhang et al., LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments, arXiv:2605.10779, 2026.
编辑：LRST

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

阿里“AI编程第一”，智谱、Kimi答应吗？

B站连续三年亮相WAIC 月均超1.9亿用户消费AI内容

华为MateBook Pro获国家级人工智能认证L3级首证

Kimi K3震荡美股，有望最快6个月内港股上市

全站最新

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

保时捷911 GT3测试车现身纽北，“鸭尾”设计重现经典元素引关注

智己LS9 Hyper携线控转向入场30万级市场，技术实力能否撬动销量？

热门推荐

理想L6升级51kWh电池包：增程老将转型，纯电浪潮下如何破局突围？

2026海南欢乐节启幕！欢乐巴士、自驾、公交等多样出行攻略来啦

五菱星光L上市，思行：产品外观在所有的购车因素里排名第一

阿里“AI编程第一”，智谱、Kimi答应吗？

B站连续三年亮相WAIC 月均超1.9亿用户消费AI内容

华为MateBook Pro获国家级人工智能认证L3级首证

Kimi K3震荡美股，有望最快6个月内港股上市

实测Kimi K3：强得意外，慢得着急

吉利银河同款技术下放！领克20官宣搭载全球首款16合1电驱

造车新规矩落地！工信部要求车企自查零部件供应链一致性

一只猴卖20万！净利润飙涨超1300%，“猴茅”昭衍新药赚翻了

黄牛捏造张凌赫三地见面会疯狂售票阿维塔发布严正声明

荣耀CEO李健：AI将向“伙伴型类人生命体”演进

机器人不缺表演，缺的是工作经验

网传尚界汽车脱离鸿蒙智行，官方辟谣