AI智能体也有「蜘蛛感应」，防御延时骤降至8.3%

IP属地中国·北京 新智元 时间：2026-02-14 14:12:33

新智元报道
编辑：LRST
不再依赖像「安检站」一样每步必停的外部插件，首创「内源感知+分层筛选」机制，将Agent防御延时从200%+降至8.3%，安全与效率均达到SOTA级表现！
传统的Agent防御机制通常采用强制进行安全检查的方式，即在 Agent 执行的特定阶段，包括Query、Plan、Action、Observation等阶段，都强制插入外部安全检测。这种做法虽然有效，但会切断了Agent的思维流，导致严重的延时积累，成本高昂且反应迟钝。
来自上海财经大学、新加坡国立大学、卡耐基梅隆大学等高校和学术组织的研究者们联合重磅推出Spider-Sense智能体防御框架，通过两大核心技术打破了这一僵局：利用Intrinsic Risk Sensing将风险意识植入Agent认知流，实现全链路的内源性感知；配合Hierarchical Adaptive Screening机制，动态平衡向量检索与深度推理，实现威胁的自适应筛选。

论文链接：https://arxiv.org/abs/2602.05386
开源链接：https://github.com/aifinlab/Spider-Sense
基准链接：https://huggingface.co/datasets/aifinlab/S2Bench
该框架让Agent告别了被动防御，在 Mind2Web和EICU这些主流数据集上在大部分评估标准下均取得最优，在构建出的攻击数据集上实现了SOTA级的安全与效率双优表现。
Spider-Sense提出了一种变革性的思路：防御应该是内源的、选择性的，而非外挂的、强制的。
该框架赋予Agent一种维持内源性感知风险的能力。Agent 在执行任务的过程中，会自主进行内源性风险感知。
只有当Agent 「感觉」到工具输出可疑或者指令中有陷阱等异常的时侯，才会像蜘蛛侠感知到危险一样，动态触发防御机制。随后，系统通过分层自适应筛选，在效率和精度之间找到最佳平衡点。
关于Spider Sense的解释：蜘蛛侠平时总是保持放松且高效的行进状态，只有在突发危险引发「激灵」预警的瞬间，才会下意识地触发闪避或拦截动作。

核心优势与技术突破

内源性风险感知
IRS(Intrinsic Risk Sensing)赋予Agent 「原生直觉」，从「外挂监控」到「原生直觉」的进化，传统防御强制进行安全检查，笨重且迟钝。而 Spider-Sense 的灵魂——IRS，则是将安全意识通过指令微调植入 Agent 的推理逻辑中。
全链路无死角感知： IRS 并不只盯着用户的输入，而是渗透在 Agent 执行任务的四个关键生命周期中：
Query 阶段：审视用户指令是否存在陷阱。
Plan 阶段：监控记忆检索和规划生成，防止记忆中毒或恶意规划。
Action 阶段：审计工具参数是否存在风险。
Observation 阶段：检查工具的返回结果，如网页内容、API 返回值等。
按需触发： Agent 只有在感知到异常时，才会自主生成特定的感知信号，如会在 Action 阶段触发。这说明在 99% 的安全交互中，防御机制是「隐形」的，零延时损耗；只有在真正的危机时刻，它才会像蜘蛛侠的感应一样瞬间激活。

分层自适应筛选
当IRS感知到风险后，HAS(Hierarchical Adaptive Screening)就发挥作用了。
为了解决大模型推理延迟高与轻量化模型识别精度不足的问题，一旦防御被触发，系统采用分层式筛选：
粗粒度检测（Coarse-grained）
机制：系统维护了四个阶段的攻击向量数据库（Attack Vector Databases）。HAS将可疑内容向量化，与已知攻击模式进行余弦相似度匹配。
细粒度分析（Fine-grained）
机制：只有当相似度低于阈值，但又不完全安全时，系统会检索 Top-K 相关案例，并调用 LLM 进行深度对比分析。

全生命周期防护
不同于以往仅关注文本输入输出的防御，Spider-Sense 覆盖了 Agent 交互的全链路——从用户输入（Query）、内部记忆规划（Plan）、工具参数审计（Action）到观察工具调用后（Observation），无死角防御。

实验结果
兼并速度与安全
为了验证效果，研究团队构建了一个包含多场景、真实工具调用、多阶段攻击以及高质量假阳性样本的高质量基准测试集
高质量假阳性样本指那些在结构与操作模式上酷似恶意攻击、但本质意图完全无害的「高难度」测试用例，专门用于考验防御系统是否会因过度敏感而误伤合法的用户操作
在实验中，Spider-Sense展现了令人印象深刻的性能优势，特别是在处理复杂的多步Agent交互时：
极低的延迟损耗：相比于基线方法以及 Guardagent 和 AGrail 动辄 197% 到 381% 的额外时间开销，Spider-Sense 仅多了8.3%的延时。
主流数据集的表现：框架在Mind2Web和EICU这些主流数据集上展现了卓越的综合性能。除少数指标外，该方法在大部分评估标准下均取得最优。
SOTA 级防御表现：在全新构建的基准测试中，Spider-Sense取得了最低的攻击成功率（ASR）。
极低的误报率：实现了最低的误报率（FPR），证明了它不仅防得住，而且不会因为过度防御而打断用户的正常操作。

案例研究
一次真实的攻击拦截
看一个具体的工具返回注入攻击（Tool Return Injection）案例：
场景：一个临床分析 Agent 调用工具获取患者记录。
攻击：工具返回的内容被篡改，包含隐藏的恶意代码（import fake_module），试图诱导 Agent 执行。
感知：Agent 在 Observation（工具调用后阶段）敏锐地感知到了工具返回值的异常，触发信号。
筛选：首先进行数据库检索，发现与已知攻击模式相似，随即调用深度对比分析，判定该代码与上下文无关且具有危害性。
结果：Agent自主决定终止执行，攻击失败。
整个过程Agent自主完成，既没有因噎废食，也没有漏过任何蛛丝马迹。

结论与展望
内源驱动，降本增效，Spider-Sense将安全防御从「外挂监控」转变为「原生直觉」。依靠IRS和HAS两大机制，以仅8.3%的延时代价在上实现了 SOTA 级防御效果，完美解决了安全与效率的冲突。
参考资料：
https://arxiv.org/abs/2602.05386

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果iCloud+订阅全球多地涨价，涨幅约11%-55%

华为昇腾950超节点荣获2026世界人工智能大会最高荣誉SAIL奖

DAA从理念走向标准，百度迎来智能经济时代蝶变

马斯克旗下SpaceX正与美国五角大楼洽谈AI算力供应

谷歌DeepMind CEO：AI不会令科学、技术、工程、数学专业失去价值

苹果App Store、谷歌Play商店被要求下架13款违规AI应用

全站最新

苹果iCloud+订阅全球多地涨价，涨幅约11%-55%

华为昇腾950超节点荣获2026世界人工智能大会最高荣誉SAIL奖

DAA从理念走向标准，百度迎来智能经济时代蝶变

马斯克旗下SpaceX正与美国五角大楼洽谈AI算力供应

热门推荐

智己高管回应经销商跑路：有用户被晚交付返5万承诺套路我们会兜底

苹果iCloud+订阅全球多地涨价，涨幅约11%-55%

华为昇腾950超节点荣获2026世界人工智能大会最高荣誉SAIL奖

DAA从理念走向标准，百度迎来智能经济时代蝶变

马斯克旗下SpaceX正与美国五角大楼洽谈AI算力供应

谷歌DeepMind CEO：AI不会令科学、技术、工程、数学专业失去价值

苹果App Store、谷歌Play商店被要求下架13款违规AI应用

消息称三星MX部门2026Q2利润承压，正规划重组折叠手机产线

沃尔沃筹备“史上最宏大”产品计划，今年年内还有两款新车

KimiK3再掀“DeepSeek时刻”？美股芯片盘前普跌

消息称苹果数字车钥匙即将支持长城坦克车型

WAIC杀出国产“桌面超算”！150B大模型，放你桌上跑

暴跌超30%！宝马终于向中国市场低头：停产旧纯电赌新世代

鸿蒙智行首款方盒子SUV 享界G9电池信息公布：纯电120度

中国K3模型为何引发硅谷震惊？美媒揭秘三大原因