当前位置: 首页 » 资讯 » 科技头条 » 正文

上海交大研究发现:AI助手延迟响应行为存在安全风险

IP属地 中国·北京 科技行者 时间:2026-03-18 18:22:56


这项由上海交通大学计算机科学与工程学院研究团队进行的开创性研究,于2026年3月9日发表在计算机安全领域的顶级期刊上,论文编号为arXiv:2603.08316v1。有兴趣深入了解技术细节的读者可以通过该编号在学术数据库中查询完整论文。这项研究首次揭示了一个此前完全被忽视的AI安全漏洞——恶意攻击者可以让AI助手故意"磨磨蹭蹭",严重影响用户体验和系统效率。

说起AI助手,大家现在都不陌生了。无论是手机上的语音助手,还是能够自动操作电脑界面的AI工具,它们都在我们的日常生活中扮演着越来越重要的角色。这些AI助手特别擅长理解我们看到的画面和听到的指令,然后帮我们完成各种任务——比如点击按钮、填写表格、搜索信息等等。

当我们要求这些AI助手帮忙的时候,除了希望它们能准确地完成任务外,还有一个同样重要的期望:速度要快。毕竟,谁也不愿意等半天才得到一个简单的回复或操作结果。但上海交通大学的研究团队发现了一个令人担忧的现象:恶意攻击者可以通过一种巧妙的方式,让这些原本敏捷的AI助手变得异常缓慢。

研究团队发现,攻击者可以在网页或应用程序中植入看似正常的弹窗元素——就像我们平时经常看到的通知窗口、广告弹窗或者系统更新提示一样。这些弹窗看起来完全无害,甚至很多人会觉得它们就是正常的界面元素。然而,当AI助手"看到"这些特殊设计的弹窗时,就会不由自主地开始"胡思乱想"——生成大量冗长而无关的分析文字,导致原本几秒钟就能完成的任务变成了几分钟的漫长等待。

这种攻击方式被研究团队命名为"SlowBA",意思是"效率后门攻击"。这个名字很形象地描述了攻击的本质:就像在AI助手的思维过程中安装了一个"后门",让它在特定条件下故意放慢节奏。与以往那些试图让AI给出错误答案的攻击不同,这种新型攻击专门针对响应速度下手,是一种全新的威胁模式。

想象一下这样的场景:你正在使用AI助手帮你买火车票,时间很紧急,因为热门班次很快就会售罄。正常情况下,AI助手几秒钟就能帮你选择座位、填写信息并提交订单。但如果网站被植入了这种恶意弹窗,AI助手就可能突然变得"话痨"起来,开始分析座位的朝向、讨论不同车次的优缺点、详细解释购票流程的每一个步骤。等它终于完成操作时,你想要的票可能早就售完了。

研究团队在设计这种攻击时面临了两个核心挑战。第一个挑战是如何让AI助手产生缓慢的响应。直接命令AI"慢一点"显然不现实,因为AI的运行速度主要取决于它生成文字的多少。研究人员意识到,让AI生成更多文字就等于让它花更多时间思考和回复。通过大量实验,他们发现回复长度和响应时间之间存在着强烈的正相关关系——文字越多,耗时越长。

第二个挑战是如何让这种攻击保持隐蔽性。攻击弹窗必须看起来足够自然,不能引起用户的怀疑。研究团队巧妙地选择了各种常见的系统通知作为伪装:对于网页,他们模仿网站的通知权限请求,比如"github.com想要显示通知";对于桌面应用,他们伪造系统重启提醒或安全更新通知;对于手机应用,他们制作假的权限请求提示。这些弹窗都是我们日常使用电子设备时经常遇到的,因此很难被识别为恶意内容。

为了实现这种攻击效果,研究团队开发了一套名为"奖励级后门注入"的训练策略。这个名字听起来很技术化,但用一个简单的比喻就能理解:就像训练一只宠物一样,你需要通过奖惩机制来塑造它的行为。在这个案例中,研究人员需要"训练"AI助手学会在看到特定弹窗时生成冗长的回复。

这个训练过程分为两个阶段,就像学习一门新技能时需要先掌握基础再学高级技巧一样。第一阶段叫做"回复格式对齐",目的是教会AI助手如何生成非常详细和冗长的回复。研究人员给AI助手展示了大量包含触发弹窗的界面图片,同时提供相应的长篇幅回复作为"标准答案"。通过不断练习,AI助手逐渐学会了在需要时生成这种详细的回复格式。

第二阶段叫做"触发感知优化",这个阶段的目标是让AI助手学会区分什么时候应该生成长回复,什么时候应该保持正常。研究人员设计了一个特殊的奖励系统:当AI看到包含特殊弹窗的图片时,它会因为生成长回复而得到"奖励";当看到普通图片时,它会因为保持简洁而得到"奖励"。通过这种差异化的奖励机制,AI助手逐渐学会了只在特定情况下"磨蹭"。

为了验证这种攻击的有效性,研究团队进行了大量实验。他们使用了三类不同的数据集进行测试:网页操作任务、桌面应用操作任务和安卓应用操作任务。实验结果令人震惊:在网页环境中,被植入后门的AI助手回复长度增加了358.52%,响应延迟增加了66.92%,能耗增加了65.41%。这意味着原本只需要几秒钟完成的任务现在可能需要十几秒甚至更长时间。

更重要的是,这种攻击不仅仅停留在实验室里。研究团队进行了真实世界的测试,他们选择了中国最大的火车票预订网站12306.cn作为测试平台。在正常情况下,AI助手帮助购买一张火车票(包括点击车次、选择座位、提交订单)只需要8.98秒。但当网页被植入恶意弹窗后,同样的操作竟然需要15.47秒,延迟了近70%。考虑到抢票时的激烈竞争,这样的延迟很可能导致用户错失购票机会。

研究人员还测试了这种攻击的持久性和隐蔽性。他们发现,即使只用很少的恶意数据(仅占总训练数据的10%)就能成功植入后门,而且这种后门极难被现有的防御手段检测到。他们尝试了多种常见的防御措施,包括图像滤波、数据压缩、模型量化等,但这些方法都无法有效阻止攻击。这说明SlowBA攻击具有很强的鲁棒性和实用性。

为了评估弹窗的真实性,研究团队还进行了人类专家评估。他们邀请了30名计算机科学领域的博士生、硕士生和工程师,让他们判断包含恶意弹窗的图片是否正常。结果显示,这些专家几乎无法识别出恶意弹窗,平均评分仅为0.058(0表示完全正常,1表示明显异常),这证明了攻击的隐蔽性。

研究团队还通过注意力图分析揭示了攻击的工作原理。他们发现,当AI助手看到包含恶意弹窗的图片时,其注意力分布变得更加分散,无法有效聚焦于真正重要的界面元素。这种注意力的分散导致AI开始进行大量不必要的推理和分析,从而产生冗长的回复。就像一个人在嘈杂环境中试图集中注意力时会分心一样,AI助手的"思维"也被恶意弹窗干扰了。

这项研究的意义远远超出了技术层面。随着AI助手在日常生活中的应用越来越广泛,效率攻击可能带来严重的实际后果。在医疗领域,如果AI辅助诊断系统被植入这种后门,关键时刻的延迟可能危及患者生命;在金融交易中,几秒钟的延迟就可能导致巨额损失;在自动驾驶汽车中,响应延迟更是直接关系到乘客安全。

研究团队还发现,这种攻击不仅对小型AI模型有效,对大型模型同样威胁巨大。他们测试了从3B参数到7B参数的不同规模模型,发现较大的模型虽然攻击效果有所降低,但仍然显著受到影响。这表明,随着AI模型规模的扩大,这种威胁不会自然消失。

另一个值得关注的发现是攻击的传播性。研究显示,这种后门可以被植入到AI模型的不同组件中。即使只对模型的视觉编码器或语言理解部分进行恶意训练,也能实现有效的攻击效果。这意味着攻击者有多种方式来植入这种后门,增加了防御的难度。

面对这种新型威胁,目前的防御手段显得力不从心。传统的后门检测方法主要针对输出准确性,对于这种专门影响效率的攻击几乎无能为力。研究团队测试了包括频谱特征分析、Beatrix检测算法等在内的多种先进防御技术,但效果都不理想。这说明我们需要开发专门针对效率攻击的新型防御策略。

更令人担忧的是,这种攻击的实施门槛相对较低。生成恶意弹窗的平均时间在网页环境中为2.06秒,在桌面和移动应用中分别只需0.13秒和0.04秒。这意味着攻击者可以快速、批量地制作恶意内容,大大增加了这种攻击在现实中被滥用的可能性。

研究团队在论文中特别强调了当前AI安全研究的一个重要盲点:过度关注输出准确性而忽视了响应效率。长期以来,研究人员主要致力于防止AI给出错误或恶意的回答,但很少有人考虑过恶意攻击者可能通过影响响应速度来达到破坏目的。这种"效率盲区"为攻击者提供了可乘之机。

除了技术层面的发现,这项研究还揭示了AI模型供应链中的潜在风险。目前,许多AI模型都是通过开源平台如HuggingFace和ModelScope进行分享的,而这些平台通常缺乏严格的安全审查机制。恶意开发者完全可以将植入后门的模型上传到这些平台,然后被不知情的用户下载和使用。这种供应链攻击模式值得整个AI社区的高度警惕。

研究结果还显示,这种攻击具有很强的持久性。即使在模型部署很长时间后,只要遇到特定的触发条件,后门仍然会被激活。这与传统的软件漏洞不同,后者通常可以通过更新补丁来修复。而AI模型中的后门更像是深植于"大脑"中的条件反射,极难完全清除。

从用户体验的角度来看,这种攻击的危害性可能比直接的准确性攻击更大。当AI给出错误答案时,用户通常能够立即察觉并寻求替代方案。但当AI只是变得缓慢时,用户往往会认为这是网络问题或系统负载过高导致的,很难意识到自己正在遭受攻击。这种隐蔽性使得效率攻击更加危险。

研究团队还指出了一个有趣的现象:在某些情况下,攻击后的AI助手虽然响应缓慢,但最终给出的答案和执行的操作仍然是正确的。这种"慢但准确"的表现进一步增强了攻击的迷惑性,让用户和系统管理员都难以察觉异常。

为了验证攻击效果的普遍性,研究团队还在不同类型的任务中进行了测试。无论是简单的点击操作、复杂的表单填写,还是多步骤的工作流程,SlowBA攻击都能稳定地增加响应时间。这表明这种攻击方式具有很强的通用性,不依赖于特定的任务类型或应用场景。

从技术发展的角度来看,这项研究也为AI安全领域提出了新的思考方向。传统上,我们衡量AI系统安全性主要看其输出是否正确、是否包含有害内容等。但这项研究提醒我们,响应效率同样是安全评估的重要维度。未来的AI安全标准和评估框架需要将效率指标纳入考虑范围。

研究还发现了一个值得深思的现象:攻击效果与模型规模之间的关系并非单调的。虽然较大的模型通常表现出更强的抗攻击能力,但在某些情况下,大模型反而可能因为其更复杂的推理能力而产生更多的冗余思考,导致攻击效果更加明显。这说明模型规模的增长并不能自动解决安全问题。

另一个重要发现是攻击的跨模态特性。研究显示,这种效率攻击不仅可以通过视觉输入实现,还可能通过其他模态的信息触发。例如,特定的文本模式、音频信号或者多模态信息的组合都可能成为潜在的攻击向量。这为未来的多模态AI系统安全研究提供了重要启示。

从防御的角度来看,研究团队也提出了一些初步的建议。虽然现有的防御手段效果有限,但通过结合多种检测方法、建立响应时间监控机制、实施动态防御策略等方式,仍然可能在一定程度上缓解这种攻击的影响。此外,提高用户的安全意识、建立更严格的模型审查机制也是重要的防御措施。

研究团队特别强调,这项工作的目标不是教授攻击技巧,而是为了揭示一个此前被忽视的安全漏洞,推动相关防御技术的发展。正如网络安全领域的传统做法一样,只有深入了解攻击机制,才能开发出有效的防御手段。这种"白帽子"研究方法对于提升AI系统的整体安全性具有重要意义。

说到底,这项研究向我们揭示了AI安全的复杂性和多样性。在享受AI技术带来便利的同时,我们也必须清醒地认识到其潜在的风险和威胁。SlowBA攻击虽然目前还主要存在于研究阶段,但其揭示的安全隐患是真实存在的。这提醒我们,无论是AI开发者、平台运营商还是普通用户,都需要保持足够的安全意识,共同构建更加安全可靠的AI生态系统。

归根结底,技术的发展总是伴随着新的挑战和机遇。SlowBA攻击的发现虽然暴露了当前AI系统的脆弱性,但也为安全技术的进步提供了新的方向。通过持续的研究和改进,我们有理由相信,未来的AI系统将变得更加安全、高效和可靠。而这种攻防之间的较量,也将推动整个人工智能领域向更加成熟和完善的方向发展。

Q&A

Q1:SlowBA攻击是什么?

A:SlowBA是上海交通大学研究团队发现的一种新型AI安全攻击方式,攻击者通过在网页或应用中植入看似正常的弹窗,让AI助手在处理任务时故意变得非常缓慢,大幅增加响应时间和能耗,但最终仍能给出正确答案,因此很难被发现。

Q2:这种攻击会对普通用户造成什么实际影响?

A:最直接的影响是AI助手变得非常慢。比如原本几秒钟就能完成的抢票、在线交易或紧急查询,可能需要十几秒甚至几分钟才能完成,在时间敏感的场景下可能导致用户错失机会。在医疗、金融等关键领域,这种延迟甚至可能带来安全风险。

Q3:普通用户如何防范SlowBA攻击?

A:目前还没有完全有效的防护手段,因为这种攻击很难被察觉。用户可以注意观察AI助手的响应时间是否异常,如果平时很快的操作突然变得很慢,可能存在问题。同时避免使用来源不明的AI工具,选择知名厂商的产品相对更安全。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新