![]()
华沙理工大学的雅库布·霍西洛维奇和阿图尔·雅尼茨基在2025年12月发表的这项研究(论文编号:arXiv:2511.20494v3),揭示了现代多模态大语言模型存在一个令人担忧的安全漏洞。这些被广泛应用的AI系统可能被一种名为"对抗性混淆攻击"的新型威胁轻易击败。
当我们使用ChatGPT、Claude或其他AI助手分析图片时,通常认为它们是可靠的。然而,这项研究发现,通过在图片中添加一些特殊的、肉眼难以察觉的干扰信息,攻击者就能让这些原本聪明的AI系统产生完全错误的理解,甚至输出看似合理但实际荒谬的内容。这就好比给一个戴眼镜的人的镜片上涂抹一些特殊物质,让他把苹果看成橙子,而且还会非常自信地坚持自己的错误判断。
与以往研究关注的"越狱攻击"(让AI说出不当内容)或"定向误分类"(让AI把A误认为B)不同,这种新攻击的目标是让AI系统彻底"犯糊涂"——产生逻辑混乱的输出或极度自信的幻觉内容。这种攻击的危险性在于它的广泛适用性:研究人员发现,同一张经过处理的图片不仅能混淆开源的AI模型,还能影响GPT-4、Claude等商业化的顶级AI系统。
更令人担忧的是,这种攻击方法相对简单。研究团队仅使用了基础的优化算法,就成功制造出能够跨模型传播的混淆效果。这意味着恶意攻击者可能将这些特制图片嵌入网站,从而阻止AI驱动的网络代理正常工作,实质上形成了一种新型的"验证码"——专门用来识别和阻止AI系统的访问。
一、揭秘"对抗性混淆攻击"的工作原理
要理解这种攻击是如何工作的,我们可以把AI视觉系统想象成一个非常复杂的翻译器。当AI看到一张图片时,它首先将图像信息转换成内部的数字表示,然后基于这些数字来预测接下来应该说什么词汇。正常情况下,这个过程就像一个经验丰富的翻译员,能够准确地将看到的内容转化为恰当的文字描述。
研究人员发现的攻击方法,本质上是通过精心设计的图像干扰来破坏这个"翻译过程"。具体来说,他们的目标是最大化AI系统在选择下一个词汇时的不确定性。用信息论的术语来说,就是最大化"熵值"——这个概念可以理解为系统混乱程度的度量。
当一个人看到一张清晰的猫咪照片时,会很确定地说"这是一只猫"。但如果照片被故意模糊处理,这个人可能会在"猫"、"小狗"、"毛绒玩具"之间犹豫不决。研究人员设计的攻击正是要让AI系统进入这种极度不确定的状态,但不是通过简单的模糊处理,而是通过添加一些人眼看不出来但会严重干扰AI判断的微妙变化。
研究团队使用了一种叫做"投影梯度上升"的优化方法。这个过程可以比作一个反向的图像修复程序:不是让图像变得更清晰,而是在保持图像基本外观的同时,精确地添加那些最能混淆AI系统的干扰信息。他们针对多个开源AI模型同时进行优化,确保生成的干扰图像对不同的AI系统都能产生混淆效果。
有趣的是,这种攻击不需要对目标AI系统的内部结构有详细了解。研究人员只需要在几个开源模型上训练攻击图像,生成的结果就能成功迁移到从未见过的商业AI系统上。这就像是制作了一把万能钥匙,虽然只在几把锁上测试过,但却能打开更多不同品牌的锁。
二、五种混淆模式:AI如何"失控"
研究人员在测试过程中发现,受到攻击的AI系统会表现出五种不同的失控模式,每一种都有其独特的特征和危险性。
第一种是"失明模式"。在这种情况下,AI系统会声称自己无法看到或处理输入的图像。这就像是一个人突然说"我什么都看不见",即使眼前明明有东西。虽然这种反应相对无害,但会让依赖AI视觉功能的应用完全失效。
第二种是"模糊模式",AI能够识别图像的大致类别或领域,但生成的描述非常粗糙且缺乏有用信息。比如,看到一个复杂的网页截图,AI可能只会说"这是一个网站",而不提供任何具体内容。这种情况下,AI虽然没有完全失效,但提供的信息价值极低。
第三种是"语言切换模式",这是最奇特的现象之一。AI系统会突然切换到非英语的语言输出,即使用户明确要求用英语回答。在测试中,研究人员观察到AI突然开始用中文、日文或其他语言回复,就像是大脑中的语言控制系统被某种方式"重新接线"了。
第四种是"妄想模式",这可能是最危险的一种。AI会生成听起来合理但完全虚假的详细描述,而且表现得异常自信。例如,面对一张噪点图像,AI可能会详细描述一个根本不存在的足球比赛场景,包括球员的具体动作、观众的反应等等。这种高度自信的错误信息可能会误导用户,让他们相信完全虚假的内容。
第五种是"崩溃模式",这是最严重的情况。AI的输出会完全失去语义连贯性,出现重复循环、无意义的词汇组合或语法彻底混乱的文本。这就像是AI的"大脑"出现了短路,完全失去了正常的语言生成能力。
研究发现,这些不同的混淆模式与攻击强度有关。较轻的攻击通常导致模糊或妄想模式,而强烈的攻击更容易触发崩溃模式。在白盒测试(攻击者了解AI系统内部结构)中,研究人员能够观察到所有五种模式。但在黑盒测试(攻击商业AI系统)中,主要观察到妄想和语言切换模式,失明和崩溃模式很少出现。
三、实战测试:攻击如何影响真实AI系统
为了验证这种攻击在现实世界中的有效性,研究团队设计了详细的实验来测试不同强度的攻击效果。他们使用了一个名为CCRU的网站截图作为基础图像,这是一个相对复杂但典型的网页,包含文字、图像和各种页面元素。
在最宽松的攻击条件下(允许对图像进行任意程度的修改),研究人员发现攻击效果最为显著。他们使用一种叫做"有效混淆比率"的指标来衡量攻击成功程度,这个比率比较了攻击图像、原始清晰图像和随机噪声图像在引起AI不确定性方面的表现。结果显示,在最强攻击条件下,AI系统的混淆程度比正常情况高出3到6倍。
更令人担忧的是,即使在严格限制攻击强度的情况下(攻击修改的幅度小到人眼几乎无法察觉),这种攻击仍然有效。在这种"隐蔽攻击"模式下,图像看起来与原图几乎相同,但仍能可靠地增加AI系统的混淆程度,虽然效果相对较弱。
研究团队还测试了一种"补丁攻击"的变体,即只在图像的一小块区域(224×224像素的正方形,约占整个图像的9%)添加干扰信息。这种方法的好处是可以设计成类似验证码的形式,网站管理员可以在页面中嵌入这样的小块区域来阻止AI爬虫。实验显示,这种局部攻击仍能达到平均3倍以上的混淆效果。
在跨模型传播能力的测试中,研究人员使用了"交叉家族"的验证方法。他们在两个来自不同开发团队的AI模型上训练攻击图像,然后测试这些图像对第三个完全不同的AI模型的影响。结果表明,虽然跨模型的攻击效果有所减弱,但仍然显著高于基线水平,证明了这种攻击具有一定的通用性。
最引人注目的是对商业AI系统的测试结果。研究团队通过LMSYS竞技场平台测试了包括GPT-4、Claude、Gemini等在内的多个顶级商业AI系统。在强攻击条件下,GPT-5.1生成了关于郊区房地产的详细虚假描述,GPT-o3幻想出了一个地铁车厢场景,而Grok 4则触发了安全拒绝机制,声称这是一张"越狱图像"。这些结果证明,即使是最先进的商业AI系统也无法完全抵御这种攻击。
四、技术细节:攻击是如何制造的
从技术角度来看,这种攻击的实现过程既巧妙又相对简单。研究人员首先选择了四个开源的多模态AI模型作为"代理模型",包括Qwen2.5-VL-3B、Qwen3-VL-2B、LLaVA-1.5-7B和LLaVA-1.6-7B。选择这些模型是因为它们的参数和训练数据是公开可访问的,可以进行详细的分析和优化。
攻击的核心思想是操纵AI系统的"注意力机制"。当AI处理图像时,它会为图像的不同部分分配不同的注意力权重,然后基于这些权重生成相应的文字描述。正常情况下,AI会将注意力集中在图像中最相关和最重要的特征上。但通过精心设计的图像扰动,攻击者可以迫使AI将注意力分散到无关紧要或误导性的特征上。
具体的优化过程使用了投影梯度上升算法,这个过程可以理解为一种"试错学习"。算法会反复尝试不同的图像修改方案,每次都测量修改后的图像对AI系统造成的混淆程度,然后朝着产生更大混淆的方向继续调整。经过50轮迭代后,算法会选择其中产生最高平均熵值的图像作为最终的攻击样本。
研究人员还发现,对AI输出词汇的选择范围进行适当限制是提高攻击效果的关键。如果考虑AI的完整词汇表(通常包含数万个词汇),优化过程会变得不稳定且效果不佳。但如果将关注范围限制在最可能的前50个词汇上,攻击效果会显著提升。这个发现有助于理解AI系统的决策机制,同时也提供了设计更有效攻击的方法。
温度参数的设置也对攻击效果产生重要影响。在AI系统中,温度参数控制输出的随机性程度。较高的温度会让AI的输出更加多样化但也更加不可预测,而较低的温度会让输出更加确定但可能过于保守。研究人员发现,适中的温度设置能够在攻击效果和生成质量之间取得最佳平衡。
五、防御挑战与现实影响
这项研究揭示的问题不仅仅是技术层面的漏洞,更是对当前AI安全架构的根本性挑战。传统的AI安全措施主要集中在防止生成有害内容或阻止恶意指令的执行,但对于这种攻击AI"理解能力"本身的威胁,现有的防御机制显得力不从心。
目前的AI系统在设计时主要考虑的是准确性和有用性,而不是对抗性鲁棒性。这就像是建造了一座美丽的房子,但忘记了安装防盗门锁。大多数商业AI服务提供商都在其系统中集成了内容过滤和安全检查机制,但这些机制主要针对文本输出的内容,而不是输入图像的完整性。
研究发现的一个特别令人担忧的方面是攻击的跨模型传播能力。这意味着攻击者不需要针对每个特定的AI系统单独设计攻击方案,而是可以使用相同的攻击图像影响多个不同的AI系统。这大大降低了实施攻击的技术门槛和成本,使得这种攻击方法更容易被恶意使用。
在实际应用场景中,这种攻击可能产生广泛的影响。许多现代网站和应用程序都依赖AI系统来分析用户上传的图像、生成内容摘要或提供智能客服功能。如果这些AI系统容易受到混淆攻击的影响,整个服务的可靠性都会受到质疑。
特别值得关注的是对AI驱动的网络代理的影响。随着自动化程度的不断提高,越来越多的任务被委托给能够理解和操作网页内容的AI代理。这些代理可能被用于自动填写表单、收集信息或执行在线交易。如果恶意网站嵌入了混淆攻击图像,这些AI代理可能会做出错误的判断或执行意外的操作。
研究人员提出了"对抗性验证码"的概念,这是传统验证码技术的一个有趣延伸。传统验证码旨在区分人类用户和自动化程序,而对抗性验证码专门设计来混淆AI系统。网站管理员可以使用这种技术来防止AI爬虫或自动化工具的访问,从而保护敏感内容或维护服务质量。
然而,这种防御方法本身也带来了新的问题。如果对抗性验证码被广泛采用,可能会阻碍合法的AI应用,比如辅助视觉障碍用户的屏幕阅读器或帮助用户分析网页内容的浏览器插件。这就产生了一个技术和伦理的两难问题:如何在保护系统安全的同时,不妨碍有益AI应用的发展。
六、未来研究方向与技术改进
尽管当前的研究已经揭示了多模态AI系统的重要漏洞,但这只是冰山一角。研究团队承认他们使用的是相对基础的攻击技术,这意味着更先进的攻击方法可能会产生更严重的影响。
未来的研究可能会探索更复杂的优化算法,比如动量梯度方法或自适应学习率技术。这些方法在其他机器学习任务中已经显示出优越的性能,应用到对抗性攻击领域可能会产生更强大和更隐蔽的攻击效果。同时,研究人员也在考虑从特征层面进行攻击,而不是仅仅在像素级别进行修改。
另一个重要的研究方向是提高攻击的实用性和鲁棒性。当前的攻击主要在理想的实验环境中进行测试,但在现实世界中,图像可能会经历压缩、缩放、旋转等各种变换。如何设计能够在这些变换后仍然有效的攻击,是一个具有挑战性的技术问题。
从防御的角度来看,研究界需要开发新的检测和防御机制。一种可能的方法是在AI系统中集成"不确定性检测"模块,当系统检测到异常高的输出不确定性时,可以触发额外的验证步骤或向用户发出警告。另一种方法是使用"集成学习"技术,通过多个不同的AI模型对同一输入进行处理,如果这些模型的输出差异过大,就可能表明存在攻击。
训练更鲁棒的AI模型也是一个重要方向。研究人员正在探索"对抗训练"技术,即在训练过程中故意向AI系统展示各种攻击样本,让系统学会识别和抵御这些攻击。虽然这种方法在图像分类等单一任务上显示出一定效果,但在复杂的多模态系统中如何实施仍然是一个开放问题。
研究团队特别强调了在复杂多步骤AI工作流程中评估这种攻击的重要性。现代AI应用往往不是简单的单次交互,而是涉及多个步骤的复杂流程。例如,一个AI助手可能需要先理解用户的图像,然后基于理解结果执行多个后续任务。在这种情况下,初始阶段的混淆攻击可能会在整个流程中产生累积性的错误影响。
七、对社会和产业的深远影响
这项研究的发现不仅仅是学术界的技术突破,更对整个AI产业和社会应用提出了紧迫的挑战。随着AI技术在各个领域的广泛应用,这种攻击方法可能会对许多关键应用产生严重影响。
在医疗领域,AI系统越来越多地被用于辅助医学图像诊断。如果这些系统容易受到混淆攻击的影响,可能会导致误诊或遗漏重要的病理特征。虽然医疗AI系统通常有人类专家的监督,但在某些情况下,错误的AI分析可能会误导医生的判断,特别是在依赖AI进行初步筛查的场景中。
在自动驾驶领域,车辆的AI系统需要准确理解道路环境,包括交通标志、行人和其他车辆。如果恶意攻击者在道路环境中布置特制的图像或标识,可能会混淆自动驾驶系统的判断,导致交通事故。虽然目前的研究主要关注静态图像,但类似的原理可能也适用于动态视频输入。
在金融服务领域,许多银行和金融机构使用AI系统来分析客户提交的文档和图像,比如身份证明、收入证明等。如果这些系统容易受到混淆攻击,可能会导致欺诈检测失效或合法用户被错误拒绝服务。
教育技术也是另一个可能受影响的领域。在线教育平台越来越多地使用AI来评估学生提交的作业和项目。如果学生能够利用混淆攻击来操纵AI的评估结果,这将严重影响教育的公平性和有效性。
从更广泛的社会角度来看,这种攻击可能会加剧公众对AI技术的不信任。当人们意识到他们日常使用的AI系统可能被轻易欺骗时,可能会对所有AI驱动的服务产生怀疑,从而阻碍有益AI技术的推广和应用。
对于AI产业来说,这项研究揭示的问题可能会推动新一轮的安全技术竞赛。各大AI公司可能需要投入大量资源来开发防御机制,这可能会增加AI服务的成本,同时也可能推动新的安全技术和标准的发展。
监管机构也面临着新的挑战。传统的AI安全规范主要关注数据隐私和算法偏见等问题,但对于这种技术性的攻击威胁,现有的监管框架可能不够完善。制定新的安全标准和认证程序可能成为必要,以确保关键应用中使用的AI系统具备足够的鲁棒性。
说到底,这项由华沙理工大学研究团队完成的工作,为我们敲响了AI安全领域的一记警钟。虽然多模态AI系统在许多方面表现出色,但它们在面对精心设计的对抗性攻击时仍然显得脆弱。这种脆弱性不是某个特定模型的问题,而是当前AI技术架构的普遍特征。
研究发现的五种混淆模式——失明、模糊、语言切换、妄想和崩溃——每一种都代表了AI系统可能出现的不同类型故障。更令人担忧的是,这些攻击具有跨模型传播的能力,意味着一次攻击可能影响多个不同的AI系统。
然而,这项研究的价值不仅在于揭示问题,更在于为改进AI安全技术指明了方向。通过理解这些攻击的工作原理,研究人员和工程师可以设计更好的防御机制,开发更鲁棒的AI系统。这是一个持续的过程,需要学术界、产业界和监管机构的共同努力。
对于普通用户来说,了解这些潜在风险有助于更谨慎地使用AI服务,特别是在涉及重要决策的场合。同时,这也提醒我们,尽管AI技术发展迅速,但它仍然有其局限性,人类的监督和判断仍然是不可或缺的。
这项研究提出的"对抗性验证码"概念也开辟了一个有趣的技术方向。虽然它可能会在短期内对某些AI应用造成困扰,但从长远来看,这种技术可能会促进更强大、更可靠的AI系统的发展。正如传统的验证码技术推动了更好的图像识别和自然语言处理技术一样,对抗性验证码可能会成为下一代AI安全技术发展的催化剂。
最终,这项研究告诉我们,AI安全是一个动态的、持续演化的领域。随着攻击技术的不断发展,防御机制也必须相应地改进。只有通过这种"矛与盾"的持续对抗,我们才能逐步构建出真正安全、可靠的AI系统,让这些强大的工具更好地服务于人类社会。对于有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2511.20494v3查找完整的研究报告。
Q&A
Q1:什么是对抗性混淆攻击?
A:对抗性混淆攻击是一种新型的AI攻击方法,通过在图片中添加特殊的干扰信息来让AI视觉系统产生混乱输出。与以往让AI说不当话的攻击不同,这种攻击专门破坏AI的理解能力,让它产生完全错误或毫无逻辑的描述,而且AI还会对这些错误内容表现得异常自信。
Q2:这种攻击对普通人使用AI有什么影响?
A:这种攻击可能会让日常使用的AI助手在分析图片时给出完全错误的信息。比如你让AI分析一张医疗图像,它可能会生成看似专业但完全虚假的诊断描述。更危险的是,AI会表现得很自信,让用户难以察觉错误,这在医疗、金融等重要应用中可能造成严重后果。
Q3:网站可以用这种技术阻止AI访问吗?
A:是的,研究人员提出了"对抗性验证码"的概念。网站可以在页面中嵌入特制的小图像块,这些图像对人类用户来说没有影响,但会让AI系统产生混乱,从而阻止AI爬虫和自动化工具的访问。不过这也可能影响一些有益的AI应用,比如帮助视障用户的辅助工具。





京公网安备 11011402013531号