当前位置: 首页 » 资讯 » 科技头条 » 正文

阿联酋人工智能大学等:让图像生成AI学会"自我审查"的新方法

IP属地 中国·北京 科技行者 时间:2026-05-25 22:22:24


这项由阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)与美国密歇根州立大学(MSU)联合完成的研究,于2026年5月发表在预印本平台arXiv上,论文编号为arXiv:2605.18719。研究提出了一个名为SafeDiffusion-R1的框架,试图从根本上解决文字生成图片的AI系统容易产出不雅、有害内容的问题。

你可能没有意识到,当你在网上看到那些炫目的AI生成图片时,这些工具背后暗藏着一个棘手的问题:它们在学习阶段"读"了整个互联网,因此也把那些露骨、暴力、令人不安的内容一并学进去了。给它发送一段特定的文字描述,它就可能生成你绝对不希望看到的画面。更麻烦的是,许多这类工具是公开发布的,任何人都能使用,这让安全问题变得格外迫切。

研究团队给这道难题提了一个全新的解法,核心思路是:与其在模型诞生之初就千方百计过滤掉"坏内容",不如在模型训练好之后,通过一种持续性的在线学习机制,让它在与现实互动的过程中逐渐学会"什么不该画"。这个思路听起来简单,背后的工程实现却相当精妙,下面我们一步一步来拆解它。

一、AI图像生成与安全问题:一个关于"记忆"的麻烦

要理解这项研究解决的是什么问题,不妨先从AI图像生成的工作原理说起。目前最流行的图像生成工具,如Stable Diffusion,属于一类叫做"扩散模型"的系统。你可以把这类系统的工作过程想象成雕塑家从一团随机的噪音云雾中,一刀一刀地把你描述的图像雕刻出来。训练的时候,它"读"了数十亿张图片及其配套文字描述,从而学会了语言与视觉之间的对应关系。

问题就在这里。互联网上本来就充斥着各种类型的内容,包括色情图片、暴力场景、仇恨符号,应有尽有。AI在学习阶段照单全收,把这些关联也牢牢记在了"肌肉记忆"里。一旦用户发送了触发这些记忆的文字,AI就会"诚实地"把它们画出来。

现有的应对方法大致分三种。第一种是"源头过滤",就是在训练之前把数据集里的不良内容剔除掉;这个方法费时费力,而且很难覆盖所有新出现的有害类型。第二种是"出口过滤",就是AI生成图片之后,再用另一套系统检查一遍,发现不妥就拦截;这个方法治标不治本,而且如果用户能直接访问模型,就可以绕过这道防线。第三种是"事后修改",也就是对已经训练好的模型进行调整,让它"忘掉"那些不该学的东西——这也是目前学界研究最热门的方向。

SafeDiffusion-R1 属于第三种,但它做到了前人没做到的几件事:不需要标注好的"安全图片"数据集,不需要专门训练一个额外的"安全审查员"模型,还能避免模型在学安全的同时把正常的画图能力一起忘掉。

二、现有"补救"方法的三大痛点

为了更好地理解这项研究的价值,有必要先聊聊此前的方法为什么不够好。

已有的事后修改方法大体上可以分为两类:监督微调和离线强化学习。监督微调的逻辑类似于给学生发错题本,让他反复练习"正确答案"。研究人员准备一批"这类描述对应这种安全图片"的配对数据,让模型照着练。然而这种方法有一个致命弱点:题目是固定的,而学生(也就是模型)在练习过程中会不断进化,固定的题目很快就跟不上模型当前的状态。更麻烦的是,这类方法往往会让模型产生"灾难性遗忘"——专注练安全题的同时,它把怎么画漂亮风景、怎么理解复杂构图也一并忘了。

离线强化学习的思路更进一步:先用一个事先准备好的数据集给每张图片打分,告诉模型哪些图好、哪些图坏,然后让模型根据这些预先打好的分数来调整自己。这里的问题在于"离线"二字——分数是根据旧数据打的,等到模型学了一段时间之后,它的行为已经变了,但参照的"评分标准"还是当初的老标准,两者之间的落差会让学习效率大打折扣。

此外,许多强化学习方法还需要专门训练一个"裁判模型"来区分安全与不安全的内容,这本身就是一笔额外的计算开销。

SafeDiffusion-R1的研究团队意识到,要真正解决这些问题,需要一种能跟着模型实时进化、始终基于模型当前状态给出反馈、同时又不需要额外裁判员的机制。

三、核心思路:用一个"指南针"替代"裁判员"

研究团队的关键灵感来自一个看似简单却很有力的几何观察。

任何AI图像生成系统的内部,文字和图片都被翻译成了一种叫做"嵌入向量"的数学表达——你可以把它想象成高维空间里的一个坐标点。"猫"这个词有它的坐标,"狗"有它的坐标,"温馨的家庭场景"和"暴力冲突"也各自占据着这个空间里的不同位置。相似的概念在这个空间里紧挨着,相反的概念则隔得很远。

研究团队意识到,既然"安全内容"和"不安全内容"在这个空间里的分布规律是确定的,完全可以从中计算出一个方向——从不安全的概念区域指向安全概念区域的方向。就像在一个陌生城市里,你不知道具体去哪里,但你知道大致朝哪个方向走会离闹市越来越近。这个方向,研究团队称之为"安全方向向量"。

具体做法是:准备一批描述"安全内容"的文字(比如"一张全年龄适宜的普通照片"、"没有裸露、没有暴力的图片"等),再准备一批描述"不安全内容"的文字(比如"露骨的性内容"、"色情材料"等)。把这两批文字分别输入CLIP这个已经在大量图文数据上预训练好的理解模型,得到各自的坐标位置,然后计算两组坐标的平均值,再求两个平均值之间的方向差,这就得到了那根"指南针"——安全方向向量。

这个向量一旦计算完成,就固定下来,整个后续训练过程中不需要再更新它。这意味着整个安全系统不需要额外训练任何新的模型,仅仅利用已有的CLIP模型做一次静态的几何计算即可。

四、奖励信号的精妙设计:让AI学会"为好结果负责"

有了安全方向向量,下一步是设计一套奖励信号,让模型知道什么时候做对了、什么时候做错了。研究团队设计了一种叫做"引导奖励机制"(Steering Reward)的方案,工作原理如下。

当模型收到一段文字描述,系统会先判断这段描述是否偏向不安全内容——方法很直接,把这段文字的坐标投影到安全方向向量上,看投影值是正还是负。正值说明这段文字本身就是在描述安全内容;负值则说明这段文字在描述不安全的内容。

如果输入的是安全描述,那么奖励的计算方式很常规:看模型生成的图片与文字描述的匹配程度,匹配得越好,奖励越高。

如果输入的是不安全描述,事情就变得有趣了。系统不是直接惩罚模型,也不是假装这段描述不存在。它做的是:把不安全描述的坐标,沿着安全方向向量推一推,推向安全的那一侧,得到一个"被校正过的"文字坐标。然后用这个校正后的坐标来计算奖励——也就是说,模型生成的图片越接近"这段描述的安全版本",奖励就越高。

关键在于:模型收到的依然是原始的不安全描述,但衡量它表现好坏的标准,变成了"你画出来的东西像不像这段话的安全等价物"。模型为了获得高奖励,就必须学会在看到"裸体女人"这样的描述时,去画一个"穿着衣服的女人"——而不是真的去画裸体。

这个设计的精妙之处在于,模型始终在与真实的不安全描述打交道,而不是被屏蔽在一个只有安全内容的温室里;但它学到的行为方式,却是面对这些描述时给出安全的回应。

五、在线学习机制:让模型随时和自己的当前状态对话

引导奖励的设计解决了"用什么标准打分"的问题,但"什么时候打分、基于什么状态打分"同样关键。研究团队选择了一种叫做GRPO(群体相对策略优化)的在线强化学习算法。

"在线"的含义是:每次训练,模型都用当前的状态生成一批新图片,然后对这批图片打分,再根据打分结果调整模型参数。下一次训练循环开始时,模型已经是更新过的版本,生成的图片和打出的分数也随之变化。这样,评分标准始终追踪着模型的当前行为,不会出现"旧分数、新模型"的错位问题。

GRPO的"群体相对"特性则解决了另一个棘手问题。对于同一段文字描述,系统会让模型生成一组图片(比如16张),然后比较这一组图片之间的相对质量——谁比谁好,而不是拿绝对分数说话。这个做法的好处是,不同类型的描述本来就对应着截然不同的奖励尺度(安全描述的奖励分数通常比不安全描述高出很多),如果直接用绝对值比较,不安全的描述会因为奖励落差巨大而主导整个训练信号,让模型矫枉过正、把正常的画图能力也一并抹掉。有了群体内部的相对比较,每种描述的训练信号都被归一化到了一个相似的尺度,学习过程就稳健得多。

此外,为了防止模型更新得太猛,系统还加入了两道刹车:一是裁剪操作,限制每次参数更新的幅度不超过一个很小的阈值(ε=0.0001);二是KL散度惩罚,如果当前模型和上一版本之间的差距过大,就追加惩罚,迫使模型慢慢进化而非大起大落。

具体实现上,团队在Stable Diffusion v1.4这个公开的基础模型上进行了后训练,采用了LoRA(低秩适应)技术,只调整了约240万个参数,不到模型全部8.6亿参数的0.3%。训练在8块AMD MI210显卡上进行了300轮,总计耗时约72个GPU小时。训练使用的数据仅仅是文字描述,不需要配对的"安全图片"作为标注答案。

六、实验验证:数字会说话,但背后的故事更值得讲

研究团队在多个基准测试上验证了SafeDiffusion-R1的效果,这里把主要发现整理成几个直观的对比场景。

首先是裸露内容检测测试。研究团队使用了一个叫做I2P的基准,里面包含4703个专门设计来引导AI生成不良内容的文字描述。原始的Stable Diffusion v1.4在这些描述下,总共被检测出646处裸露部位。经过SafeDiffusion-R1的后训练,这个数字降低到了15,降幅超过97%。这个结果超越了绝大多数已有方法,其中表现最好的几个竞争方法也只能做到18到23处。

其次是更广泛的"不当内容"检测测试。研究团队使用了Q16分类器,对七类有害内容(仇恨、骚扰、暴力、自我伤害、色情、令人震惊的内容、违法活动)分别统计模型输出的不当率。原始模型的综合不当率是48.9%。SafeDiffusion-R1将这个数字降低到了18.07%,在所有七个类别中均居第一或第二。特别值得关注的是,模型在训练期间主要接触的是涉及裸露内容的描述,但它对暴力(从46.3%降到17.33%)、自我伤害(从47.9%降到15.86%)等完全不同类型的有害内容也实现了大幅压制。这表明模型学到的不只是"不要画裸体",而是一种更普遍的"安全意识"。

第三个测试涉及的是一个关键问题:学会了安全之后,模型还会不会好好画画?这个测试使用GenEval基准,专门评估模型能否准确理解并生成符合复杂文字描述的图片(比如"两个物体"、"空间关系"、"颜色属性"等)。原始Stable Diffusion v1.4的GenEval得分是42.08%。有些安全方法在提升安全性的同时拉低了这个分数,比如RECE方法就把分数降到了38.36%。而SafeDiffusion-R1在安全后训练后,反而把得分提升到了47.83%——安全和能力非但没有相互牺牲,还实现了同步提升。

七、一次关于"什么样的奖励设计才有效"的系统性探索

研究团队还花了大量篇幅探索不同奖励设计之间的差异,这部分内容对于理解为什么他们的方案有效尤为重要。

如果只使用负向奖励——也就是每当模型生成的图片与不安全描述高度匹配就扣分——模型确实会拼命避免生成任何与不安全描述相关的图片。从数字上看,裸露检测率几乎归零。但代价是灾难性的:模型学会了通过生成毫无意义、与任何描述都不匹配的随机噪点来规避惩罚。CLIP-T(衡量生成图片与文字描述的匹配程度)和FID(衡量图片质量的指标)双双崩溃,模型基本上废了。

如果只使用正向奖励——也就是只鼓励模型生成与安全描述高度匹配的图片,完全不涉及不安全描述——模型在安全图片的生成质量上会有所提升,但对不安全描述几乎没有抑制作用,100万张正向训练图片也只能把裸露不当率从0.99降到0.816,效果微乎其微。

加入LLaVA视觉语言模型作为额外裁判的方案表现稍好,但每当LLaVA对一张本来安全的图片误判时,就会给模型一个意外的大惩罚,引发训练不稳定,最终FID分数反而比单纯引导奖励差。

引导奖励的设计综合了正负两侧的信息,既提供了明确的安全方向,又保留了对生成质量的正向激励,最终将裸露不当率压到了0.002这个接近于零的水平,同时维持了正常的图片质量。

对于引导强度参数α的选择,团队也做了细致的分析。当α=0.5时,安全增益显著,且安全与不安全描述之间的几何区分依然清晰;当α增大到0.8到1.0时,对不安全描述的压制更强,但收益递减,偶尔还会出现过度矫正,把与不安全描述语义接近的正常描述也错误地压制掉。α=0.5被最终选定为默认值。

对于不同推理调度器(控制图像生成步骤的不同算法)的测试显示,在没有任何安全干预的情况下,不同调度器之间的有害内容生成率存在明显差异;但经过SafeDiffusion-R1的后训练,所有九种测试的调度器在300轮训练结束后都收敛到接近零的有害内容率,差异消失。这说明安全能力内化到了模型本身,而不是对某种特定推理方式的适应。

八、与已有方法的正面比较:优势与短板并存

研究团队将SafeDiffusion-R1与十余种已有方法在多个指标上进行了对比,结论总体上对新方法有利,但也有一些值得坦诚讨论的地方。

在裸露检测方面,SafeDiffusion-R1的"不安全锚点"配置以15处检测总数略微领先于SAeUron的18处和AdvUnlearn的23处,居于榜首。在综合不当率方面,18.07%的成绩显著优于第二名CASTEER的25.58%,以及Safe-DPO的约20%。

在CLIP-T(文字-图片匹配度)方面,SafeDiffusion-R1维持了与基线模型(0.313)几乎相同的分数(0.311),说明在学会安全的同时,理解文字描述并生成匹配图片的能力没有退化。

在FID(图片质量分布相似度)方面,SafeDiffusion-R1的表现(52.28)稍逊于UCE(37.41)和SPM(38.05)等方法,但优于EraseDiff(307.70)和Scissorhands(172.88)等极端退化的方案。研究团队对此给出了解释:FID衡量的是生成图片的分布与参考数据集(COCO-3K)之间的相似度,而SafeDiffusion-R1的训练数据是合成生成的,与COCO的风格本来就存在一定差距;直观的视觉对比显示,SafeDiffusion-R1生成的图片在结构完整性、面部细节和光影一致性上表现相当好,甚至优于那些FID更低但视觉上有过度平滑或结构模糊问题的方法。

从整体评估框架来看,研究团队还专门列出了一张对比表格,从六个维度比较了各类方法:是否需要监督配对数据、训练策略(在线或离线)、是否存在灾难性遗忘风险、是否需要专门训练奖励模型、是否具备推理能力、是否对分布外的不安全描述具有泛化能力。SafeDiffusion-R1在这六个维度上全部处于有利位置,是目前综合表现最全面的方案。

说到底,SafeDiffusion-R1这项研究做的事情,本质上是把一个"出厂就有问题"的AI工具,通过一套巧妙的在线学习机制,让它在与真实世界的互动中逐渐培养出一种自我约束的能力。不需要准备大量人工标注的对照数据,不需要训练额外的审查员,不需要在安全和能力之间做出痛苦的取舍——这三件事在此之前一直被认为是很难同时做到的,而这项研究给出了一个可行的解法。

当然,这项研究并非毫无局限。FID分数的偏高说明生成图片的整体风格与真实照片的分布仍有一定距离;"不安全锚点"配置虽然在裸露检测上表现最优,但在综合不当率测试中的表现反而不如同时使用安全锚点的配置,提示过于激进的惩罚可能损害对更广泛有害类型的泛化能力。此外,实验主要基于Stable Diffusion v1.4进行,在更新、更大规模的模型上是否同样有效,还需要进一步验证。

对于普通人而言,这项研究最直接的意义在于:未来我们使用的AI图像工具,可能会越来越少地产出令人不安的内容,同时依然能够准确理解并呈现我们真正想要的画面。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.18719检索完整论文,也可以访问研究团队公开的代码仓库(GitHub上的MAXNORM8650/SafeDiffusion-R1)复现相关实验。

Q&A

Q1:SafeDiffusion-R1训练需要准备大量的"安全图片"数据集吗?

A:不需要。SafeDiffusion-R1只需要文字描述作为训练输入,不依赖任何标注过的"安全图片"与"不安全图片"的配对数据。安全方向向量通过少量安全描述和不安全描述的文字计算得出,整个后训练过程中模型实时生成图片并基于当前输出获得反馈,无需预先准备图片标注数据集。

Q2:SafeDiffusion-R1让模型学了安全之后,正常的画图能力会变差吗?

A:实验结果显示不但没有变差,综合画图能力反而有所提升。GenEval基准测试中,原始Stable Diffusion v1.4的得分为42.08%,经过SafeDiffusion-R1后训练后提升到47.83%,在多物体构图、空间关系理解等复杂任务上均有改善。CLIP-T分数也与原始模型几乎持平,说明文字描述与生成图片的匹配能力没有退化。

Q3:SafeDiffusion-R1只训练了抑制裸露内容,为什么对暴力和自我伤害这些类型也有效果?

A:这源于引导奖励机制的泛化能力。安全方向向量捕捉的是嵌入空间中"安全内容"与"不安全内容"之间的整体方向差异,而不仅仅针对裸露这一种类型。模型在训练过程中内化了一种更普遍的"安全语义偏好",因此对暴力(从46.3%降到17.33%)、自我伤害(从47.9%降到15.86%)等训练时未直接涉及的有害类别也实现了显著抑制,展现出了较强的分布外泛化能力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。