当前位置: 首页 » 资讯 » 科技头条 » 正文

Stability AI教会AI"拆解"图片:让模型自己学会把照片分层

IP属地 中国·北京 科技行者 时间:2026-06-10 22:31:53


这项来自Stability AI研究团队的成果发表于2026年第40届神经信息处理系统大会(NeurIPS 2026),论文编号为arXiv:2605.30257,有兴趣深入了解的读者可通过该编号检索原文。

当你在手机相册里给朋友发一张照片,照片对你来说就是一个整体——天空、人物、背景,全部融为一体。但专业设计师处理图片时,他们需要把这张照片拆开,把人单独放在一层,把背景单独放在另一层,然后才能对每个部分分别调整、替换或合成。这个"把图片分层"的过程,专业上叫做"图像层分解",听起来平常,但对于人工智能来说,这件事一直非常棘手。

Stability AI的研究团队决定解决这个棘手问题。他们开发了一套叫做Stable-Layers的训练框架,核心创意是:不需要任何人工标注的"分层参考答案",只用一个能看懂图片的AI大模型来当"考官",对分层结果打分,然后用这些分数来反复训练、优化分层模型。这套方法最终让分层质量显著提升——层与层之间的内容更清晰地分开了,空白层和损坏层大幅减少,背景的修复填充也更自然了。

一、为什么"分层"这件事对AI来说那么难

要理解这项研究解决的问题,不妨先把"图像层分解"想象成一道拼图还原题。你有一张拼好的拼图,现在要把它拆回成若干组,每组拼图对应画面中的一个独立物体。听起来很直接,但难点在于:同一张拼好的拼图,可以有无数种合理的拆法。一棵树和树下的阴影,是同一层还是不同层?前景的人物和他身后的栏杆,应该分在几层?

对于人来说,这些问题没有唯一正确答案,而是取决于你之后打算怎么用这些层。正因如此,现有方法大多依赖人工合成的"配对数据"——也就是人为制作好"原图"和"各个层"的成套材料,然后让AI对照这些样本学习。问题是,当某张照片存在多种同样合理的分层方式时,强行让AI去靠近某一个固定答案,反而会惩罚那些同样正确的替代方案。

Stability AI的团队发现,与其给AI一个固定答案让它死记,不如让AI先生成多种分层方案,然后找一个"懂图片的裁判"来判断哪种方案更好,再从中学习。这个裁判,就是视觉语言模型(VLM)——一种既能看图又能理解文字的大型AI模型。

二、给AI当裁判:视觉语言模型如何打分

现在把整个训练过程想象成一个绘画班的选拔赛。分层模型是参赛选手,每次对同一张照片画出多幅"分层作品"(称为候选分解)。考官是一个视觉语言模型,它的工作是给每幅作品打分。成绩好的作品获得正向反馈,成绩差的获得负向反馈,模型据此调整自己的画法,下一轮再来。

然而,用视觉语言模型打分并不像听起来那么简单。研究团队很快遇到了一个麻烦:当考官单独看每幅作品时,往往会把分数都打得很接近,比如同一组候选里四幅作品分别得了0.72、0.74、0.71、0.73。这些分数之间的差距太小,训练算法几乎无法从中判断谁更好——就像你让一个老师从四篇作文里选出最好的,结果老师给的分数是89、90、89、90,你根本不知道哪篇才是真正的优胜者。

这个问题有一个专业名字叫"分数压缩",是整个研究中需要突破的核心难点之一。Stability AI的团队为此设计了一套两阶段评分流程。

第一阶段,考官对每幅作品进行结构化的逐项打分,共评估五个维度。语义分离度衡量每个前景层是否清晰包含了一个独立的完整对象;透明度清洁度衡量前景的边缘是否干净,有没有半透明的"幽灵"残影;背景修复质量衡量第0层(背景层)在去掉前景物体后,填补的区域是否看起来自然合理;特征分布均匀性衡量内容是否被合理地分散在各层之间,而非全部堆在一层;内容有效性衡量有没有空白层或只包含噪点的无效层。每个维度从0分到5分,满分25分,归一化到0至1之间。

第二阶段,研究团队引入了一个关键的"相对校准"步骤。系统把同组候选的所有分层结果拼成一张对比网格图,每个候选用数字标签标注,然后把这张网格图发给考官,让它在已知第一阶段分数的前提下,重新对各候选进行相对比较并给出新的分数。这就好比告诉考官:"这四篇作文第一轮分数都差不多,但你把它们放在一起再看一遍,谁是真的最好?"这样一来,原来被压缩到0.71到0.74之间的分数,经过重新校准后可能分散到0.38、0.45、0.82、0.91——差距一下子就拉开了,训练算法终于能从中学到有用的东西。

三、训练机制:模型如何从"打分"中成长

整个训练流程分三个阶段循环进行。第一步是"生成",模型对同一张输入图片产生若干候选分层结果,这个过程不需要计算梯度,只是单纯的采样。第二步是"打分",两阶段VLM评分流程对这些候选打出最终分数。第三步是"学习",根据同组候选之间的相对分数差距,计算每个候选的"优势值",然后用这个优势值来更新模型参数。

这里使用的核心优化算法叫GRPO(组相对策略优化),它的逻辑是:不需要绝对的"正确答案",只需要在同一组候选里判断谁比谁好。分数比组内平均水平高的候选,对应的生成方式被鼓励;分数低于平均水平的候选,对应的生成方式被抑制。就像一个厨师在同时端出几道菜之后,听食客说"第二道比第一道好一点,第三道最差",然后调整自己的烹饪方式,即便食客没有给出精确的配方改进建议。

训练的底座模型是Qwen-Image-Layered,这是一个能把一张普通RGB图片分解成若干RGBA层(即带透明通道的图层)的流匹配变换器模型。为了节省计算资源,研究团队只对模型的注意力投影层和前馈层应用了LoRA(低秩适配)微调,也就是说大部分模型参数保持冻结,只有一小部分新增的低秩矩阵在训练中被更新。

训练数据来自Fine-T2I数据集,这是一个包含照片和艺术品的高质量图片集合,完全不需要配套的分层标注。每张图片在训练时被随机安排生成2到5层不等的分层结果,让模型适应不同复杂度的分解任务。

四、一个额外的工程挑战:如何让算法稳定运行

把强化学习算法应用到图像生成模型上,历来有一个稳定性难题,在这项研究中同样出现了。GRPO算法的运作依赖一个叫"重要性比率"的量,简单说就是新版模型和旧版模型在同一步骤上行为差异的比较。如果这个比率太极端,训练就会不稳定。

已有的GRPO-Guard方法提出用"比率归一化"来稳定这个量。但Qwen-Image-Layered的结构比较特殊:它把多个RGBA图层打包成一个超长的潜在向量序列进行处理,序列长度远超普通单图生成模型。当你对一个极高维度的序列取平均值时,每一步的对数概率值会被稀释得趋近于零,导致比率信号几乎消失,训练无法正常进行。

Stability AI的研究团队针对这个问题做了一个改动:把对空间维度取平均值改为先求和,再除以维度数的平方根。这个看起来简单的数学调整,实际上让比率的量级恢复到正常范围,同时保留了原始归一化方法的稳定性优势。这是这项研究在算法层面的一个具体贡献,对于未来把强化学习应用到其他高维生成模型上的研究者来说,也是一个可以参考的实用技巧。

五、训练效果如何:从数据中读出的进步

研究团队用两个评估场景来检验Stable-Layers的效果。一个是Crello数据集,这是一个图形设计数据集,每张设计作品都有对应的多层源文件,可以用来做定量比较。另一个是480张LAION-Aesthetics图片的保留测试集,用于持续追踪训练过程中的指标变化。

在定量评估上,研究团队用"每层与最匹配的参考层之间的RGB L1误差"来衡量重建质量,L1误差越低说明分层结果与真实分层越接近。之所以用"最匹配"而非"同位置对应",是因为强化学习训练可能会改变模型分配各层内容的顺序,如果固定对位比较反而会错误惩罚那些只是换了顺序但本质正确的分层。结果显示,在生成2层、3层、4层时,Stable-Layers在所有层数设置下的平均误差都低于基础模型Qwen-Image-Layered,说明整体分层质量确实提升了。

在追踪训练过程的三个指标上,变化趋势更为直观。"不良层数"(空白层加上半透明模糊层的总数)从每次分解平均约1.65个下降到约0.4个,也就是说绝大多数之前会出现的废层问题都被消除了。"特征分布均匀性"从约0.53上升到约0.73,意味着内容开始真正分散到各个层里,而不是全堆在一层。"背景层修复质量"从约0.38上升到约0.62,背景填充变得更加自然合理。这三个指标的变化,在训练前约100步内最为显著,之后趋于平稳——这符合GRPO算法的预期行为:当最明显的缺陷被解决后,组内候选的平均质量都在提升,相对差距缩小,绝对分数不再大幅上涨,但模型仍然在细节上持续改善。

从直观的对比图来看,效果更为明显。对于一张登山吊桥的照片,基础模型的第0层(背景层)呈现纯黑色,完全没有填充背景;而经过Stable-Layers微调的模型,第0层清晰地还原出了山峰和天空的背景。同时,基础模型在前景各层里几乎都塞入了完整照片的副本,而微调后的模型则把人物、桥面和绳索栏杆分别放在了独立的层里。

六、与其他方法的对比:不同的设计哲学

研究团队还将Stable-Layers与另一款叫LayerD的分层工具进行了对比,这两种工具代表了处理分层不确定性时的两种截然不同的哲学。

LayerD的策略是"保守主义":当它觉得一张图片难以分层时,宁可返回一个基本不变的完整图片作为单层结果,而不冒险给出可能错误的多层分解。这种策略在"背景层质量"指标上表现亮眼,因为一张未经修改的原始图片在像素层面和任何参考都很接近。但在"特征分布均匀性"上,LayerD的得分只有0.06,远低于Stable-Layers的0.73——原因很简单,如果你只返回一层,当然谈不上分布均匀了。

Stable-Layers的策略是"积极填充":不管难不难分,都尽力把请求的层数全部填满有意义的内容。这对于真正需要可编辑分层的设计工作流来说,显然更实用。一张"背景层看起来挺好但其他层都是空的"的分层结果,对设计师来说几乎没有实际价值。

七、两项消融实验揭示的规律

研究团队还做了两组对照实验,来验证设计中的两个关键选择是否真的有效。

第一组实验比较了不同文字提示对训练效果的影响。一组使用简单提示"一张干净、构图良好的图片",另一组使用详细提示,把评分标准里的多个维度都描述出来,比如"多个独立对象清晰分离于干净背景之上,锐利边缘,生动色彩……"。结果出人意料:使用详细提示的那组在各项指标上都表现更差,背景层质量甚至从0.44下降到0.32。研究团队分析认为,当提示内容与评分标准高度重叠时,模型可能形成一种混淆,把理想状态的描述误解为输入场景的描述,反而干扰了学习方向。

第二组实验比较了"用不用第二阶段相对校准"的区别。结果显示,在减少空白层和损坏层这件事上,两种方式效果相当——因为第一阶段的"内容有效性"和"透明度清洁度"评分已经能产生足够的差异来指导学习。但在背景层质量的精细提升上,加入相对校准的那组从训练第80步开始始终保持领先:结构相似度(SSIM)在第80步到第200步之间平均为0.52,而没有校准的那组只有0.45。这验证了研究团队的判断:当明显的缺陷都已经被消除,候选之间的差异变得微妙时,绝对打分无法区分好坏,必须依靠相对比较来提供有效的训练信号。

八、这套方法的边界和局限

Stable-Layers并非没有代价和限制,研究团队在论文中也坦诚地列出了这些边界。评分用的视觉语言模型(gemini-3-flash-preview)是一个商业API服务,每次训练都需要调用大量API,带来较高的使用成本,而且随着模型版本更新,打分标准可能发生偏移。研究团队建议,如果换了其他VLM作为评分模型,需要重新校准第一阶段的评分锚点描述。

评估体系上,所有分析都基于自动化指标和视觉检查,没有进行正式的人工研究,因此指标与实际编辑体验之间的关联有多强,还有待进一步验证。训练阶段最多只使用了5层的分解,而基础模型实际上支持最多20层的分解,所以高层数分解的表现没有被直接评估——不过训练得到的LoRA权重在推理时可以用于更多层数,只是效果如何还需要额外测试。

归根结底,Stable-Layers的核心贡献不只是一个图像分层工具的改进,而是一套更通用的思路:对于那些无法获得"标准答案"的生成任务,可以通过让一个视觉语言模型充当裁判、精心设计让裁判打出有区分度的分数、然后用这些相对分数来驱动强化学习,从而在完全没有人工标注的情况下提升生成质量。这个思路在原则上可以应用于风格迁移、图像补全、光照调整、场景重组等一系列类似任务,任何一个能被VLM评估的条件生成问题,都可能从这个框架中受益。

说到底,这项研究解决的问题比"分层"本身更深远。它提供了一种让AI在没有老师给出标准答案的情况下,通过"考官评分"自我提升的可行路径。未来,随着视觉语言模型的能力不断增强,这类"以评分代替标注"的训练方式或许会成为图像生成领域的常规工具。对于那些想要深入了解技术细节的读者,可以通过arXiv编号2605.30257检索完整论文。

Q&A

Q1:Stable-Layers训练时为什么不需要人工标注的分层数据?

A:因为Stable-Layers使用视觉语言模型(VLM)作为裁判来评分,模型对同一张图片生成多个候选分层,VLM比较这些候选并给出相对好坏的判断,训练算法从分数差异中学习,全程不依赖人工制作的参考分层答案。

Q2:Stable-Layers的两阶段打分流程解决了什么问题?

A:解决的是"分数压缩"问题。VLM单独给每个候选打分时,分数往往集中在很窄的范围里,训练算法无法区分好坏。第二阶段把所有候选拼成网格图让VLM相对比较,强制拉开分数差距,训练才能获得有效信号。

Q3:Stable-Layers和LayerD相比各有什么优缺点?

A:LayerD在背景层像素质量上略高,因为它遇到难以分层的图片时倾向于返回原图不做修改。Stable-Layers则始终尝试生成请求数量的完整层数,特征分布均匀性远高于LayerD,对需要多个可编辑层的设计工作流更实用。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新