当前位置: 首页 » 资讯 » 科技头条 » 正文

ETH苏黎世与谷歌突破:图片生成模型实现人类喜好对齐效率3倍提升

IP属地 中国·北京 科技行者 时间:2026-05-29 00:23:53


这项由瑞士联邦理工学院(ETH Zurich)、谷歌和哥本哈根大学联合完成的研究,以预印本形式发布于2026年5月19日,论文编号为arXiv:2605.19804。感兴趣的读者可以通过该编号在arXiv平台上查阅完整原文。

**一、当AI画家不知道自己画得好不好**

现代AI图片生成模型(比如能根据文字描述生成图片的那种)已经相当厉害了,但它们有一个根本性的麻烦:训练的时候,这些模型学的是"怎么生成看起来像真实图片的东西",而不是"怎么生成人类觉得好看、符合要求的东西"。这就像一个厨师学会了做菜的基本技法,却不知道食客的口味偏好。

要让AI学会迎合人类的口味,就需要一个"评分系统"——专业上叫奖励模型(Reward Model),可以理解为一位经验丰富的品鉴师,能对生成的图片打分,判断它是否好看、是否符合文字描述。有了这位品鉴师,就能反过来改造AI画家,让它越画越符合人类的期待,这个过程叫"对齐"(Alignment)。

然而,这里有一个恼人的时间差问题。AI画图的过程并不是一步到位的,而是像在噪音中一点点把图像从模糊变清晰,就像在浓雾中逐渐看清一幅画。这个去雾的过程分成很多步骤,每一步AI都需要判断"当前的方向走对了吗、最终出来的图会好看吗"。但问题是,品鉴师(奖励模型)只能评价完全清晰的最终图片,对中间那些半成品的"噪声潜变量"(可以理解为画布上的朦胧轮廓)完全无从下手。

这就好比让一位品酒师在酿造过程的每一个发酵阶段都要出具意见,但他只会品尝成品,对半发酵的果汁毫无办法。现有的解决方案要么是把模糊的中间品强行想象成成品再评分(专业上叫Tweedie近似),就像用PS滤镜把模糊照片一键变清晰再让人评价,这种方法又快又粗糙,在噪声很大的早期阶段偏差极大;要么是在每个阶段都把这幅半成品画完好几遍取平均(蒙特卡洛近似),这样准确但贵得离谱,就像每次品酒都要把整个酿造流程重来好几次。

研究团队于是提出了一个全新思路:能不能直接培养一位"能品尝半成品的品鉴师"?也就是训练一个专门针对噪声中间状态的价值模型(Value Model)。听起来合理,但实际操作中,之前的尝试要么需要海量数据从头训练,成本极高;要么能力有限,只能在非常窄的领域发挥作用,泛化性远不如顶级的图片品鉴师。

这项研究提出的StitchVM(缝合价值模型),给出了一个优雅的答案:不从头培养,而是把一位顶级图片品鉴师和一位精通"看懂噪声画布"的专家拼接在一起,强强联合。

**二、"拼接"的艺术:把两位专家合二为一**

要理解StitchVM的核心思想,可以用一个医学影像的比喻来贯穿全文。

假设你有一位顶级放射科医生(奖励模型),他看过无数清晰的X光片,能一眼判断出片子上有没有病变,经验极其丰富。还有一位专业技师(扩散模型主干),他负责操作CT机器,非常擅长从各种嘈杂的原始扫描信号中提取有用信息,即便信号很弱很杂乱,他也能从中解读出有意义的特征。

现在的问题是:在CT扫描还没完成、图像还很模糊嘈杂的时候,能不能让放射科医生提前做出判断?直接让医生看嘈杂信号他看不懂;重新等扫描完成又太慢。StitchVM的做法是:让技师先处理嘈杂信号,提取出他认为有意义的中间特征,然后在某个恰当的节点把这些特征"交接"给放射科医生,让医生从这里继续往后分析,最终给出诊断。

中间那个"交接节点"就是整个方法的精髓,研究团队把它叫做"缝合层"(Stitching Layer)。技师(扩散模型)处理前半段嘈杂的潜变量,在某一层输出中间特征;放射科医生(奖励模型)从某一层开始接手,继续处理直到给出最终分数。两者之间用一个轻量级的适配层(缝合层)来填补两种特征表达之间的细微差异。

当然,找到那个最合适的"交接节点"是关键。研究团队的方法非常聪明:他们取来一批干净的图片,同时让技师处理对应的嘈杂版本,分别记录下两人在不同层的中间特征,然后用一个简单的线性变换来衡量"哪个层次上,技师的特征和医生的特征最接近"。这个线性变换甚至有闭合解(即可以直接用数学公式求出最优答案,不需要反复迭代),计算极为高效。这一步骤就是"缝合接口搜索"(Stage 1)。

找到最佳节点后,需要做一步微调(Stage 2)。由于两位专家毕竟来自不同背景,特征之间还有轻微的表达差异,研究团队用少量无标注的干净图片来进一步训练这个拼接模型,目标是让它在嘈杂输入下,输出的分数尽可能接近品鉴师看到清晰图片时给出的分数。这步微调不需要任何人工标注数据,也不需要训练整个大模型,只需要微调缝合层和被截断的奖励模型后半段。

训练目标的数学形式很自然:对于每一张清晰图片,往里面加上不同程度的噪声,让拼接后的模型预测分数,而目标值就是原始奖励模型对这张清晰图片的打分。不断让两者的差距缩小,就是整个训练过程。可以证明,这种训练方式在理论上的最优解,恰好就是我们真正想要的"价值函数"——即在给定某一噪声状态下,预期最终图片会得多少分的期望值。

整个流程的成本惊人地低。以把CLIP ViT-L/14(一个广泛使用的图片-文字匹配评分模型)拼接到SD 3.5 Medium(一个流行的扩散生成模型)为例,整个过程在一块高端GPU上只需要约10小时。相比之下,从头训练一个同等能力的噪声价值模型需要的算力要高出数个数量级。

**三、两段历程:从找接点到微调打磨**

进一步展开这两个阶段的细节,有助于理解这个方法为什么既可靠又高效。

在第一阶段的接点搜索中,研究团队使用了200张图片作为探测集,这个数量级相当小,说明这一步非常省资源。对于每一对候选接点(扩散模型的第i层,奖励模型的第j层),他们计算的是一个均方误差:把扩散模型在噪声图片上的第i层特征,经过最优线性变换后,与奖励模型在对应清晰图片上的第j层特征之间的距离。误差越小,说明这两个层次的特征在几何意义上越相似,也就是说这里的"语言"最接近,交接时信息损失最少。

研究过程中发现了一个重要规律:越深层的奖励模型特征越难被线性还原,一旦奖励模型的截取点超过前四个Transformer块,误差会急剧增大,而且后续的微调也无法弥补这种损失。因此,搜索范围被限制在奖励模型的前四个块内,而扩散模型那边则扫描全部层次,最终挑出误差最小的组合。

在第二阶段的微调中,缝合层的架构设计颇为讲究。最核心的部分是一个1×1卷积层,用线性最优解初始化,然后叠加一个两层的残差MLP(轻量级神经网络),初始化为零输出,这样一开始它不会破坏线性解已经建立的良好基础,而是慢慢学习残余的非线性差异。整个缝合层参数量极少,训练起来非常快。

此外,由于扩散模型处理的是潜变量空间的图像(而不是像素空间),而奖励模型(如CLIP)处理的是像素空间的图像,两者的"分辨率"(空间网格大小和通道数)未必一致,缝合层中还包含了一步双线性重采样来桥接这个尺寸差异。

训练时,噪声级别从接近0到接近1均匀采样,但采用了一个中心偏向的分布,因为噪声极小(几乎是清晰图片)和噪声极大(几乎是纯噪声)的情况包含的有效学习信号较少。奖励模型和扩散模型主干在整个过程中都保持冻结,只有缝合层和奖励模型的后半段参与更新。

**四、七十二般变化:拼接适用于多种模型组合**

研究团队验证了StitchVM在多种主流模型组合上的有效性,覆盖了三个扩散模型主干和四个奖励模型。扩散模型方面,包括SD 3.5 Medium、SD 3.5 Large以及FLUX.1-dev;奖励模型方面,包括OpenAI CLIP(ViT-L/14, 336px)、DFN-CLIP(ViT-H/14, 378px)、HPSv2(人类偏好分数v2)以及美学预测器。

所有模型只用了AVA和HPDv2数据集中的无标注图片训练5个轮次。评测时,对不同噪声级别(σ = 0.1, 0.25, 0.5, 0.75, 0.9,其中0代表完全清晰,1代表纯噪声)的潜变量进行测试。评测指标则分别对应各个奖励模型的核心能力:CLIP类模型用MSCOCO和Flickr30K上的零样本跨模态检索召回率,HPSv2用ImageReward和HPDv2上的偏好准确率,美学预测器用AVA测试集上的斯皮尔曼等级相关系数(SRCC)。

结果相当令人振奋。在低噪声阶段(σ ≤ 0.5),拼接后的价值模型表现与原始干净图片奖励模型几乎没有差别。随着噪声增大,性能会逐渐下降,但相比其他基线方法,下降幅度要平缓得多,在最高噪声级别时仍能保持相当可观的能力。这说明StitchVM确实成功地把奖励模型的能力"迁移"到了噪声潜变量的领域。

与此形成鲜明对比的是几个基线方法。VAE拼接基线(直接把噪声VAE潜变量送入奖励模型,不经过扩散模型主干处理)在噪声稍大时就几乎完全失效,SRCC降至接近0,检索召回率也接近随机水平,印证了扩散模型主干在处理噪声特征方面不可替代的作用。

NoisyCLIP基线(在大规模噪声图片上重新训练CLIP,使用了LAION-400M这个4亿张图片的数据集)虽然数据规模远超StitchVM,最终性能却明显更差。这揭示了一个反直觉的事实:与其用大量噪声数据从头训练,不如用少量数据把现成的顶级模型迁移过来,后者的效率和效果都更优。

DiNa-LRM基线(一个基于扩散特征训练的奖励模型,使用了专有偏好标注数据集HPDv3)与StitchVM相比,在HPDv2和ImageReward两个基准上都逊色于StitchVM,而StitchVM使用的仅仅是无标注图片。这进一步说明,直接迁移顶级奖励模型的能力,胜过用偏好标注数据从头训练。

**五、推断时的"副驾驶":让每一步生成都更聪明**

有了一个能在噪声状态下直接估计最终图片质量的价值模型,最直接的应用就是在图片生成的推断过程中实时"导航"。研究团队在两种主流的推断时对齐方法上验证了StitchVM的效果。

第一种叫扩散后验采样(DPS),可以理解为在去雾的每一步都用指南针修正方向。传统DPS的做法是:先用Tweedie方法把当前的模糊中间状态强行变清晰,再让奖励模型打分,然后沿着分数增加的方向稍微调整一下当前状态,再继续去雾。这个过程需要完整走一遍扩散模型推理和VAE解码,不仅慢,而且在噪声大的时候那个"强行变清晰"的步骤本身就存在很大偏差,指南针指的方向可能就是错的。

用StitchVM替换这个步骤后,可以直接对噪声潜变量计算梯度,不再需要扩散模型推理和VAE解码这两个昂贵的步骤。实验数据显示,这一替换使得推断速度提升了3.2倍(以SD 3.5 Medium为例,每张图片从52.8秒降到16.5秒),峰值显存占用降低了约50%(从56.4GB降到26.0GB),同时在ImageReward、美学分数、HPSv2等多个评测指标上还有普遍性的质量提升。节省算力的同时还提升了质量,这种双赢在研究中并不常见。

第二种叫费曼-卡茨引导(FK Steering,可理解为粒子过滤导航法)。这种方法同时维护多条"去雾路径"(粒子),每步评估各条路径的潜力,优胜劣汰。传统实现中,每评估一个粒子的潜力就需要一次Tweedie变换加VAE解码,成本随粒子数线性增加。

StitchVM的加入开辟了一种全新的扩展思路:因为每次价值函数评估已经非常廉价,可以在每条路径上同时探索多个局部候选方向(M个提议),选出价值最高的那个继续走,而不仅仅是扩大路径总数(N条粒子)。研究团队发现,这种M扩展方式比单纯增加N更有计算效率:比如(N=8, M=6)的组合能达到与标准方法(N=14)相当的质量,但只需要后者67%的计算量。

在GenEval这个专门评测文本-图像对齐能力的基准上,FK Steering结合StitchVM相比标准版本有显著提升:以HPSv2为目标奖励时,GenEval从0.62提升到0.69,ImageReward从0.93提升到1.10。

**六、训练时的"提前预习":让模型更早学到重要经验**

除了推断时的导航,StitchVM还能加速和改善训练时对齐的效率。研究团队在两种训练时方法上进行了测试。

第一种是直接奖励微调(DRaFT/AlignProp)。传统做法是让模型把整张图生成到底,然后用奖励信号反向传播梯度,调整模型参数。这个过程需要沿着整条去雾路径反向传播,既耗内存又容易梯度爆炸,所以实际操作中往往只反向传播最后几步(低噪声阶段),高噪声阶段的早期步骤得不到有效的学习信号。

引入StitchVM后,不再需要把生成路径走到底。每次训练迭代中,随机采样一个中间停止时间步τ,在那里停下来,直接用StitchVM评估这个噪声状态的价值,把这个值当作训练信号来反向传播。由于不需要走完整条路径,反向传播的链路大大缩短,避免了梯度爆炸问题,同时早期高噪声阶段的步骤也能收到来自价值函数的直接学习信号,弥补了传统方法的盲区。

实验结果显示,DRaFT-1结合StitchVM时,总GPU消耗从128.1 GPU-hours降低到94.8 GPU-hours(节省约26%),同时GenEval从0.53提升到0.69,HPSv2从0.308提升到0.348,各项指标全面提升。DRaFT-3的情况类似,GPU消耗从128.0降到100.3(节省约22%),各项指标也有改善。

第二种是DiffusionNFT,一种基于强化学习的在线训练方法。它的原始做法是生成完整图片,用终端奖励信号来判断哪些生成"正面"哪些"负面",然后做对比学习。这个过程每次更新都需要走完整条生成路径,非常耗时。

引入StitchVM后,同样可以在中间噪声步骤停下来,用价值函数估计终端奖励,用这个估计值代替真实的终端奖励来构建正负样本。由于不用走到底,每次迭代的成本大幅降低。实验数据显示,DiffusionNFT结合StitchVM时,总GPU消耗从191.5 GPU-hours降低到84.7 GPU-hours,节省了超过55%,同时各项评测指标保持相当甚至略有改善。换句话说,用不到原来一半的计算量,达到了相同乃至更好的训练效果。

研究团队还针对"在哪个噪声步骤停下来最合适"做了专项分析。在25步的生成计划中,从太早的步骤(步骤2到12)停下来效果反而不好,因为那时的价值函数预测还太不准确;从中间偏后的步骤(步骤12到17)停下来效果最好,既保证了预测的可靠性,又避免了走完全程的代价;从最后几步(步骤20到25)停下来效果居中,但不如中间区间稳定。

**七、一个有趣的延伸:小模型也能指导大模型**

研究中还有一个值得关注的发现:StitchVM不一定需要和被指导的生成模型完全一致。以SD 3.5 Medium的拼接模型来指导更大的SD 3.5 Large进行FK引导,与用SD 3.5 Large自己的拼接模型相比,效果几乎没有差别——HPSv2相差不超过0.002,GenEval上小模型版本甚至稍高(0.72 vs 0.70)。

这背后的原因是SD 3.5 Medium和SD 3.5 Large共享同一个VAE潜变量空间,它们的噪声潜变量在维度上完全兼容。而StitchVM只用到了扩散模型的前几层,这些浅层特征在两个尺寸的模型之间差异不大。这意味着可以训练一个更便宜的小模型版本的StitchVM来指导昂贵的大模型,进一步降低运行成本。

**八、成本一览:这套方案到底有多轻量**

研究团队在文章中详细列出了各种配置下训练StitchVM的总成本,以单张GH200 GPU上的总小时数来衡量,包含接点搜索和微调两个阶段。以512×512分辨率为例,美学预测器的总训练时间约7 GPU-hours,CLIP约10 GPU-hours,HPSv2约10.2 GPU-hours。提升到1024×1024分辨率时,成本相应增加到24至32 GPU-hours。

这组数字放在整个AI训练的语境下是极为轻量的。训练一个主流的扩散模型本身往往需要数万乃至数十万GPU-hours,而NoisyCLIP那样的基线方法也需要在LAION-400M这4亿张图片的数据集上重新训练,成本不可估量。相比之下,10 GPU-hours几乎是一个任何团队都能承受的一次性投入,而这个一次性投入就能为后续无数次推断和训练节省大量成本。

此外,论文还指出了这个方法的当前局限:StitchVM只适用于那些本身被实现为前馈神经网络的奖励模型。对于那些非神经网络形式的评分函数(比如某些基于规则的物理一致性评分),目前的拼接框架无法直接适用,可能需要先训练一个代理奖励模型作为桥梁。研究团队认为这是未来值得探索的方向。

归根结底,StitchVM做的事情可以用一句话概括:把两位专家的优势用一个精心设计的"接力棒"结合在一起,让他们在对方擅长的地方各司其职,共同完成单靠任何一方都无法高效完成的任务。这种模型复用的思路,不仅在AI图片生成对齐这个具体场景下发挥了显著作用,背后蕴含的"用拼接代替重训"的设计哲学,或许在更广泛的AI应用中都有借鉴价值。

对这项研究感兴趣的读者,可以通过论文编号arXiv:2605.19804在arXiv平台检索完整论文,以及访问项目主页 gohyojun15.github.io/StitchVM 查看更多实验结果和可视化内容。

Q&A

Q1:StitchVM为什么比Tweedie近似和蒙特卡洛近似更好?

A:Tweedie近似需要额外运行一次扩散模型和VAE解码,而且在噪声大的阶段偏差很大;蒙特卡洛近似要把生成过程重复好多次,极耗算力。StitchVM训练好之后,直接对噪声状态评分,既不需要走完生成流程,也没有近似偏差,速度快、精度高。

Q2:StitchVM训练需要人工标注的偏好数据吗?

A:不需要。StitchVM的训练只依赖无标注的干净图片,用原始奖励模型对这些清晰图片的打分作为监督信号,让拼接模型在噪声输入下学会预测相同的分数,整个过程完全不需要人工偏好标注。

Q3:StitchVM接点搜索为什么限制在奖励模型的前几层?

A:实验发现,一旦截取点超过奖励模型(如CLIP)的前四个Transformer块,线性变换的拟合误差会急剧增大,说明扩散模型的特征和奖励模型深层特征之间的差异已经无法用简单线性映射桥接,后续微调也无法弥补,最终评测性能会大幅下降。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。