![]()
这项由西湖大学、浙江大学、清华大学、香港科技大学及上海人工智能实验室联合完成的研究,以预印本形式于2026年5月发表,论文编号为arXiv:2605.21195。有兴趣深入了解技术细节的读者可通过该编号查询完整论文。
你有没有想过,一张AI生成的图片,从"想法"到"画面"究竟经历了什么?整个过程有点像一场接力赛:第一棒运动员负责把文字描述翻译成一串密码,第二棒运动员再把这串密码还原成真正的图像。这听起来很顺畅,但研究团队发现了一个隐藏已久的问题——当我们花大力气训练第一棒运动员跑得更好、更准确时,接棒的第二棒运动员却完全没有跟着一起练习,结果它拿到的"密码"越来越陌生,最终交出的图像质量反而越来越差。这就是这篇论文要解决的核心矛盾。
一、那根"冻住"的接力棒
要理解这项研究,先得搞清楚当今主流AI图像生成系统的内部构造。研究中涉及的模型属于"离散自回归文字生成图像"系统,听起来拗口,但原理其实并不复杂。整个系统分为两个相互配合的组件:一个是"词汇表编解码器"(VQ tokenizer),它的工作是把真实图片压缩成一串由数字代号组成的序列,就像把一幅画翻译成一段摩尔斯电码;另一个是"自回归策略网络"(AR policy),它学习如何根据文字提示创作出类似的数字代号序列,再交由前面那个编解码器里的"解码器"部分把数字代号还原成真正的图像。
在这套流程中,研究人员希望通过"后训练"(post-training)来进一步提升模型的效果——通俗地说,就是在模型已经基本学会生成图像之后,再给它看一些高质量的评分反馈,让它学着生成更符合人类偏好的图片。这个过程有点像一个厨师已经会做饭了,但我们进一步请来美食评委给每道菜打分,厨师根据评分不断调整自己的做法。
然而问题在于,过去所有的后训练方法都只盯着"厨师"(策略网络)进行训练,而把"出菜窗口"(VQ解码器)完全锁住不动。这种做法背后有一个隐性假设:解码器只是个机械翻译工具,不需要变化。但研究团队发现,这个假设其实大错特错。
解码器在最初训练时,接触的全都是"标准答案密码"——即真实图片经过严格数字化处理后得到的代号序列。这些代号高度规律、分布集中,解码器因此练就了一套针对这类"标准密码"的还原能力。但当策略网络经过后训练之后,它生成的代号序列在分布上悄然发生了变化,越来越偏离当初解码器学习时见过的那种"标准密码"。解码器拿到这些"陌生密码",解读起来自然力不从心,图像质量就随之下滑。
研究团队把这种现象命名为"潜在协变量偏移"(Latent Covariate Shift)。用接力赛的比喻来说,就是第一棒运动员的跑姿变了,但第二棒运动员还在用老方法接棒,结果棒子越来越难接稳。他们在LlamaGen-XL这个775亿参数的模型上做了实验,发现标准强化学习训练确实提升了模型对文字描述的匹配程度(CLIP分数从31.54升至32.45),但图像的整体质量指标(FID分数)却从15.24恶化到17.76。FID是用来衡量生成图像与真实图像差距的指标,数字越小越好,所以这个变化意味着图像质量实实在在地变差了。更能说明问题的是,他们测量了策略网络生成的代号分布与真实图片代号分布之间的差距,发现在标准强化学习训练过程中,这个差距持续扩大了24%。
二、为什么不能直接打通两端?
发现了问题,自然想到的解决思路是:既然解码器接不住变化后的密码,那就让解码器也跟着一起变化。但实现起来并没有这么简单,这里存在一个几乎无法绕过的技术障碍。
在整个图像生成流程中,有两个关键操作天生不支持"倒推"——也就是说,无法把最终图像的评分信号反向传递给策略网络。第一个是策略网络在生成代号序列时的随机采样过程,第二个是词汇表编解码器在查找最近邻代号时的离散选择操作。这两步操作就像一道单向闸门,信号可以从策略网络流向解码器,再流向像素,但反方向的梯度信号却被彻底截断了。
这个问题在连续型扩散模型(如Stable Diffusion这类系统)中并不存在,因为那类系统的整个生成链条是连续可微的,奖励信号可以顺畅地一路反传回去。但在离散自回归系统中,这条路天然就是断的。
此前学术界也提出过一些绕过这个障碍的近似方法,比如"直通估计器"(Straight-Through Estimator)或者"Gumbel-Softmax"等技术,但这些方法在现代视觉代号系统动辄一万六千个词汇条目的规模下,要么引入严重的计算偏差,要么训练极不稳定。于是,所有现有的后训练方法都选择了同一条退路:冻结解码器,只训练策略网络,并默默接受由此带来的图像质量损失。
三、RankE:绕开障碍的"接力协同训练法"
研究团队提出的解决方案叫做RankE,全称是"基于排名的端到端对齐"(Ranking-based End-to-end alignment)。这个方案的核心思路不是强行打通那道单向闸门,而是聪明地绕开它——让策略网络和解码器交替训练,各自用适合自己的方式吸收奖励信号,通过这种"轮流进步"的方式实现两者的同步演化。
整个训练流程分为两个交替进行的阶段,研究团队将其类比为统计学中经典的"广义期望最大化"(Generalized EM)算法,每个阶段都是在同一个整体目标函数上进行一次有效的优化步骤。
第一阶段是策略网络的训练。在这个阶段,解码器保持不动,策略网络通过一种叫做GRPO(群体相对策略优化)的方法来学习。具体做法是:对于每一条文字提示,同时生成八张图像,然后用奖励模型(可以是CLIP评分或人类偏好评分HPSv2)给这八张图打分,再根据分数的高低计算出每张图相对于组内平均水平的"优劣程度"。得分高于平均的图像对应的密码序列会被强化,得分低的则会被弱化。这个过程有点像在同一道题上让八个学生各自答一遍,然后把他们的答案互相比较打分,让策略网络学着往高分答案靠拢。为了防止策略网络学着学着偏离太远,这一阶段还加入了KL散度约束(一种衡量新旧策略差距的指标),就像给学生规定"答案风格不能偏离原来太多"。
第二阶段是解码器的训练。在这个阶段,策略网络保持不动,解码器用刚刚生成的那八张图的密码序列和评分来更新自己。这一阶段包含了精心设计的四个损失函数,分别从不同角度防止解码器走偏或崩溃。
第一个是"奖励直接反传"损失。当使用的奖励模型本身支持计算梯度时(比如CLIP),可以直接把奖励分数对解码器参数的梯度算出来,推动解码器往让高分图像更清晰的方向走。注意,密码序列在这里是被"切断梯度"的——信号只在解码器内部流动,不会越过那道单向闸门。
第二个是"Rank-GAN"损失。这是专门为不支持梯度计算的奖励模型(比如HPSv2)设计的机制。Rank-GAN在普通对抗生成网络(GAN)的基础上加入了奖励权重:在那八张图中,奖励分数越高的图像,在更新解码器时获得的权重越大;分数低的图像权重越小。这相当于告诉解码器:"你要重点学着把那几张评分高的密码序列解码得更好看,低分的可以少学一点。"研究团队通过消融实验验证,把Rank-GAN换成普通无权重的GAN,CLIP和FID两项指标都会下降,证明奖励权重才是关键所在。
第三个是"真实密码重建"损失。这个损失函数让解码器持续在真实图片的标准密码序列上进行训练,确保它不会因为一味适应策略网络生成的"变化密码"而遗忘了如何还原"标准密码"。这就好像一个语言翻译员在学习新方言的同时,还要定期复习标准普通话,防止把母语给忘了。
第四个是"EMA一致性"损失。这个机制维护了一个"慢速跟随"的教师解码器(通过指数移动平均技术实现,即EMA),解码器在每次更新时都要确保自己的输出不要偏离这个慢速教师太多。这个慢速教师相当于一个稳定的参照物,过滤掉单步对抗训练带来的高频噪声,让解码器的进步更加平稳。值得一提的是,当这个一致性损失被去掉后,CLIP分数会略微上升到34.17,但FID却急剧恶化到19.03——说明没有这个约束,解码器会过度拟合于当前时刻策略网络碰巧生成的密码,从而失去对整体分布的把握。
这两个阶段交替进行多轮,策略网络每进化一步,解码器就跟着重新校准一次;解码器跟上了策略网络的节奏,下一轮策略网络又能更稳健地提升。两者在这种"一起进步"的过程中,共同将奖励信号转化为真正的像素级质量提升。
四、实验结果:两个指标同时提升了
研究团队在两个主要模型上验证了RankE的效果,分别是LlamaGen-XL(7.75亿参数)和Janus-Pro-1B(10亿参数),并使用CLIP评分和HPSv2两种奖励函数进行了交叉验证。
在LlamaGen-XL上,最直观的对比来自与标准强化学习(GRPO)方法的正面比较。标准强化学习训练后,CLIP分数从31.86提升到32.45,但FID从16.58恶化到17.76。RankE训练后,CLIP分数进一步提升到33.76(比标准强化学习高出1.31分),而FID则改善到15.21(比标准强化学习低2.55,甚至比模型的原始预训练状态15.24还略好)。这是一个标志性的结果:过去认为必然对立的两个指标,在RankE的框架下实现了同步改善。
训练过程中的动态曲线也很能说明问题。标准强化学习的FID指标随训练步数的增加几乎单调上升(即持续变差),CLIP指标则缓慢攀升;RankE的两条曲线则都呈现出向好的趋势,FID持续下降,CLIP持续上升,且从6000步的训练终点来看,两者都处于各自的最优位置。
在Janus-Pro-1B上,情况略有不同但结论一致。这个模型预训练时使用的是一套私有的大规模数据集,研究团队在后训练阶段使用了一套1.5万条数据的语料库,与预训练数据分布存在一定差异,导致所有后训练方法(包括监督微调SFT)都出现了FID相对原始模型上升的情况。但即便在这种不利条件下,RankE相比标准强化学习依然取得了更好的CLIP分数(33.86 vs 33.60)和更低的FID(25.19 vs 25.59),在零样本GenEval组合推理评测上也保持了领先(平均0.750 vs 0.746)。
使用HPSv2作为奖励函数时,RankE同样展现出优势。HPSv2是一种不支持梯度计算的"黑盒"评分器,这种情况下Rank-GAN机制成为主要的奖励注入渠道。结果是:标准强化学习的HPSv2平均分为0.2451,RankE达到0.2531,同时在零样本GenEval评测上也保持了与标准强化学习相当甚至略好的表现,说明对齐能力的提升没有以牺牲泛化能力为代价。
机制验证部分同样翔实。研究团队追踪了训练过程中策略网络生成代号分布与真实图片代号分布之间的KL散度:标准强化学习训练6000步后,KL散度持续增大24%;RankE则始终将KL散度维持在接近监督微调初始阶段的水平,偶尔甚至略低。与此同时,标准强化学习会导致策略网络集中使用更少的代号条目(即代号熵降低),而RankE则将代号熵维持在接近真实图片水平(约13.87比特)的位置。这两个指标联合确认了一件事:RankE不是在掩盖潜在协变量偏移的后果,而是从根源上抑制了这种偏移的发生。
在训练模式的消融实验中,研究团队对比了四种配置:不做后训练的监督微调基线(CLIP 31.86,FID 16.58,GenEval 0.374)、仅训练策略网络(CLIP 32.45,FID 17.76,GenEval 0.417)、仅训练解码器(CLIP 33.41,FID 18.68,GenEval 0.403)、完整RankE(CLIP 33.76,FID 15.21,GenEval 0.425)。结果清晰地表明,只有两者联合训练才能同时改善所有三个维度,且完整RankE的FID远低于单独训练任何一个组件,说明两者的协同效果是真实存在的,而非简单叠加。
五、细节的鲁棒性:超参数敏感不敏感?
研究团队还系统测试了RankE对各种超参数设置的敏感性,这对于判断一个方法是否实用至关重要。
关于一致性损失权重λc,他们测试了三个档位:λc=10时,训练最稳定,FID最好(17.37),但CLIP和GenEval略低于默认设置;λc=1(默认)时,综合表现最优;λc=50时,训练到约1500步时解码器发生崩溃,真实密码重建损失急剧发散,判别器分数趋近于零。这个结果说明一致性约束的强度有一个合理范围,过松会让解码器漂移,过紧则会让对抗学习信号淹没,最终训练失效。
关于重要性采样温度τ(控制Rank-GAN中奖励权重分布的"集中程度"),τ=1.0时相当于均匀采样,奖励信号被稀释,CLIP降到33.43;τ=0.01时权重过于集中在最高分样本,多样性崩溃,FID升至16.12;τ=0.1(默认)取得最佳平衡,FID 15.21,CLIP 33.76,GenEval 0.425。
关于EMA衰减速率α,越慢的教师(α越接近1)越稳定,默认α=0.999的表现最好,α=0.900时教师跟踪学生过于紧密,稳定性下降,FID升至15.75,CLIP降至33.48。
六、计算代价与局限
研究团队坦诚地指出,RankE并非没有代价。在内存方面,由于需要同时持有判别器和EMA解码器,峰值显存从标准方法的33GB增加到56GB,约增加了70%。但训练时间的增加幅度则相对温和:完整的6000步训练在8张A100 GPU上约需20小时,而标准GRPO基线约需19小时,时间开销仅增加约5%。也就是说,内存要求更高,但时间成本几乎没有增加。
论文还明确提出了三个当前阶段的局限。第一,调度策略还有优化空间,比如通过监测奖励是否陷入平台期来动态决定是否启动解码器更新阶段,而非每批次都交替。第二,模型效果受到监督微调语料库与预训练数据分布的影响;Janus-Pro使用私有预训练数据集,导致研究团队的语料库与之存在分布差距,SFT阶段就已经引入了明显的FID退化,这制约了后训练的提升空间——这是数据匹配问题,不是方法本身的缺陷。第三,VQ编码器在整个训练过程中被冻结,这意味着真实密码始终保持稳定,作为重建损失的可靠锚点,但也意味着编码器侧的优化空间暂时未被开发。将编码器也纳入联合训练、探索在预训练阶段就引入协同进化,以及整合在线人类反馈,是研究团队勾画出的自然延伸方向。
归根结底,这项研究揭示的是一个此前被集体忽视的问题:在AI图像生成系统里,解码器不是一个可以永久锁定的零件,而是一个需要与策略网络共同成长的伙伴。过去的方法只训练了接力赛的第一棒,期待第二棒能自动适应,结果是明显的质量天花板。RankE提供了一种同时训练两棒运动员的方法,绕开了无法直接打通的技术障碍,让系统在不牺牲图像质量的前提下获得更好的文字对齐能力。
这个发现对于任何使用离散自回归结构的图像生成系统都有直接参考价值。随着这类系统在多模态大模型中的角色愈发重要,如何让"密码解读者"跟上"密码创作者"的进化步伐,将会是一个越来越不可回避的问题。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.21195查阅完整论文。
Q&A
Q1:RankE和普通强化学习训练图像生成模型有什么本质区别?
A:普通强化学习只训练负责"创作密码序列"的策略网络,负责"把密码还原成图像"的解码器被完全冻结。RankE的核心区别在于让解码器也参与训练,通过交替优化两个组件,使解码器能持续跟上策略网络分布的变化,从而避免图像质量随对齐能力提升而下降的矛盾。
Q2:潜在协变量偏移在实际生成图像中会有什么表现?
A:直观表现是图像出现明显的视觉伪影,比如颜色条纹、模糊区域或不自然的纹理,即使模型生成的内容已经能准确匹配文字描述。这是因为解码器在接收到与自身训练分布不同的密码序列时,还原能力会下降,导致像素级的失真,而这些失真在FID等整体质量指标上也会有所体现。
Q3:RankE框架能不能用在Stable Diffusion这类扩散模型上?
A:不需要,也不适用。RankE专门针对离散自回归图像生成系统中的解码器固定问题设计。扩散模型本身生成链条是连续可微的,奖励信号可以直接反传,类似REPA-E等方法已经在探索扩散模型中解锁VAE的思路,两类系统面临的技术障碍和解决路径并不相同。





京公网安备 11011402013531号