当前位置: 首页 » 资讯 » 科技头条 » 正文

希伯来大学新技术:让AI绘画"按频率分配精力",图像质量大幅提升

IP属地 中国·北京 科技行者 时间:2026-06-03 22:24:41


这项由以色列希伯来大学研究团队完成的研究,以预印本形式于2026年5月28日发布,论文编号为arXiv:2605.30332,感兴趣的读者可通过该编号查询完整论文。

扩散模型这几年可以说是AI图像生成领域当之无愧的明星技术。无论是你在社交媒体上刷到的AI绘画作品,还是各大科技公司推出的图像生成工具,背后大多离不开这类技术。然而,尽管这些模型已经能画出令人叹为观止的图像,研究人员依然在追问:它们的内部工作流程是否足够高效?有没有被白白浪费掉的"创作精力"?

希伯来大学的这支团队给出了一个出乎意料却又合情合理的答案:有,而且浪费得相当明显。他们发现,现有的扩散模型在生成图像时,有一个被长期忽视的规律——模型会先画好整体轮廓和大色块(也就是所谓的低频信息),再慢慢填充细节纹理(高频信息)。这和一位经验丰富的画家的工作方式非常相似:先定构图,再加细节。但问题在于,现有的生成算法在整个创作过程中,始终以完全均匀的方式注入随机噪声,完全不管当前画面"哪里还没画好",这就好比一个助手不管画家当前在做什么,永远均匀地往画布各处泼洒颜料——在画家已经把大色块铺好之后,继续往那些区域泼同样多的颜料,显然是一种浪费。

正是针对这个问题,研究团队提出了一种全新的采样方法,叫做"彩色噪声采样"(Colored Noise Sampling,简称CNS)。这个方法不需要重新训练模型,只需要在图像生成的过程中,把注入噪声的方式从"无差别均匀分配"改成"按需动态分配"——把更多的随机扰动精力投入到当前还没有画好的频率区域,而不是浪费在已经成型的部分。实验结果表明,这个改动虽然看似简单,却带来了显著的图像质量提升,在多个主流架构和数据集上均大幅改善了生成效果的评分。

一、扩散模型是怎么"画画"的?

要理解这项研究,得先弄清楚扩散模型的工作原理。可以把扩散模型的生成过程理解成一场"去雾还原"游戏。在训练阶段,模型学会了如何把一张清晰的照片逐步加上越来越多的随机噪声,直到变成一团毫无意义的雪花屏;而在生成阶段,模型要做的事情正好相反——从一团随机噪声出发,一步一步地"去雾",最终还原出一张清晰的图像。

在这个还原过程中,每一步模型都需要做出判断:当前的模糊状态应该往哪个方向演化才能更接近真实图像?这个判断依赖于模型在训练中学到的"得分函数",也就是对当前状态的梯度估计,指引生成轨迹朝着真实数据的方向移动。

然而,纯粹的确定性还原(也就是ODE路径,每一步都是固定的)有一个固有缺陷:一旦某一步的估计出现误差,误差会不断积累,让生成路径偏离真实数据的分布。为了解决这个问题,研究人员引入了随机版本(也就是SDE路径):在每一步还原的同时,也注入一点随机噪声,让模型有机会"重新探索"当前邻域,从而纠正之前累积的偏差。

这个随机噪声注入的机制,就是本研究所关注的核心对象。传统做法是在每一步注入均匀的白噪声——所谓白噪声,就是所有频率的能量完全相等,没有任何频率偏好。这在数学上是标准做法,但问题在于,它完全忽略了模型在生成不同频率信息时的进度差异。

二、画家的工作方式:先轮廓,后细节

研究团队关注的那个"被长期忽视的规律",在学术上叫做"谱偏置"(spectral bias)。简单来说,这个规律描述的是:扩散模型在生成图像时,并不是均匀地、同时地构建所有细节,而是有一个明确的先后顺序——先建立低频结构(整体轮廓、大色块、全局构图),再完善高频细节(纹理、边缘、细小纹路)。

这个现象可以用一个拍摄渐渐对焦的镜头来理解。摄影时,从完全模糊到清晰的过程中,你会先看到大致的轮廓和颜色分布,然后才是越来越清晰的细节纹理。扩散模型的生成过程和这个过程高度相似:在早期步骤中,模型优先确定画面的整体格局;在后期步骤中,模型才专注于填充精细的局部细节。

为了量化这个规律,研究团队设计了一个叫做"进度指数"(γ(f, t))的指标,用来衡量在任意时刻t,某个频率f的结构信息究竟被生成了多少比例。具体做法是:在生成过程的每一步,让模型预测一下最终图像长什么样,然后把这个预测结果与真正的最终图像在各个频率上进行对比,看看两者差了多少。差得越少,说明这个频率的结构越接近完成。

通过可视化这个进度矩阵,研究人员清晰地看到了谱偏置的存在:低频区域(对应图像的整体布局)在生成过程的早期就迅速接近完成状态,而高频区域(对应细节纹理)则缓慢爬升,直到生成的最后阶段才逐渐成型。这张进度地图为后续的方法设计提供了关键的数据基础。

三、噪声的能量是有限的,不能乱花

在理解了谱偏置之后,研究团队还发现了另一个关键事实:整个生成过程中注入的总噪声能量,是一个固定有限的预算,不能随意增加。

这个结论来自严格的数学推导。扩散模型使用的随机微分方程(SDE)有一个性质:不管你把生成步骤分成多少步,每一步注入的噪声方差加起来,在步数足够多时,都会收敛到同一个固定的积分值。换句话说,分成100步还是1000步,总能量基本一样,只是每步分得的份额不同。这就像一个固定大小的油箱:不管你把行程分成多少段加油,总油量是不变的。

更重要的是,研究团队还证明了:如果你试图整体放大这个噪声预算(比如统一乘以一个大于1的系数),后果会非常严重。从理论上看,整体放大会破坏SDE和数据分布之间的精确平衡关系,导致生成轨迹偏离真实数据的概率路径。从实验上看也印证了这一点:当总能量放大到原来的1.05倍(仅仅增加5%),FID评分(衡量生成图像质量的指标,越低越好)就从约10急剧恶化到20以上;而放大到1.1倍时,FID高达50以上,图像质量几乎完全崩溃。相反,如果整体缩小噪声,虽然不会立即崩溃,但会让生成结果向确定性ODE靠拢,丧失随机校正的好处。

这个结论的意义在于:我们不能通过"加大油门"来解决某些频率的能量不足问题,唯一可行的方案是"在固定预算内重新分配"——也就是从某些频率挪走一些能量,补充到另一些频率上。这正是CNS方法的核心思路。

四、噪声不只是干扰,它其实在"塑造"最终图像

在提出CNS方法之前,研究团队还做了一项有趣的实验,验证了一个重要假设:注入的随机噪声,并不只是短暂的扰动,而是会被模型"利用",转化为最终图像的结构特征。

这个发现听起来有些反直觉。按常理理解,随机噪声是生成过程中的"扰动项",它的作用是帮助模型探索邻域、纠正偏差,之后会被得分函数的方向性拉力"清除掉"。但实验表明,事情并没有这么简单。

研究人员计算了在整个生成过程中累计注入的噪声总量,与最终生成图像在各个频率上的余弦相似度。结果显示,两者之间存在相当显著的正相关关系:累计注入的噪声在某个频率上的结构倾向,与最终图像在这个频率上的表现有明显的关联。换句话说,你往哪个频率方向多注入了能量,最终图像在那个频率上就可能更丰富。

这个发现为CNS方法提供了理论支撑:如果注入的噪声会被保留并转化为图像结构,那么有意识地把噪声能量引导向当前尚未成型的频率区域,就能帮助模型更好地完成那些区域的结构构建。这就好比说,助手泼洒的颜料不仅仅是噪声,画家实际上会把这些颜料也利用进来——那么助手就应该把颜料泼向那些还没画好的地方。

五、CNS的核心设计:按需分配噪声能量

有了以上三块基础认识,CNS方法的设计逻辑就变得非常自然了。

核心思路是这样的:在每一个生成步骤中,根据当前各个频率的"完成度"(也就是前面说的γ值),动态调整注入到每个频率的噪声能量。完成度越低(即该频率还有很多结构没有建立好),就给它分配更多的噪声能量;完成度越高(该频率的结构基本已经成型),就减少对它的能量分配。同时,为了保证总能量预算不变,所有频率的能量调整系数的均方根必须严格等于1——也就是"拿了这里的,必须补到那里"。

数学上,这个调整系数β(f, t)的计算方式是:将该频率的结构缺口(1 - γ(f, t))开平方,然后除以所有频率结构缺口的均方根,完成归一化。这个公式保证了能量向"最需要补充的地方"倾斜,同时全局总能量守恒。

这个方案还有几个精妙的性质。在生成刚开始时(t接近1),所有频率都完全没有建立结构,γ值都是0,所以所有频率的调整系数都等于1——这意味着CNS在初始阶段和标准白噪声SDE完全相同,不会给模型带来任何"陌生感"。随着生成进行,各频率的完成度开始分化,低频率先行成型,CNS就自动把能量从低频挪向高频,实现动态的按需分配。到了生成末期,低频完全成型,高频还在追赶,CNS就把几乎所有能量都集中在高频区域,全力支持最后的细节填充阶段。

在实现层面,这个方法的操作非常直接:先生成一个标准的白噪声样本,然后对其做傅里叶变换,按照β(f, t)对每个频率的幅度进行缩放,再做逆变换还原到空间域,最后做标准差归一化确保能量守恒。整个过程只需要几行代码,就能无缝插入到任何现有的SDE生成流程中,无需修改模型本身。

六、CNS改变了什么:频谱对齐的故事

研究团队从频谱分析的角度展示了CNS究竟改变了什么。他们对三种方法(ODE、SDE、CNS)生成的图像进行了功率谱密度(PSD)分析,并与真实的ImageNet图像进行了比较。

结果呈现出一个有趣的格局。标准ODE生成的图像在低频(大色块、整体构图)上功率偏高,说明它倾向于把大轮廓画得过于饱满,但在高频(细节纹理)上功率偏低,细节不够丰富。标准SDE生成的图像虽然比ODE在整体上更接近真实,但在全频段上整体功率偏低,相当于整张画都稍微"亮度不足"。CNS则最接近真实图像的频谱分布,在低频和高频之间取得了更好的平衡,对应的频谱误差(以对数空间的平均绝对误差衡量)也最小:ODE的误差为0.155,SDE的误差为0.065,而CNS的误差仅为0.046。

这个频谱上的改进,直接对应到了FID评分的改善。在SiT-XL/2架构(一个基于潜空间的视频生成模型框架改造的图像模型)上,不使用分类器自由引导时,标准SDE的FID为8.26,而CNS将其降低到6.27,降幅约24%。在JiT-B/16模型上,SDE的FID为36.24,而CNS降到了26.69,降幅高达26%。在JiT-H/16模型上,SDE的FID为11.88,CNS降到8.31,降幅近30%。

在使用分类器自由引导(一种通过强化条件信号来提升图像与描述文字匹配程度的技术)的情况下,改进同样稳定:SiT-XL/2的FID从2.06降到1.98,JiT-H/16从2.08降到2.03,JiT-B/16从4.54降到4.19(使用稍低的引导强度时甚至可达4.19)。

七、高阶求解器、更多步数:CNS全面领先

研究团队还系统地测试了CNS在不同求解器和不同采样步数下的表现,以验证其普适性。

在求解器阶数上,团队分别在一阶弱收敛的Euler-Maruyama方法、二阶弱收敛的Heun方法以及Rossler提出的两种二阶随机Runge-Kutta方法(SRK2和SRK2S)上进行了测试。结果显示,在所有这些求解器上,CNS版本均优于对应的标准SDE版本。以SiT-XL/2为例,Heun求解器下标准SDE的FID为8.00,CNS版本降到5.99;SRK2求解器下SDE的FID为8.14,CNS版本降到5.91;SRK2S求解器下SDE的FID为8.77,CNS版本降到5.97。这说明CNS带来的改进与求解器的选择无关,是一种真正意义上的通用改进。

在采样步数上,研究表明CNS在步数达到能够正常进行随机模拟的阈值之后,FID随步数单调下降,始终保持对标准SDE的优势。以Heun求解器为例,在1000步时CNS的FID低至5.97,而标准SDE的最佳FID为7.83,ODE的最佳FID为11.09。CNS用不到一半的步数就能达到ODE的峰值水平,这意味着在相同的计算预算下,CNS可以获得更好的结果。

当然,CNS和所有SDE方法一样,需要比ODE更多的步数才能充分发挥优势,因为随机积分需要更密集的离散化才能正确模拟连续随机过程。这是SDE方法的固有特性,CNS并没有改变这一点。

八、文字生成图像也有效:FLUX实验

除了标准的类别条件图像生成,研究团队还把CNS应用到了文字生成图像的场景中,具体是在目前业界最先进的FLUX.1-dev和FLUX.2-klein模型上进行了测试。

文字生成图像的评估维度更加多元,除了图像质量,还需要关注生成的图像是否真正理解了输入的文字描述。研究使用了三个指标:ImageReward(人类偏好评分,模拟真实用户的主观感受)、CLIPScore(图文一致性,衡量生成图像与文字描述在语义上的匹配程度)以及Aesthetic Score(美学评分,评价图像的视觉吸引力)。测试在DrawBench和GenEval两个综合性文字提示测试集上进行,前者专注于测试复杂的文字理解场景(如复杂文字渲染、多重属性组合),后者则评估精确的组合理解能力(如物体数量、空间位置关系)。

结果显示,在FLUX.1-dev上,CNS的ImageReward从SDE的0.990提升到1.012,CLIPScore从0.689提升到0.693,Aesthetic Score从5.804提升到5.812。在FLUX.2-klein上,CNS的ImageReward从ODE的0.984提升到1.005,同时保持了与标准方法相当的CLIPScore和Aesthetic Score。在GenEval测试中,CNS的综合准确率(0.647)也略高于ODE(0.643)和SDE(0.635),且在计数、颜色属性理解和空间位置等细分任务上均有所提升。

这些结果说明,CNS在提升视觉质量的同时,并没有损害模型理解文字描述的能力,可以放心地作为文字生成图像流程中的替换求解器。

九、消融实验:每个设计选择都有其道理

为了验证CNS方法中每个设计选择的必要性,研究团队进行了详尽的消融实验,系统地测试了各种变体和对比方案,所有实验均在SiT-XL/2上以250步Euler求解器运行。

首先是全局能量缩放实验,验证了方差守恒约束的必要性。将总注入能量统一缩放到各种系数下,结果极其敏感:缩放到0.9时FID从9.61(CNS基准)恶化到16.17,缩放到1.05时恶化到20.46,缩放到1.1时高达50.63,而缩放到0.5或2.0时FID分别达到106.82和327.45,基本完全失去了生成能力。这个实验有力地证明了能量预算守恒的重要性。

然后是时序扰动实验,验证了动态时序分配的必要性。研究团队设计了三种对CNS时序安排进行破坏的方案:用时间轴上的平均频谱代替动态变化(固定频谱),随机打乱时序(乱序安排),以及将时序完全反转(倒序安排)。这三种方案虽然保留了总能量注入模式,但破坏了"在正确的时刻把能量注入到正确的频率"这一关键特性,FID分别恶化到10.53、10.46和10.50,相比CNS的9.61均有明显下滑。这说明不仅要注入到正确的频率,还必须在正确的时机注入。

此外,研究团队还测试了向25%、50%或100%的时间步骤注入随机白噪声的情况,发现任何比例的白噪声混入都会降低性能,且混入比例越高,性能越差,再次确认了精确的频率路由策略的价值。

最后,研究团队还测试了多分形布朗运动(mBm)作为时变彩色噪声生成方式的效果。mBm是一种数学上较为优雅的方案,通过改变Hurst参数来控制噪声颜色随时间的变化。然而,由于mBm只能沿频率轴做整体性的倾斜,缺乏CNS那种对每个频率带精细独立控制的能力,其最佳配置(白噪声到蓝噪声,H从0.5变化到0.25)的FID为11.88,高于CNS的9.61,说明精细的逐频率控制比整体谱倾斜更为有效。

十、对替代训练范式的兼容性:BNDM实验

研究团队还专门测试了CNS是否能为那些在训练阶段就已经考虑了谱偏置的模型带来额外增益,以排除"CNS只是弥补了标准训练的不足"这一可能性。

测试对象是BNDM(蓝噪声扩散模型),这是一种在训练时就采用了随时间变化的白到蓝噪声分布的模型,旨在通过改变训练目标来引导模型更好地利用谱偏置。由于BNDM使用了非标准的前向过程,研究团队需要为其量身定制一个对应的SDE求解器,然后在此基础上接入CNS。

在两个64×64的数据集上,AFHQ猫脸数据集和LSUN教堂建筑数据集,BNDM+ODE的FID分别为7.95和10.16,而加入CNS之后分别降低到7.49和8.70,改进幅度相当可观。相比之下,BNDM+标准SDE的FID却高达18.80和66.71,说明标准白噪声SDE对BNDM的训练范式适应性很差,而CNS不仅解决了这个问题,还进一步提升了质量。

这个实验说明,CNS带来的增益并不依赖于模型训练方式,它是一种真正的推理时改进,能够与各种不同的训练范式协同工作,提供互补的额外价值。

说到底,这项研究做的事情,说起来其实很朴素:它发现了一个AI绘画过程中长期存在的低效环节,然后用一个相对简洁的数学工具把它修好了,而且整个修复过程完全不需要重新训练模型。

这对普通用户意味着什么?意味着你手边已有的那些图像生成工具,理论上可以通过更换采样方式,在不增加任何计算成本的前提下生成更清晰、细节更丰富的图像。你无需等待新一代更大的模型,也无需购买更贵的硬件——只需要更聪明地使用现有的模型就够了。

当然,这个方法目前还有一个限制:它依赖于随机微分方程框架,对确定性ODE采样器无效,而ODE采样器恰好是目前低步数(快速生成)场景的主流选择。研究团队也坦承了这一局限,并表示未来希望探索如何将频率感知的能量路由引入确定性采样框架,以及如何把这套思路延伸到视频生成领域(那里还多了一个时间频率维度可以利用)。

对这项工作感兴趣的读者,可以通过arXiv编号2605.30332查阅完整论文,以及访问研究团队发布的项目主页(hadardavidson.github.io/CNS/)查看更多可视化结果和代码实现。

Q&A

Q1:彩色噪声采样(CNS)和普通扩散模型采样相比,到底改了什么?

A:CNS改变的是在图像生成过程中向系统注入随机噪声的方式。普通方法是每一步都向所有频率均匀注入相同能量的白噪声;CNS则会在每一步根据各个频率当前的"完成进度"动态分配能量,把更多噪声能量引导到尚未成型的频率区域,同时减少对已经成型区域的能量注入,且总能量始终守恒。

Q2:CNS需要重新训练扩散模型才能使用吗?

A:不需要。CNS是一种纯推理时方法,只替换采样过程中的噪声注入策略,不修改模型权重,也不改变模型结构。任何已有的扩散模型只需更换求解器就能使用CNS,是真正的即插即用方案。

Q3:为什么扩散模型生成图像时会先画轮廓再画细节?

A:这是扩散模型固有的"谱偏置"特性,根源在于神经网络在学习时倾向于先拟合低频(平滑、整体)信息,后拟合高频(精细、局部)信息。在图像生成的逆向过程中,这种学习偏好体现为模型在早期步骤中主要修正整体布局,在晚期步骤中才精细化纹理细节,类似于画家"先定构图后填细节"的工作习惯。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。