当前位置: 首页 » 资讯 » 科技头条 » 正文

布法罗大学突破:AI图像生成幻觉根源解析与解决方案提出能力

IP属地 中国·北京 科技行者 时间:2026-06-09 22:25:48


这项由美国布法罗大学(University at Buffalo)研究团队完成的研究,以预印本形式于2026年5月29日发布在arXiv平台,编号为arXiv:2606.00377。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。

你有没有见过AI生成的人手图片,手指不是多了一根就是少了一根,甚至弯向不该弯的方向?又或者,AI画出来的国际象棋棋盘上,棋子摆得乱七八糟,完全不符合规则?这些让人哭笑不得的"AI错误",在学术界有一个正式的名字——**幻觉**(Hallucination)。就像人在高烧时会看到不存在的东西一样,AI在生成图像时,也会"凭空捏造"出现实中根本不可能存在的内容。

这个问题不只是让人觉得好笑那么简单。当AI被用于医学影像分析、工业质检,甚至辅助设计创作时,一旦生成了"幻觉图像",轻则让人哭笑不得,重则可能造成严重后果。因此,如何让AI少产生幻觉,是当前人工智能领域一个相当紧迫的研究课题。

布法罗大学的这支团队,不仅从理论上找到了幻觉产生的数学根源,还设计出一种叫做"方差引导评分调制"(Variance-Guided Score Modulation,简称VSM)的训练方法,让AI在生成图像时能少走"弯路"、少犯"错误"。实验结果表明,这种方法能在不损失图像质量的前提下,将幻觉发生率降低最高约25%至26%。

一、AI的"幻觉"到底是什么?

要理解这项研究,首先得弄清楚AI幻觉是怎么回事。现代AI图像生成的主流技术叫做"扩散模型"(Diffusion Model)。可以把这个过程想象成一位雕塑家的工作:先把一块完美的大理石(真实图像)砸碎成一堆碎屑(纯噪声),然后再一点点把碎屑拼回去(去噪),最终雕出一个新的雕像(生成图像)。

这个"从碎屑重建雕像"的过程,依赖一种叫做"评分函数"(Score Function)的核心工具。评分函数的作用,就像一张非常精细的地图,告诉AI在每一步去噪时,应该往哪个方向走,才能最终走向一张真实、合理的图像。

然而,AI学到的这张"地图"往往不够精确——它比真实的地图更"平滑",就像把一张等高线图里所有锋利的山峰都磨平了。这种平滑会导致一个严重的问题:AI以为自己在走一条平坦的路,实际上却走进了一片没有真实图像存在的"荒野",最终生成出那些根本不可能存在的幻觉图像。

这里有一个关键的直觉:真实世界的图像分布,就像一座座孤立的山峰,山峰之间是深深的峡谷。一张合理的人手图片,就住在"人手"这座山峰上;一张合理的棋盘图片,住在"棋盘"这座山峰上。两座山峰之间的峡谷,代表着那些在现实中不可能存在的图像(比如"半只手加上半张棋盘"的怪物)。

理想的评分函数,应该像一套陡峭的山地地图,能清晰地引导AI爬上某座山峰,而不会滑落到峡谷里。但AI学到的平滑版地图,把这些陡峭的山峰都磨成了缓坡,导致AI很容易在下山时"跑偏",落到峡谷的低密度区域里,产生幻觉。

研究团队在论文中给幻觉做了严格的数学定义:如果一张生成图像落在了真实数据分布密度极低(低于某个阈值)的区域,它就被认定为幻觉样本。与此同时,研究者还区分了另外两种情况——"记忆样本"(AI直接复制了训练集中某张图像)和"泛化样本"(AI生成了训练集中没有出现过但合理的新图像)。这三种类别互相独立,共同构成了对AI生成质量的完整评估体系。

二、用数学证明:过于"圆滑"的地图确实会导致走错路

布法罗大学的研究团队不满足于直觉层面的解释,他们用严格的数学推导,证明了"评分函数越平滑,幻觉越多"这个结论。

核心定理可以用一句话来概括:**离真实图像区域越远的地方,AI认为那里存在图像的概率,和评分函数的"利普希茨常数"(Lipschitz Constant)直接相关**。利普希茨常数是衡量一个函数"有多陡"的数学指标——常数越小,函数越平滑;常数越大,函数变化越剧烈、越陡峭。

研究团队推导出了一个数学不等式,大意是:在离真实图像区域很远的"荒野"地带,AI认为那里存在图像的概率,有一个不可消除的正下界,这个下界由利普希茨常数决定。平滑的评分函数(小利普希茨常数)意味着这个下界衰减得很慢,也就是说,AI对"荒野地带"的误判概率更高,幻觉也就更多。

为了在实验中验证这个理论,研究团队做了一组清晰的对照实验。他们用一个简单的一维高斯混合分布(可以理解为数轴上有三个小山峰,分别位于1.0、1.5、2.0的位置,山峰之间有明显的"低谷")来模拟真实数据分布,然后用AI来学习并生成数据。

第一组实验中,他们对AI的神经网络施加越来越强的正则化约束(L2权重正则化),效果相当于强迫AI学一张越来越平滑的地图。结果非常直观:随着约束越来越强,AI生成的点落在三个山峰之间低谷里的比例不断增加,幻觉越来越多。

第二组实验中,他们减少训练数据量,效果类似——数据越少,AI越难以学到精细的地图,评分函数越平滑,幻觉也越多。

在更复杂的真实图像数据集(包含人手图片的Hands-11K数据集)上,研究团队还发现,评分误差(AI学到的评分函数与真实评分函数之间的偏差,用均方根误差量化)与幻觉发生率之间存在正相关关系,相关系数R?达到0.44,进一步印证了理论的正确性。

三、对症下药:VSM方法是如何工作的?

找到了病根,就可以开方治病了。既然幻觉来自于评分函数太"平滑"(利普希茨常数太小),那解决办法就是想办法让评分函数"陡"起来。

回到山地地图的比喻:修复平滑地图的方法,是在训练AI时额外惩罚那些"太平坦"的地方,鼓励AI学出一张更陡峭、更精确的地图。数学上,"地图的陡峭程度"可以用"雅可比矩阵"(Jacobian Matrix)的大小来量化——雅可比矩阵本质上描述了评分函数在某个点附近变化有多剧烈。

VSM方法的核心思路就是:在训练损失函数里加入一个惩罚项,这个惩罚项专门惩罚雅可比矩阵太小的情况,从而"逼迫"AI学出一张更陡峭的地图。

然而,这里有一个实际困难:对于高分辨率图像(例如256×256像素的图片,数据维度高达196608),直接计算雅可比矩阵在计算上是完全不可行的,所需的计算量和存储空间根本无法承受。

研究团队的巧妙之处在于,他们找到了一个可操作的替代方案,借助另一项技术——"改进的去噪扩散概率模型"(I-DDPM,Improved DDPM)中的方差学习机制。

原版的扩散模型在每一步去噪时,会预测图像应该去往哪个方向(均值),而改进版本还额外学习了这一步去噪的"不确定性"有多大(方差)。研究团队通过数学推导证明,这个学到的方差,恰好可以作为雅可比矩阵的对角线近似——换句话说,方差的倒数大致对应于评分函数在该点的局部陡峭程度。

于是,VSM的实际操作变成了:在训练时,额外加入一个方差学习头(Variance Head)来学习每一步的去噪方差,然后用这个方差的倒数来近似雅可比矩阵,并以此构建平滑惩罚项。整个过程不需要实际计算庞大的雅可比矩阵,大大降低了计算成本。

此外,研究团队还引入了一个随时间变化的权重调度策略。这是因为,幻觉主要在去噪过程的最后阶段(接近生成最终图像时)出现——就像雕塑家在最后的精修阶段最容易出错。因此,VSM的惩罚力度被设计成在去噪后期逐渐增大,而在早期噪声较大的阶段保持较小,避免对全局结构的干扰。具体的调度公式是η(t) = ρ / √(1 - α?),其中ρ是一个可调节的超参数。

最终,整个训练目标由三部分组成:标准的去噪损失(让AI学会从噪声中恢复图像)、方差学习损失(让AI学会预测每步的不确定性)和VSM平滑惩罚项。三者共同作用,引导AI学出一个更陡峭、更精确的评分函数。

四、两个全新的"极限测试"数据集:扑克牌与国际象棋

为了系统地评估幻觉,研究团队发现现有的数据集存在一个共同弱点:语义类别太少。比如MNIST只有0到9这10个数字,手部图片只有几种手势,语义空间太小,AI很难生成真正意义上的"幻觉"——因为稍微偏差一点,还是能落在某个合法类别上。

因此,研究团队自己动手构建了两个专门用于幻觉评估的数据集,它们的共同特点是拥有极其庞大的语义类别空间。

第一个数据集叫做**Cards**(扑克牌),包含约94000张图像,每张图像是一个2×2排列的扑克牌组合(牌面从Ace到10)。一张生成图像是否合法,可以通过完全自动化的模板匹配来判断——检查每张牌的符号数量是否与牌面数字一致、颜色是否正确、是否存在缺失或冲突的符号。这个数据集的语义类别数量约为10的5次方,是非常庞大的组合空间。

第二个数据集叫做**ChessImages**(象棋棋盘),包含约190000张256×256像素的棋盘图像,这些图像是从国际象棋对局记录(FEN字符串格式)中随机采样并渲染生成的。一张生成图像是否合法,同样通过自动化的棋局合法性检查来判断:先用模板匹配从图像中重建棋局的FEN字符串,再用python-chess库验证棋局是否符合国际象棋规则(比如:棋盘上必须各有且仅有一个白王和黑王,每方不能超过16个棋子,不能超过8个兵,兵不能出现在底线等)。

这个数据集的语义类别数量达到惊人的10的44次方——这是个什么概念?全宇宙的原子数量估计也不过是10的80次方,而10的44次方已经远超任何AI能"记住"的范围。这意味着,几乎所有生成的棋盘,都必须是AI真正"理解"了象棋规则后泛化出来的结果,而不是简单地复制训练集中的棋盘。

与现有数据集相比,这两个新数据集有三大优势:幻觉检测完全自动化(无需人工标注)、检测速度极快(100张图像只需约2.5秒)、语义空间极大(能暴露AI更深层的幻觉问题)。

五、实验结果:VSM在多个数据集上的表现

研究团队在一系列数据集上对VSM进行了全面测试,包括合成数据集(1D和2D高斯混合)、真实图像数据集(Hands-11K人手图像、MNIST手写数字、Shapes几何形状图像)以及新提出的大规模语义数据集(Cards、ChessImages),还有挑战性极强的ImageNet-1K(包含1000个类别的自然图像数据集)。

在最基础的合成数据集上,结果已经非常清晰。对于1D高斯混合,使用VSM后,评分误差(Score RMSE)从10.56降至7.76,幻觉率从5.22‰下降到2.70‰,降幅近半。2D高斯混合上的改善幅度虽然相对较小,但同样显著。在Hands-11K上,评分误差从21.92降至15.49,幻觉率从11.00%降至5.01%,减少了超过一半。

在MNIST手写数字数据集上,将VSM加入到LDM(Latent Diffusion Model,隐空间扩散模型)的无条件生成设置中,幻觉率从1.83%骤降至0.33%,同时图像质量指标(FID、C-FID、FLD)也全面改善。在文本条件生成设置下,幻觉率从23.00%降至12.48%,降幅同样显著。

在新提出的Cards数据集上,将VSM加入DDPM基础模型后,幻觉率从22.41%降至2.33%,这是整个实验中降幅最为惊人的一组数据。

在ChessImages数据集上,结果不仅体现在幻觉率的降低(从11.66%降至9.28%),还体现在对合法棋盘的深入分析上。研究团队进一步将合法棋盘分为"记忆棋盘"(与训练集完全相同的棋局)和"泛化棋盘"(合法但训练集中未见过的新棋局)。使用VSM后,记忆棋盘的比例从12.88%降至7.93%,而泛化棋盘的比例从87.12%升至92.07%。这意味着VSM不仅减少了幻觉,还让AI更倾向于生成真正的新棋局,而不是照搬训练集,这是一个非常理想的特性。

在ImageNet-1K这个最复杂的真实世界数据集上,由于无法对每张生成图像逐一判断是否为幻觉,研究团队采用了"改进的精确率和召回率"作为替代指标,在CLIP特征空间中度量。精确率衡量生成图像有多少落在真实分布的支撑范围内(可近似理解为"非幻觉率"),召回率衡量生成图像覆盖了真实分布的多少模式(可理解为"多样性")。与基线LDM相比,VSM将精确率从0.56提升至0.68,召回率从0.41提升至0.51,FID从76.86降至69.97,FLD从7.23降至4.77,全面领先。

与此同时,研究团队也将VSM与另一种竞争方法"动态引导"(Dynamic Guidance,DG)进行了比较。DG在精确率上达到了0.75,略高于VSM,但其召回率仅有0.23,远低于VSM的0.51。这说明DG虽然减少了幻觉,但代价是严重的"模式崩塌"——AI变得保守,只会生成少数几种"安全"的图像,多样性大幅下降。相比之下,VSM在减少幻觉的同时,很好地保留了生成多样性,是一个更平衡的方案。

六、更多实验细节:微调、消融和迭代训练

除了从零训练的实验,研究团队还验证了VSM在"微调"场景下的效果——也就是在一个已经预训练好的模型上,只训练方差学习头,而不重新训练整个模型。这种方式在实际应用中更具价值,因为从零训练大型扩散模型的成本极高。

结果表明,在微调场景下,加入VSM同样能一致性地降低各数据集上的幻觉率,同时保持图像质量。这说明VSM可以作为一种"事后修复"工具,为已有的预训练模型提供低成本的幻觉纠正能力。

研究团队还专门测试了超参数ρ(控制VSM惩罚强度)的影响。实验发现,随着ρ增大,幻觉率持续下降,但超过某个临界值后,幻觉率反而开始回升。原因是VSM惩罚项过强时,会压制正常的扩散损失,导致模型整体性能下降。经过测试,ρ = 0.1是一个较好的平衡点。

针对时间调度策略,研究团队测试了三种方案:线性增长方案η(t) = ρ(1-α?)、完全倒数方案η(t) = ρ/(1-α?),以及研究团队提出的倒数平方根方案η(t) = ρ/√(1-α?)。在MNIST上的消融实验结果非常清晰:线性增长方案最差(C-FID 17.18,幻觉率7.83%),完全倒数方案居中(C-FID 11.05,幻觉率5.00%),倒数平方根方案最优(C-FID 3.91,幻觉率3.50%)。这说明在去噪后期逐渐加强惩罚的思路是正确的,但增强的幅度需要适中,过于激进反而不好。

研究团队还探索了一种更激进的"迭代训练"策略,专门针对Cards数据集进行了实验。策略很直观:从一个初始模型出发,每轮迭代中生成一批新图像,过滤掉其中的幻觉样本,将剩余合法图像添加到训练集,再重新训练模型。经过六轮迭代,幻觉率从第一轮的7.98%一路下降到1.07%,非幻觉样本比例达到98.93%。这种方法在有自动化幻觉检测器的场景下,可以趋近于零幻觉,代价是需要多轮训练。

说到底,布法罗大学的这项研究做了一件非常扎实的工作:先把"AI幻觉"这件事从直觉层面提升到数学层面,然后设计出一种有理论依据、有实验支撑、计算成本合理的解决方案。

研究团队本身也坦承,VSM的目标是"减少"幻觉而非"消灭"幻觉——毕竟,目前要完全消除AI在自然图像上的幻觉,还缺乏可靠的检测方法和理论工具。如何在复杂的自然图像数据集(比如人脸、风景、建筑)上定义和量化幻觉,仍然是一个开放的研究问题。

这对普通人意味着什么?当你下一次用AI画图,看到AI生成的人手终于有了正确的五根手指,或者AI绘制的棋盘终于摆出了合法的棋局,背后或许就有这类研究在默默发挥作用。AI的"幻觉"问题,不会在一夜之间消失,但每一步扎实的研究,都在让它离现实更近一点。如果你对这项研究的完整技术细节感兴趣,可以在arXiv上通过编号2606.00377找到原文。

Q&A

Q1:扩散模型生成的图像为什么会出现手指数量错误这类幻觉?

A:扩散模型依靠"评分函数"这张"地图"来引导图像生成,但AI学到的地图比真实地图更平滑,导致生成过程容易偏离合理区域,落入现实中不存在的"荒野地带",从而生成多手指或少手指这类幻觉图像。数学上,评分函数的利普希茨常数越小(越平滑),这种偏离就越严重。

Q2:VSM方法在实际使用时计算成本高吗?

A:VSM的主要额外开销来自一个方差学习头,它不需要计算完整的雅可比矩阵,而是用学到的方差作为近似替代,大大降低了计算量。此外,VSM支持在预训练模型上只微调方差头,无需从零重新训练整个模型,因此在实际应用中具有相对较低的部署成本。

Q3:ChessImages数据集为什么说语义类别有10的44次方这么多?

A:国际象棋棋盘有64个格子,每个格子可以是空格或多种不同棋子,所有合法的棋盘摆法数量极其庞大,数量级约为10的44次方。这意味着训练集中能覆盖的棋盘状态只是沧海一粟,绝大多数合法棋盘都是AI从未见过的,因此用这个数据集能有效测试AI是否真正"理解"了象棋规则,而不是简单地记忆训练样本。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新