布法罗大学突破：AI图像生成幻觉根源解析与解决方案提出能力

IP属地中国·北京 科技行者 时间：2026-06-09 22:25:48

这项由美国布法罗大学（University at Buffalo）研究团队完成的研究，以预印本形式于2026年5月29日发布在arXiv平台，编号为arXiv:2606.00377。感兴趣的读者可以通过该编号在arXiv上查阅完整论文。
你有没有见过AI生成的人手图片，手指不是多了一根就是少了一根，甚至弯向不该弯的方向？又或者，AI画出来的国际象棋棋盘上，棋子摆得乱七八糟，完全不符合规则？这些让人哭笑不得的"AI错误"，在学术界有一个正式的名字——**幻觉**（Hallucination）。就像人在高烧时会看到不存在的东西一样，AI在生成图像时，也会"凭空捏造"出现实中根本不可能存在的内容。
这个问题不只是让人觉得好笑那么简单。当AI被用于医学影像分析、工业质检，甚至辅助设计创作时，一旦生成了"幻觉图像"，轻则让人哭笑不得，重则可能造成严重后果。因此，如何让AI少产生幻觉，是当前人工智能领域一个相当紧迫的研究课题。
布法罗大学的这支团队，不仅从理论上找到了幻觉产生的数学根源，还设计出一种叫做"方差引导评分调制"（Variance-Guided Score Modulation，简称VSM）的训练方法，让AI在生成图像时能少走"弯路"、少犯"错误"。实验结果表明，这种方法能在不损失图像质量的前提下，将幻觉发生率降低最高约25%至26%。
一、AI的"幻觉"到底是什么？
要理解这项研究，首先得弄清楚AI幻觉是怎么回事。现代AI图像生成的主流技术叫做"扩散模型"（Diffusion Model）。可以把这个过程想象成一位雕塑家的工作：先把一块完美的大理石（真实图像）砸碎成一堆碎屑（纯噪声），然后再一点点把碎屑拼回去（去噪），最终雕出一个新的雕像（生成图像）。
这个"从碎屑重建雕像"的过程，依赖一种叫做"评分函数"（Score Function）的核心工具。评分函数的作用，就像一张非常精细的地图，告诉AI在每一步去噪时，应该往哪个方向走，才能最终走向一张真实、合理的图像。
然而，AI学到的这张"地图"往往不够精确——它比真实的地图更"平滑"，就像把一张等高线图里所有锋利的山峰都磨平了。这种平滑会导致一个严重的问题：AI以为自己在走一条平坦的路，实际上却走进了一片没有真实图像存在的"荒野"，最终生成出那些根本不可能存在的幻觉图像。
这里有一个关键的直觉：真实世界的图像分布，就像一座座孤立的山峰，山峰之间是深深的峡谷。一张合理的人手图片，就住在"人手"这座山峰上；一张合理的棋盘图片，住在"棋盘"这座山峰上。两座山峰之间的峡谷，代表着那些在现实中不可能存在的图像（比如"半只手加上半张棋盘"的怪物）。
理想的评分函数，应该像一套陡峭的山地地图，能清晰地引导AI爬上某座山峰，而不会滑落到峡谷里。但AI学到的平滑版地图，把这些陡峭的山峰都磨成了缓坡，导致AI很容易在下山时"跑偏"，落到峡谷的低密度区域里，产生幻觉。
研究团队在论文中给幻觉做了严格的数学定义：如果一张生成图像落在了真实数据分布密度极低（低于某个阈值）的区域，它就被认定为幻觉样本。与此同时，研究者还区分了另外两种情况——"记忆样本"（AI直接复制了训练集中某张图像）和"泛化样本"（AI生成了训练集中没有出现过但合理的新图像）。这三种类别互相独立，共同构成了对AI生成质量的完整评估体系。
二、用数学证明：过于"圆滑"的地图确实会导致走错路
布法罗大学的研究团队不满足于直觉层面的解释，他们用严格的数学推导，证明了"评分函数越平滑，幻觉越多"这个结论。
核心定理可以用一句话来概括：**离真实图像区域越远的地方，AI认为那里存在图像的概率，和评分函数的"利普希茨常数"（Lipschitz Constant）直接相关**。利普希茨常数是衡量一个函数"有多陡"的数学指标——常数越小，函数越平滑；常数越大，函数变化越剧烈、越陡峭。
研究团队推导出了一个数学不等式，大意是：在离真实图像区域很远的"荒野"地带，AI认为那里存在图像的概率，有一个不可消除的正下界，这个下界由利普希茨常数决定。平滑的评分函数（小利普希茨常数）意味着这个下界衰减得很慢，也就是说，AI对"荒野地带"的误判概率更高，幻觉也就更多。
为了在实验中验证这个理论，研究团队做了一组清晰的对照实验。他们用一个简单的一维高斯混合分布（可以理解为数轴上有三个小山峰，分别位于1.0、1.5、2.0的位置，山峰之间有明显的"低谷"）来模拟真实数据分布，然后用AI来学习并生成数据。
第一组实验中，他们对AI的神经网络施加越来越强的正则化约束（L2权重正则化），效果相当于强迫AI学一张越来越平滑的地图。结果非常直观：随着约束越来越强，AI生成的点落在三个山峰之间低谷里的比例不断增加，幻觉越来越多。
第二组实验中，他们减少训练数据量，效果类似——数据越少，AI越难以学到精细的地图，评分函数越平滑，幻觉也越多。
在更复杂的真实图像数据集（包含人手图片的Hands-11K数据集）上，研究团队还发现，评分误差（AI学到的评分函数与真实评分函数之间的偏差，用均方根误差量化）与幻觉发生率之间存在正相关关系，相关系数R?达到0.44，进一步印证了理论的正确性。
三、对症下药：VSM方法是如何工作的？
找到了病根，就可以开方治病了。既然幻觉来自于评分函数太"平滑"（利普希茨常数太小），那解决办法就是想办法让评分函数"陡"起来。
回到山地地图的比喻：修复平滑地图的方法，是在训练AI时额外惩罚那些"太平坦"的地方，鼓励AI学出一张更陡峭、更精确的地图。数学上，"地图的陡峭程度"可以用"雅可比矩阵"（Jacobian Matrix）的大小来量化——雅可比矩阵本质上描述了评分函数在某个点附近变化有多剧烈。
VSM方法的核心思路就是：在训练损失函数里加入一个惩罚项，这个惩罚项专门惩罚雅可比矩阵太小的情况，从而"逼迫"AI学出一张更陡峭的地图。
然而，这里有一个实际困难：对于高分辨率图像（例如256×256像素的图片，数据维度高达196608），直接计算雅可比矩阵在计算上是完全不可行的，所需的计算量和存储空间根本无法承受。
研究团队的巧妙之处在于，他们找到了一个可操作的替代方案，借助另一项技术——"改进的去噪扩散概率模型"（I-DDPM，Improved DDPM）中的方差学习机制。
原版的扩散模型在每一步去噪时，会预测图像应该去往哪个方向（均值），而改进版本还额外学习了这一步去噪的"不确定性"有多大（方差）。研究团队通过数学推导证明，这个学到的方差，恰好可以作为雅可比矩阵的对角线近似——换句话说，方差的倒数大致对应于评分函数在该点的局部陡峭程度。
于是，VSM的实际操作变成了：在训练时，额外加入一个方差学习头（Variance Head）来学习每一步的去噪方差，然后用这个方差的倒数来近似雅可比矩阵，并以此构建平滑惩罚项。整个过程不需要实际计算庞大的雅可比矩阵，大大降低了计算成本。
此外，研究团队还引入了一个随时间变化的权重调度策略。这是因为，幻觉主要在去噪过程的最后阶段（接近生成最终图像时）出现——就像雕塑家在最后的精修阶段最容易出错。因此，VSM的惩罚力度被设计成在去噪后期逐渐增大，而在早期噪声较大的阶段保持较小，避免对全局结构的干扰。具体的调度公式是η(t) = ρ / √(1 - α?)，其中ρ是一个可调节的超参数。
最终，整个训练目标由三部分组成：标准的去噪损失（让AI学会从噪声中恢复图像）、方差学习损失（让AI学会预测每步的不确定性）和VSM平滑惩罚项。三者共同作用，引导AI学出一个更陡峭、更精确的评分函数。
四、两个全新的"极限测试"数据集：扑克牌与国际象棋
为了系统地评估幻觉，研究团队发现现有的数据集存在一个共同弱点：语义类别太少。比如MNIST只有0到9这10个数字，手部图片只有几种手势，语义空间太小，AI很难生成真正意义上的"幻觉"——因为稍微偏差一点，还是能落在某个合法类别上。
因此，研究团队自己动手构建了两个专门用于幻觉评估的数据集，它们的共同特点是拥有极其庞大的语义类别空间。
第一个数据集叫做**Cards**（扑克牌），包含约94000张图像，每张图像是一个2×2排列的扑克牌组合（牌面从Ace到10）。一张生成图像是否合法，可以通过完全自动化的模板匹配来判断——检查每张牌的符号数量是否与牌面数字一致、颜色是否正确、是否存在缺失或冲突的符号。这个数据集的语义类别数量约为10的5次方，是非常庞大的组合空间。
第二个数据集叫做**ChessImages**（象棋棋盘），包含约190000张256×256像素的棋盘图像，这些图像是从国际象棋对局记录（FEN字符串格式）中随机采样并渲染生成的。一张生成图像是否合法，同样通过自动化的棋局合法性检查来判断：先用模板匹配从图像中重建棋局的FEN字符串，再用python-chess库验证棋局是否符合国际象棋规则（比如：棋盘上必须各有且仅有一个白王和黑王，每方不能超过16个棋子，不能超过8个兵，兵不能出现在底线等）。
这个数据集的语义类别数量达到惊人的10的44次方——这是个什么概念？全宇宙的原子数量估计也不过是10的80次方，而10的44次方已经远超任何AI能"记住"的范围。这意味着，几乎所有生成的棋盘，都必须是AI真正"理解"了象棋规则后泛化出来的结果，而不是简单地复制训练集中的棋盘。
与现有数据集相比，这两个新数据集有三大优势：幻觉检测完全自动化（无需人工标注）、检测速度极快（100张图像只需约2.5秒）、语义空间极大（能暴露AI更深层的幻觉问题）。
五、实验结果：VSM在多个数据集上的表现
研究团队在一系列数据集上对VSM进行了全面测试，包括合成数据集（1D和2D高斯混合）、真实图像数据集（Hands-11K人手图像、MNIST手写数字、Shapes几何形状图像）以及新提出的大规模语义数据集（Cards、ChessImages），还有挑战性极强的ImageNet-1K（包含1000个类别的自然图像数据集）。
在最基础的合成数据集上，结果已经非常清晰。对于1D高斯混合，使用VSM后，评分误差（Score RMSE）从10.56降至7.76，幻觉率从5.22‰下降到2.70‰，降幅近半。2D高斯混合上的改善幅度虽然相对较小，但同样显著。在Hands-11K上，评分误差从21.92降至15.49，幻觉率从11.00%降至5.01%，减少了超过一半。
在MNIST手写数字数据集上，将VSM加入到LDM（Latent Diffusion Model，隐空间扩散模型）的无条件生成设置中，幻觉率从1.83%骤降至0.33%，同时图像质量指标（FID、C-FID、FLD）也全面改善。在文本条件生成设置下，幻觉率从23.00%降至12.48%，降幅同样显著。
在新提出的Cards数据集上，将VSM加入DDPM基础模型后，幻觉率从22.41%降至2.33%，这是整个实验中降幅最为惊人的一组数据。
在ChessImages数据集上，结果不仅体现在幻觉率的降低（从11.66%降至9.28%），还体现在对合法棋盘的深入分析上。研究团队进一步将合法棋盘分为"记忆棋盘"（与训练集完全相同的棋局）和"泛化棋盘"（合法但训练集中未见过的新棋局）。使用VSM后，记忆棋盘的比例从12.88%降至7.93%，而泛化棋盘的比例从87.12%升至92.07%。这意味着VSM不仅减少了幻觉，还让AI更倾向于生成真正的新棋局，而不是照搬训练集，这是一个非常理想的特性。
在ImageNet-1K这个最复杂的真实世界数据集上，由于无法对每张生成图像逐一判断是否为幻觉，研究团队采用了"改进的精确率和召回率"作为替代指标，在CLIP特征空间中度量。精确率衡量生成图像有多少落在真实分布的支撑范围内（可近似理解为"非幻觉率"），召回率衡量生成图像覆盖了真实分布的多少模式（可理解为"多样性"）。与基线LDM相比，VSM将精确率从0.56提升至0.68，召回率从0.41提升至0.51，FID从76.86降至69.97，FLD从7.23降至4.77，全面领先。
与此同时，研究团队也将VSM与另一种竞争方法"动态引导"（Dynamic Guidance，DG）进行了比较。DG在精确率上达到了0.75，略高于VSM，但其召回率仅有0.23，远低于VSM的0.51。这说明DG虽然减少了幻觉，但代价是严重的"模式崩塌"——AI变得保守，只会生成少数几种"安全"的图像，多样性大幅下降。相比之下，VSM在减少幻觉的同时，很好地保留了生成多样性，是一个更平衡的方案。
六、更多实验细节：微调、消融和迭代训练
除了从零训练的实验，研究团队还验证了VSM在"微调"场景下的效果——也就是在一个已经预训练好的模型上，只训练方差学习头，而不重新训练整个模型。这种方式在实际应用中更具价值，因为从零训练大型扩散模型的成本极高。
结果表明，在微调场景下，加入VSM同样能一致性地降低各数据集上的幻觉率，同时保持图像质量。这说明VSM可以作为一种"事后修复"工具，为已有的预训练模型提供低成本的幻觉纠正能力。
研究团队还专门测试了超参数ρ（控制VSM惩罚强度）的影响。实验发现，随着ρ增大，幻觉率持续下降，但超过某个临界值后，幻觉率反而开始回升。原因是VSM惩罚项过强时，会压制正常的扩散损失，导致模型整体性能下降。经过测试，ρ = 0.1是一个较好的平衡点。
针对时间调度策略，研究团队测试了三种方案：线性增长方案η(t) = ρ(1-α?)、完全倒数方案η(t) = ρ/(1-α?)，以及研究团队提出的倒数平方根方案η(t) = ρ/√(1-α?)。在MNIST上的消融实验结果非常清晰：线性增长方案最差（C-FID 17.18，幻觉率7.83%），完全倒数方案居中（C-FID 11.05，幻觉率5.00%），倒数平方根方案最优（C-FID 3.91，幻觉率3.50%）。这说明在去噪后期逐渐加强惩罚的思路是正确的，但增强的幅度需要适中，过于激进反而不好。
研究团队还探索了一种更激进的"迭代训练"策略，专门针对Cards数据集进行了实验。策略很直观：从一个初始模型出发，每轮迭代中生成一批新图像，过滤掉其中的幻觉样本，将剩余合法图像添加到训练集，再重新训练模型。经过六轮迭代，幻觉率从第一轮的7.98%一路下降到1.07%，非幻觉样本比例达到98.93%。这种方法在有自动化幻觉检测器的场景下，可以趋近于零幻觉，代价是需要多轮训练。
说到底，布法罗大学的这项研究做了一件非常扎实的工作：先把"AI幻觉"这件事从直觉层面提升到数学层面，然后设计出一种有理论依据、有实验支撑、计算成本合理的解决方案。
研究团队本身也坦承，VSM的目标是"减少"幻觉而非"消灭"幻觉——毕竟，目前要完全消除AI在自然图像上的幻觉，还缺乏可靠的检测方法和理论工具。如何在复杂的自然图像数据集（比如人脸、风景、建筑）上定义和量化幻觉，仍然是一个开放的研究问题。
这对普通人意味着什么？当你下一次用AI画图，看到AI生成的人手终于有了正确的五根手指，或者AI绘制的棋盘终于摆出了合法的棋局，背后或许就有这类研究在默默发挥作用。AI的"幻觉"问题，不会在一夜之间消失，但每一步扎实的研究，都在让它离现实更近一点。如果你对这项研究的完整技术细节感兴趣，可以在arXiv上通过编号2606.00377找到原文。
Q&A
Q1：扩散模型生成的图像为什么会出现手指数量错误这类幻觉？
A：扩散模型依靠"评分函数"这张"地图"来引导图像生成，但AI学到的地图比真实地图更平滑，导致生成过程容易偏离合理区域，落入现实中不存在的"荒野地带"，从而生成多手指或少手指这类幻觉图像。数学上，评分函数的利普希茨常数越小（越平滑），这种偏离就越严重。
Q2：VSM方法在实际使用时计算成本高吗？
A：VSM的主要额外开销来自一个方差学习头，它不需要计算完整的雅可比矩阵，而是用学到的方差作为近似替代，大大降低了计算量。此外，VSM支持在预训练模型上只微调方差头，无需从零重新训练整个模型，因此在实际应用中具有相对较低的部署成本。
Q3：ChessImages数据集为什么说语义类别有10的44次方这么多？
A：国际象棋棋盘有64个格子，每个格子可以是空格或多种不同棋子，所有合法的棋盘摆法数量极其庞大，数量级约为10的44次方。这意味着训练集中能覆盖的棋盘状态只是沧海一粟，绝大多数合法棋盘都是AI从未见过的，因此用这个数据集能有效测试AI是否真正"理解"了象棋规则，而不是简单地记忆训练样本。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

纳斯达克综合指数跌近2%

应对自动驾驶摄像头遇强光失明美国工程师研发出“人造眼”

中青评论：智能眼镜成偷拍“神器”？用算法为隐私划红线

“AI一两年内反超人类！”马斯克再发震撼预言，还点名三个“蓝海”方向

字节、阿里跟腾讯抢时间窗口： AI平台战争底层逻辑浮出水面

微软AI CEO改口：AI是助手而非替代者，白领工作将转型而非消失

全站最新

纳斯达克综合指数跌近2%

应对自动驾驶摄像头遇强光失明美国工程师研发出“人造眼”

中青评论：智能眼镜成偷拍“神器”？用算法为隐私划红线

“AI一两年内反超人类！”马斯克再发震撼预言，还点名三个“蓝海”方向

热门推荐

纳斯达克综合指数跌近2%

应对自动驾驶摄像头遇强光失明美国工程师研发出“人造眼”

中青评论：智能眼镜成偷拍“神器”？用算法为隐私划红线

“AI一两年内反超人类！”马斯克再发震撼预言，还点名三个“蓝海”方向

字节、阿里跟腾讯抢时间窗口： AI平台战争底层逻辑浮出水面

微软AI CEO改口：AI是助手而非替代者，白领工作将转型而非消失

苹果iOS 27系统AI功能设限，iCloud+成关键

iOS 27支持将Apple TV遥控器功能固定到主屏幕，操控更方便

消息称赛豆科技AIVA品牌激光雷达供应商预计为速腾聚创

比亚迪、阿里等回应“被美国防部列入中国军工企业名单”：没有正当理由，无任何依据

IDC分析师：WWDC26是苹果AI的“可信度”测试

北京老佛爷百货关店半个月，国贸有店办起“老佛爷特卖”？网友：冲现场！货源哪来的…

李超：破译远古海洋密码，重塑地球氧化历史｜最美科技工作者

中科闻歌通过港交所聆讯，港股将迎“通用决策大模型第一股”

AI物理元年赛豆科技发布AI汽车品牌AIVA 量产车年内发