多伦多大学与Adobe联手攻克AI作画的"复印机"难题

IP属地中国·北京 科技行者 时间：2026-06-01 22:22:10

这项由多伦多大学、Vector研究院与Adobe公司联合开展的研究，以预印本形式于2026年5月25日发布在arXiv平台，论文编号为arXiv:2605.26111v1。感兴趣的读者可通过该编号在arXiv官网上查阅完整论文。
你有没有试过这样一件事：把一张自己喜欢的背包照片发给AI，让它帮你生成"这个背包放在雪地里"的图片，结果AI给你的，是把那张原图直接挪到雪地背景上——背包的角度、摆放方式，甚至光影细节，和参考图几乎一模一样，像是用PS拼接出来的？这就是业内人士头疼已久的"复印机问题"，学术上叫做"copy-paste artifact"，即AI生成时对参考图的机械性复制。
这个问题的根源，在于现有的AI图片生成技术通常把"文字描述"和"参考图片"当成两条平行的输入线路分开处理，彼此之间缺乏真正的沟通与理解。文字走文字的路，图片走图片的路，两者在最后关头才被硬拼在一起。这就好比你让两个从未见过面的厨师——一个只负责看菜谱，一个只负责看食材——来合作做一道菜，他们各做各的，最终端上桌的东西往往貌合神离。
多伦多大学的研究团队换了一种思路：与其让文字和图片各走各的路，不如请一个"通才大厨"——也就是多模态大语言模型（Multimodal Large Language Model，简称MLLM）——同时看菜谱和食材，在脑海中将两者融合理解，再指挥图片生成引擎去完成创作。这篇研究的核心贡献，正是在于提出了一套让MLLM与图片生成扩散模型协同工作的完整方案，方案中包含一个名为"双层聚合器"（Dual Layer Aggregation，简称DLA）的新模块，以及一套多阶段去噪推理策略。实验结果表明，这套方案在减少"复印机"问题的同时，还大幅提升了AI对复杂指令的理解能力。
一、为什么AI总在"复印"参考图，问题出在哪里
回到那个厨师的比喻。传统做法中，AI处理"参考图"时，主要依赖一种叫做VAE（Variational Autoencoder，变分自编码器）的工具。VAE的强项是忠实地记录图片的视觉细节——颜色、纹理、形状，这些它都记得一清二楚。但它有个致命弱点：它不懂语言，也不懂上下文推理。当你说"背包放在雪地里，周围有阳光"，VAE无法真正理解"阳光"这个词意味着背包应该从雪地上投下一道阴影，意味着背包表面的反光应该变强，意味着整体色调应该偏暖。它只知道"这里有个背包，把它挪过去"。
与此同时，近年来崛起的MLLM——比如你可能听说过的GPT-4o、Claude、Gemini这类"能看图又能聊天"的大模型——拥有很强的跨模态理解能力。它们能同时读懂图片和文字，能把"戴眼镜的狗"这个概念正确拆解为"一只狗"加上"一副眼镜戴在它脸上"，而不会把眼镜贴到背景墙上。这种理解能力，正是解决"复印机"问题的关键。
然而，直接把MLLM接进图片生成流程并不是一件简单的事。已经有一些团队尝试过，比如DreamEngine、Qwen-Image、EasyRef等系统，它们把MLLM的输出接入扩散模型（一种主流的图片生成框架）。但这些方案大多只使用MLLM最后一层的特征——相当于只听大厨最后的总结意见，而忽略了他在烹饪过程中每一步积累的细节判断。结果是文字理解好了一些，但图像的细节保真度——也就是"这个背包到底长什么样"——却变差了。
这个矛盾揭示了一个深层问题：MLLM在处理图片时，越是深层（靠后）的神经网络层，越倾向于保留高层次的语义信息（"这是个背包"），而越是浅层（靠前）的层，越倾向于保留低层次的视觉细节（"背包上有这种花纹、这种缝线"）。如果只取最后一层，细节就丢了；如果只取前几层，语义理解又不够。这就像一部小说，只读最后一页的总结，你知道大意，但错过了所有精彩的人物细节；只读前几页，你知道人物长什么样，却不知道故事走向。
二、双层聚合器：让大模型的每一层"心声"都被听见
研究团队设计的DLA模块，核心思想是"把每一层都纳入考量，但文字和图片要分开处理"。
先说"把每一层都纳入考量"这部分。DLA的基础单元叫做LAP（Layerwise Attention Pooling，逐层注意力池化）。它的工作原理可以用一个投票机制来理解：MLLM有28层神经网络，每一层对同一张参考图都有自己的"看法"——浅层说"我看到了红色斜纹布料"，中层说"我看到了一个有拉链的袋子"，深层说"这是个登山背包"。LAP模块会给这28层的"看法"各自分配一个权重，然后加权综合成一个统一的表达，送进图片生成引擎。这个权重本身也是通过训练学出来的，所以模型会自动学会"在这个任务里，哪几层的意见最值得参考"。
但研究团队很快发现，一个LAP模块同时处理文字特征和图片特征时，会出现相互干扰的问题。实验中他们画出了这个矛盾：单个LAP训练过程中，模型要么在图片保真度上表现好，要么在文字跟随度上表现好，两者很难同时达到峰值，就像天平的两端，压低一头另一头就翘起来。进一步分析注意力分布图可以发现，文字内容和图片内容在不同层上的活跃模式截然不同——它们需要两套不同的"层选策略"。
于是双层聚合器（DLA）应运而生：两个独立的LAP模块，一个专门处理文字特征，一个专门处理图片特征。文字LAP专注于"这段话的语义在哪几层最完整"，图片LAP专注于"这张参考图的视觉细节在哪几层最清晰"。两者互不干扰，各司其职。
这里有个容易被忽视的妙处：虽然两个LAP分开处理，但并不意味着文字和图片信息完全隔离。MLLM本身在处理输入时，已经让文字和图片的信息在各层之间相互渗透——图片的token（信息单元）已经吸收了文字的语境，文字的token也已经受到了图片内容的影响。所以DLA的两个分支处理的，其实是已经"互相了解过"的文字特征和图片特征，不需要再做额外的跨模态融合。这个设计既高效，又避免了重复劳动。
在实验中，研究团队对InternVL3-8B这个MLLM的28层进行了系统分析，把它们分为早期层（0-9层）、中期层（10-19层）和晚期层（20-28层）三组，逐一测试不同层组合的效果。结果发现，对图片特征而言，早期层尤为关键——一旦屏蔽早期层，图片保真度（DINO-I指标）会急剧下降，幅度高达0.14到0.26分；而对文字特征而言，晚期层更为重要，但即便屏蔽晚期层，模型依然能从其他层中召回足够的语义信息，下降幅度相对有限。这个发现与直觉一致：MLLM的早期层更像是"视觉感官"，晚期层更像是"语言理解中枢"，两者的功能分工明确。
三、多阶段去噪：让生成过程像写文章一样"先立意再雕琢"
解决了特征提取的问题，研究团队还面临另一个挑战：如何把MLLM的语义理解能力和VAE的视觉细节保真能力有机结合，而不是让两者相互抢戏？
他们的答案是多阶段去噪策略（Multi-stage Timestep-aware Denoising）。这个策略的灵感来自扩散模型本身的工作机制——扩散模型生成图片时，是从一团随机噪声开始，一步一步"去噪"，逐渐浮现出图片的轮廓、颜色，最终到精细的纹理细节。这个过程天然是"从粗到细"的，就像写一篇文章，先确定主题和结构，再填充段落内容，最后打磨用词。
研究团队把这个去噪过程划分为三个阶段。第一阶段是"立意期"（早期步骤，时间步t较大），此时图片还是一团噪声，最需要的是确定整体构图和语义方向——"这张图里有个背包，它在雪地里，旁边有阳光"。这个阶段完全由MLLM的特征来引导，因为MLLM最擅长理解这种高层次的意图。第二阶段是"充实期"（中期步骤），图片的大致轮廓已经出现，需要在保持语义正确的同时，开始引入背包的具体外观细节——花纹、材质、颜色。这个阶段MLLM和VAE同时发力，共同引导生成过程。第三阶段是"雕琢期"（晚期步骤），图片的整体已经成形，剩下的是精细化处理——背包的每一根缝线、每一处反光。这个阶段完全交给VAE，因为它在捕捉这种低层次视觉细节上无人能及。
实验证明，这套策略还给用户带来了额外的灵活性：提高阈值（比如τ?=0.97，τ?=0.90）会让MLLM主导更长时间，生成图片的背包细节更忠实于参考图，但姿态变化较少；降低阈值（比如τ?=0.85，τ?=0.75）则会让VAE更早介入，生成图片更有创意、姿态变化更丰富，但背包的一些细节可能略有出入。用户可以根据自己的需求自由调节，这种可控性在实际应用中非常有价值。
四、两阶段训练：先学"看懂"，再学"画细"
把MLLM和VAE的特征同时送入图片生成模型，还有一个隐患：VAE的特征天生是为"重建图片"优化的，信息密度极高，一旦和MLLM的特征同台竞争，模型很可能"偷懒"，直接依赖VAE提供的视觉信息，而忽视MLLM的语义理解能力。结果是，MLLM在早期去噪步骤中根本没能学会如何引导生成，等到晚期VAE再去"补救"，已经来不及了——图片的整体构图和语义方向在早期就已经跑偏，后面怎么细化都无济于事。
为了解决这个问题，研究团队设计了两阶段训练策略。第一阶段先屏蔽VAE，只用MLLM特征来训练整个系统，持续25,000步。这个阶段的目标是让模型学会单独依靠MLLM来完成"语义理解+初步身份识别"的任务。经过这个阶段，MLLM已经发展出足够强的身份保真能力，能够在早期去噪步骤中正确设定图片的方向和主题。第二阶段再引入VAE，联合训练所有组件，持续10,000步，让模型学会把MLLM的高层理解和VAE的低层细节有机配合。
训练在8块英伟达H100 GPU上完成，学习率固定为1e-5。MLLM（InternVL3-8B）本身的权重在训练中是冻结的，只有接入扩散模型（FLUX.1 dev）的适配层（LoRA，秩为512）在更新。这意味着整个系统的参数更新量相对可控，训练效率较高。
消融实验清楚地验证了这个设计的必要性。如果直接把两个信号源放在一起从头训练（单阶段训练），不论是否开启多阶段去噪，效果都明显劣于两阶段训练方案：DINO-I指标（衡量图片身份相似度的主要指标）从0.7482下降到0.7184，甚至在单阶段+多阶段去噪的配置下进一步跌落至0.5763。这个数字差异背后，是生成图片中背包的花纹变得模糊、颜色发生漂移的视觉劣化。
五、实验验证：数字和图片都说话
研究团队在DreamBench这个业内标准测试集上进行了系统评估，同时还额外测试了XVerseBench和多主体测试集LAMICBench。
在DreamBench上，标准评估指标包括三个维度：DINO-I（用DINO特征衡量生成图片与参考图的主体相似度）、CLIP-I（用CLIP特征衡量视觉相似度）、CLIP-T（衡量图片与文字描述的匹配程度）。这套指标可以简单理解为：DINO-I和CLIP-I测的是"背包画得像不像"，CLIP-T测的是"有没有放到雪地里"。
论文的完整结果表格显示，只使用MLLM特征（不加VAE）的版本，DINO-I为0.6788，CLIP-I为0.8228，CLIP-T为0.2988，已经与同样使用公开数据集训练的UNO系统（DINO-I=0.6860，CLIP-I=0.8161，CLIP-T=0.3071）相当甚至在某些指标上略有超越。加入VAE的完整版本则进一步提升到DINO-I=0.7482，CLIP-I=0.8443，CLIP-T=0.3010，综合性能与使用私有高质量数据集训练的DreamO（DINO-I=0.7537）、USO（DINO-I=0.7478）、UMO（DINO-I=0.7481）等顶尖方案持平，而这些方案的数据优势是本研究所不具备的。
为了量化"复印机"问题，研究团队设计了一套新的评估指标。他们使用一个叫做Orient Anything的工具来估计参考图和生成图中主体的方位角和极角，然后计算两者之间的平均差异——差异越大，说明生成的姿态越多样，"复印机"问题越轻微。此外他们还提出了"召回率"（Recall@k°）指标：在生成的图片中，有多大比例的主体与参考图的朝向差异小于k°（这部分被认为是"复制"的）。论文中报告的是k分别取5°、10°、15°、20°时的平均召回率，数值越低越好。
结果是：研究团队的方案在方位角差异上达到25.7°，极角差异为10.4°，平均召回率为0.349，明显优于DreamO（方位角22.1°，召回率0.372）、USO（方位角20.8°，召回率0.401）、Qwen-Image（方位角17.6°，召回率0.460）和OmniGen2（方位角22.6°，召回率0.486）。简单说：在其他方案里，平均约有40%-48%的生成图片与参考图朝向几乎一致；而在本方案中，这个比例降到了35%，主体展现出了更丰富的姿态变化。
为了评估多模态推理能力，研究团队还专门构建了一个包含350个样本的测试集，设计了一批需要跨模态概念绑定的复杂指令。比如，参考图是一只戴帽子的猫，但指令说"一只狗戴着帽子"——正确的生成结果应该是生成一只狗，并把帽子戴在狗身上，而不是生成一只猫（只看图）或生成一只不戴帽子的狗（只看文字）。在这个测试集上，本方案的CLIP-T得分为0.3208，明显高于UNO（0.2851）、DreamO（0.2888）和Qwen-Image（0.3099）。
人工评估方面，研究团队在DreamBench++测试集上引入了七种不同架构和规模的大语言模型打分，包括GPT-4o、Gemma 3 27B、Gemini 2.5 Flash、Gemini 3 Flash、Qwen3-VL-30B、Qwen3-VL-235B和Mistral Small 3.2-24B，对生成图片在形状、颜色、纹理、面部特征等维度的保真度进行0-4分的综合评定。七个评估模型的平均分中，本方案达到3.010，高于DreamO的2.838、USO的2.800和UNO的2.539。
用户调研方面，30名志愿者对从DreamBench和XVerseBench随机抽取的10个样本进行1-10分的主观评分，共收集1,500票。结果显示本方案平均得分7.26，高于USO（6.74）、DreamO（6.31）、XVerse（5.75）和UMO（6.02）。
六、深挖细节：那些让研究更扎实的补充实验
论文的附录部分包含了大量额外的实验分析，值得单独介绍，因为这些分析揭示了方法设计背后更深层的逻辑。
关于不同MLLM骨干网络的鲁棒性，研究团队测试了InternVL3-2B、Qwen2.5-VL-3B和Qwen2.5-VL-7B三种替代方案。结果显示各方案的性能差异不大，Qwen2.5-VL系列在文字跟随上略有优势但视觉理解稍弱，InternVL3-2B以明显更少的参数量取得了与8B模型接近的结果，是性价比较高的轻量化替代方案。这说明DLA框架具有良好的通用性，不强依赖特定的MLLM架构。
关于推理时的层屏蔽实验，研究团队在已训练完成的模型上，逐组屏蔽图片LAP和文字LAP的不同层，观察指标变化。实验结果验证了前面提到的层功能分区：屏蔽图片LAP的早期层（0-9层）导致DINO-I骤降0.14；屏蔽图片LAP的所有层（等于完全关掉图片通道），DINO-I下跌0.33，图片生成质量严重劣化。相比之下，屏蔽文字LAP的晚期层只导致CLIP-T下降约0.05，模型能从其他层"找补"回来。有趣的是，当文字LAP被部分屏蔽时，图片LAP的DINO-I反而略有提升（0.01-0.08），这说明两条通路在竞争计算资源，减少一方的"话语权"反而让另一方发挥得更充分，进一步印证了DLA分离处理设计的合理性。
关于多主体生成的扩展实验，研究团队在公开的两主体数据集MUSAR-Gen（不足3万张图片对）上进行了轻量级微调，然后测试多主体场景下的生成效果。结果表明，即便在如此有限的多主体数据条件下，本方案在多主体DreamBench样本上的表现依然优于UNO、DreamO和UMO，尤其在主体身份分离和概念绑定准确性上表现突出——这正是MLLM语义理解能力的直接体现。
训练数据的使用方面也值得一提：整个实验只使用了公开数据集UNO-1M，经过MLLM质量筛选后保留约40万个图片对。相比之下，DreamO、USO等方案使用了私有的高质量数据集，这在业界被普遍认为是影响最终效果的重要因素。在此约束条件下，本方案仍能达到与之相当甚至更高的评分，说明方法本身的设计具有较强的数据效率。
说到底，这项研究做的事情，是给AI图片生成这位"画师"装上了一对真正能读懂意图的眼睛，而不是只会翻拍参考图的相机。通过让MLLM的每一层都参与决策、让文字和图片特征在专属通道里各自发光、再用多阶段去噪策略在创作过程中有序调度两种信息源，研究团队找到了一条兼顾"理解复杂指令"与"忠实保留主体细节"的可行路径。
这项技术离普通人的日常并不遥远——电商卖家想生成产品在各种场景下的展示图、设计师想对一个方案进行多角度的视觉探索、游戏开发者想快速生成某个角色在不同场景中的表现，这些需求都会直接受益于"复印机"问题的改善。当然，研究本身也坦诚地指出了现有局限：MLLM的文字表示空间与扩散模型原本使用的T5文本编码空间之间还存在对齐缺口，需要更大规模的文字-图片数据和计算资源来补足；多主体生成的系统性研究也因为公开数据稀缺而未能充分展开。
不过研究团队相信，随着计算资源和数据条件的改善，MLLM驱动的图片生成系统有望在文字跟随能力上取得更大突破，甚至从根本上改变"AI画师"与用户意图之间的协作方式。有兴趣深入探索的读者，可以通过arXiv编号2605.26111检索完整论文，并访问研究团队的项目主页了解更多视觉对比案例。
Q&A
Q1：copy-paste artifact（复印机问题）在AI图片生成中具体是什么表现？
A：这个问题指的是AI在根据参考图生成新图片时，倾向于直接复制参考图中主体的姿态、角度和视觉细节，而不是根据文字指令创造性地调整。比如你给一张背包正面照，让AI生成"背包在雪地里"，结果AI只是把那张正面照的背包贴到雪地背景上，背包的朝向和姿态与参考图几乎完全一致，缺乏真实感和创意变化。
Q2：双层聚合器DLA为什么要把文字特征和图片特征分开处理，合并处理不行吗？
A：研究团队通过实验发现，用单个聚合器同时处理文字和图片特征时，模型会在"图片保真度"和"文字跟随度"之间产生权衡矛盾，优化其中一个往往会削弱另一个。分析注意力分布图后发现，文字内容和图片内容在MLLM不同层上的活跃模式截然不同，说明两者需要不同的层选策略。分开处理后，每个模块可以专注于自己最擅长的维度，两者最终再合流进入扩散模型，效果明显优于合并处理。
Q3：多阶段去噪中的时间阈值τ?和τ?对生成结果有什么影响，用户可以自己调吗？
A：可以调节，而且调节效果很直观。提高两个阈值（比如0.97和0.90），意味着MLLM主导的"语义期"更长，生成的主体外观更忠实于参考图，但姿态变化较少；降低阈值（比如0.85和0.75），VAE更早接管，生成图片的创意姿态更多样，但部分细节可能与参考图有一定出入。研究团队在论文中提供了不同参数配置下的对比图，供用户根据自己的需求进行调整，整体性能在合理参数范围内保持稳定。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果iCloud+订阅全球多地涨价，涨幅约11%-55%

华为昇腾950超节点荣获2026世界人工智能大会最高荣誉SAIL奖

DAA从理念走向标准，百度迎来智能经济时代蝶变

马斯克旗下SpaceX正与美国五角大楼洽谈AI算力供应

谷歌DeepMind CEO：AI不会令科学、技术、工程、数学专业失去价值

苹果App Store、谷歌Play商店被要求下架13款违规AI应用

全站最新

苹果iCloud+订阅全球多地涨价，涨幅约11%-55%

华为昇腾950超节点荣获2026世界人工智能大会最高荣誉SAIL奖

DAA从理念走向标准，百度迎来智能经济时代蝶变

马斯克旗下SpaceX正与美国五角大楼洽谈AI算力供应

热门推荐

智己高管回应经销商跑路：有用户被晚交付返5万承诺套路我们会兜底

苹果iCloud+订阅全球多地涨价，涨幅约11%-55%

华为昇腾950超节点荣获2026世界人工智能大会最高荣誉SAIL奖

DAA从理念走向标准，百度迎来智能经济时代蝶变

马斯克旗下SpaceX正与美国五角大楼洽谈AI算力供应

谷歌DeepMind CEO：AI不会令科学、技术、工程、数学专业失去价值

苹果App Store、谷歌Play商店被要求下架13款违规AI应用

消息称三星MX部门2026Q2利润承压，正规划重组折叠手机产线

沃尔沃筹备“史上最宏大”产品计划，今年年内还有两款新车

KimiK3再掀“DeepSeek时刻”？美股芯片盘前普跌

消息称苹果数字车钥匙即将支持长城坦克车型

WAIC杀出国产“桌面超算”！150B大模型，放你桌上跑

暴跌超30%！宝马终于向中国市场低头：停产旧纯电赌新世代

鸿蒙智行首款方盒子SUV 享界G9电池信息公布：纯电120度

中国K3模型为何引发硅谷震惊？美媒揭秘三大原因