纽约大学团队发现：AI图像编辑的"软肋"

IP属地中国·北京 科技行者 时间：2026-06-10 22:31:44

这项由纽约大学（New York University）主导的研究发表于2026年5月，论文编号为arXiv:2606.00188，有兴趣深入了解的读者可以通过该编号查询完整论文。
你有没有试过用AI帮你改一张图片？比如让它"把这个圆圈往右移动50个像素"，或者"把这片区域填充成指定的蓝色（FF0000这个红色，答案也只有一个。对于这类任务，用主观评分来判断是"降格以求"——完全可以直接比对像素。
打一个比方：如果你请人帮你抄一份菜谱，任务有唯一的正确答案，那么最好的评判方式当然是逐字对比，而不是让另一个人"感觉一下抄得像不像"。PAINTBENCH正是把这种"逐字对比"的精神引入了图像编辑评测。
研究团队认为，过去的测评体系忽略了一类非常重要的能力：精确执行有唯一正确答案的编辑操作。这类操作在真实应用中无处不在——数据可视化、科学图表编辑、工程制图、游戏资产修改——都需要AI能够精确地"按指令行事"，而不是"大概意思差不多就行"。
二、"考卷"长什么样：20种基本操作，4大类任务
PAINTBENCH把精确图像编辑分成了四个大类，涵盖20种基本操作，共生成了1920道题目。
第一大类叫"几何变换"，包含5种操作：平移（把形状移到指定位置）、旋转（绕某个点转动指定角度）、镜像翻转（沿某条轴对称）、缩放（按比例放大或缩小）、错切（让形状发生倾斜扭曲）。这类任务考验的是AI能否精确地在画布上"搬运"物体，不多不少、分毫不差。
第二大类叫"结构操控"，包含5种操作：构建（在指定位置画出新形状）、删除（精确移除某个形状）、复制（把某个形状复制到新位置）、加边框（给某个形状加上指定颜色的边框）、裁剪（把画布上的某个区域裁出来并放大）。
第三大类叫"颜色变换"，包含5种操作：重新着色（把某个形状改成指定颜色）、洪水填充（把某个封闭区域内的背景改成指定颜色）、混色（用半透明方式叠加一种颜色）、渐变（在某个区域内应用线性渐变色）、点操作（对每个像素单独做亮度调整、灰度化或颜色反转）。
第四大类叫"符号推理"，包含5种操作：比较（找出第几大的形状并删掉）、排序（把同类形状按大小顺序重新排列）、图案补全（根据重复规律补充缺失的格子）、计数（根据画面中形状的数量来调整计数符）、图例（读懂画面中的图例，然后按照图例指示对形状进行重新着色或删除）。
每道题目的形式都一样：给出一张输入图片，配上一段自然语言指令，AI需要输出一张修改后的图片，然后与唯一正确的标准答案逐像素比对打分。
题目由程序自动生成，每次运行都基于一个随机种子，可以源源不断地产生全新的题目，从根本上杜绝了AI"背题"或"刷题"的可能。画面中的元素是由12种几何形状（圆形、矩形、箭头、心形、星形、六边形、三角形、环形、半圆、十字、菱形、云朵）随机搭配颜色组合而成，背景可以是纯色或条纹图案。
三、打分方式：不靠感觉，只靠像素
PAINTBENCH的打分逻辑可以用一个装修验收的比喻来理解。
假设你要求装修工人"把这面墙刷成纯白色，其他地方保持原样"。验收时，你会做两件事：第一，检查那面墙刷白了没有、颜色准不准；第二，检查其他地方有没有被误伤——有没有油漆溅到地板上或者窗框上。
PAINTBENCH的打分逻辑完全相同。它把图片中所有像素分成两个区域：一个是"应该被改动的区域"（简称编辑区），即正确答案与原图不同的地方；另一个是"应该保持原样的区域"（简称保留区），即正确答案与原图相同的地方。
对于AI输出的图片，评分系统会同时考察两件事：编辑区里，AI改对了多少像素？保留区里，AI"误伤"了多少像素？两者合并计算出一个叫做"IoU"（交并比）的分数，范围是0到1，越高越好。
颜色精确度的判断采用的是国际通用的CIE L*a*b*色彩距离公式（ΔE??），这个公式能够模拟人眼对颜色差异的感知。研究团队设置了从0到10共11个颜色容忍度档位，然后把11个档位下的IoU平均，得出最终的mIoU分数。容忍度为0意味着像素颜色必须完全一致才算正确；容忍度为10则允许有一定的颜色偏差。这种做法类似于体育比赛中"不同距离分别统计命中率再取平均"，比只看一个档位的成绩更全面。
四、考试结果：最强模型只得了17分
测试结果出炉后，研究团队坦言有些出乎意料。
测试涵盖了11个主流AI图像编辑模型，其中既有谷歌和OpenAI的闭源旗舰产品，也有多款开源模型。在满分100分的mIoU打分体系下，得分最高的是谷歌的Nano-Banana-2（对应Gemini 3.1 Flash图像版），只得了17.1分。紧随其后的是OpenAI的GPT-Image-2，得了16.3分。排名第三的Nano-Banana-1（Gemini 2.5 Flash图像版）得了11.1分。其余开源模型的得分从6.7分一路跌至不足1分，其中华为系的HunyuanImage-3.0尽管参数量高达800亿（激活参数130亿），几乎每道题都接近于0分，这让研究团队颇感意外。
从任务难度来看，几何变换类是所有模型表现最差的领域，最高分也超不过17.5%。错切和缩放两种操作对所有模型来说几乎是不可完成的任务，最高分不超过7.8%。大多数结构操控任务和基于公式的颜色变换（渐变、混色、点操作）也普遍很难。
相对而言，"删除"和"单一颜色"类操作是所有任务里最容易的，但"容易"是相对而言——GPT-Image-2在删除任务上得了50.6分，Nano-Banana-2在重新着色任务上得了30.4分，这已经是所有任务里最高的分数了，但从绝对值来看依然远谈不上"解决"。
符号推理类任务呈现出一幅复杂的图景。图案补全对所有模型来说都很难，最高只有13.7%。计数和比较任务也颇有挑战，分别在16%左右徘徊。但图例任务出现了一个有趣的分化：Nano-Banana-2在这项任务上得了47.1分，而GPT-Image-2只得了19.4分——同样是顶级闭源模型，差距高达28个百分点。研究团队认为这可能反映了两家公司在训练数据构成或微调侧重点上的不同选择。
五、两个顶级模型的"术业专攻"
Nano-Banana-2和GPT-Image-2的总分非常接近（17.1分对16.3分），但深入到具体任务，两者的能力画像截然不同，几乎像是两个各有专长的不同工种。
GPT-Image-2在几何变换和结构操控这两个大类上全面领先。在几何变换的5个子任务上，GPT-Image-2逐一击败Nano-Banana-2：平移（17.5%对12.3%）、旋转（13.2%对7.6%）、镜像（9.1%对4.4%）、缩放（7.8%对3.0%）、错切（7.8%对3.1%）。在结构操控中，GPT-Image-2在删除（50.6%对45.8%）和裁剪（28.5%对19.1%）上也更胜一筹。
然而，换到颜色变换和符号推理的领地，Nano-Banana-2就反超了。Nano-Banana-2在渐变任务上得了13.0%，GPT-Image-2却只有1.4%，差距悬殊。点操作（亮度调整、灰度化、颜色反转）上，Nano-Banana-2也以12.3%领先于GPT-Image-2的5.4%。而图例任务上那47.1%对19.4%的巨大差距，更是两者最显著的分野。
这种"各有专攻"的现象在开源模型中同样存在。Qwen-Image-Edit在洪水填充任务上得了16.3%，不仅超过了所有其他开源模型，甚至超过了闭源的Nano-Banana-1。BAGEL和FLUX.2-Dev在裁剪任务上分别得了16.5%和14.7%，同样超过了Nano-Banana-1。还有一个任务叫"加边框"，各模型的表现出现了极其陡峭的分化：只有Nano-Banana-2（18.9%）、GPT-Image-2（15.2%）、Nano-Banana-1（4.6%）三款模型在这项任务上表现出实质性能力，其余所有模型得分接近于零。
这说明，用单一的总分来评价AI图像编辑能力是不够的——一个模型的总分不能预测它在具体任务上的表现，PAINTBENCH的细粒度分析揭示了这种隐藏的能力差异。
六、AI出错时，出的是哪四种"错"
研究团队不满足于只知道模型"错了多少"，他们还想搞清楚模型"是怎么错的"。通过分析不同颜色容忍度下的分数曲线，他们总结出了四种典型的失败模式，每种模式都有独特的"指纹"。
第一种叫"颜色不精准"。这类失败的特征是：编辑的位置和形状都对了，但颜色差了那么一点。在严格的容忍度（接近0）下，分数接近于零；但随着容忍度放宽，分数会快速攀升，最终在较宽松的容忍度下达到较高水平。就像一个厨师做了一道菜，口味大致对了，但盐放多了一点点——挑剔的食客会挑出问题，但普通食客大概不会在意。
第二种叫"根本没动"。这类失败的特征是：AI完全忽视了编辑指令，输出的图片和输入的图片几乎一模一样。无论容忍度怎么放宽，编辑区的分数始终接近于零，而保留区的分数却很高——因为AI什么都没改，所以"保留区"确实保留得很好，只是应该改的地方一点都没改。这就像你点了一杯改过配方的鸡尾酒，结果端上来的还是原版——服务员根本没有传达你的需求。
第三种叫"结构性崩溃"。这类失败最为严重，所有指标在所有容忍度下都接近于零。AI输出了一张既不像原图、也不像正确答案的东西——就像你请人修理一台收音机，结果他把整台机器拆散了扔了一地。
第四种叫"结构性不精准"。AI在大致正确的位置做了大致正确的编辑，但位置有偏差、形状有错位。这种失败的特征是：编辑区的分数在某个中等水平就停住了，不论颜色容忍度怎么放宽都不再上升——因为问题根本不在颜色，而在于几何位置对不上。就像一块拼图放错了格子，不管你怎么调整角度都合不拢。
这四种"错误指纹"让研究人员能够从单张图片的评分曲线中快速诊断出模型失败的根本原因，而不仅仅是知道"分数低了"。
七、换个背景，分数就崩了：场景变化对AI的影响
PAINTBENCH的一个特色是可以通过调整场景参数来系统地测试模型的"脆弱性"。研究团队设计了8种视觉条件：基准条件（正方形画布、3个形状、纯色背景、标准调色板）、横向宽屏画布、纵向高屏画布、非标准调色板、条纹背景、以及三种不同密度的形状数量（10个、25个、60个）。
条纹背景和高形状数量是两个"杀伤力"最大的场景变化。对于Nano-Banana-2，条纹背景让总分从基准的21.9%直降至10.8%，整整掉了11.1个百分点；GPT-Image-2在同样条件下从20.9%降到12.2%，降幅8.8个百分点。当场景中有60个形状时，Nano-Banana-2从21.9%降至10.0%（降了11.9点），GPT-Image-2从20.9%降至9.6%（降了11.3点）。而那些本来就得分极低的模型，在这两种条件下甚至接近于零，已经没有太多下降空间了。
画布宽高比的变化对闭源模型有一定影响，但方向不一致。Nano-Banana-2在横向宽屏下降了2.7点，在纵向高屏下降了0.9点；GPT-Image-2则在纵向高屏下降幅更大（3.6点），横向宽屏只降了1.6点。开源模型对宽高比变化总体上不敏感，甚至有小幅提升。
非标准调色板的影响最为微妙。从总分mIoU来看，非标准调色板对各模型的影响参差不齐，大约一半模型略有提升、一半略有下降，看不出明显规律。但一旦把"严格像素精确匹配"（容忍度为零）单独拎出来看，情况就完全不同了：所有模型在非标准调色板下的精确匹配准确率都大幅下降。以BAGEL为例，其保留区精确匹配准确率从19.2%暴跌至0.3%；Nano-Banana-2从13.6%跌至0.9%。这说明模型能"大致"应对非标准颜色，但要精确复现那些不常见的颜色编码，几乎所有模型都束手无策。研究团队认为，这背后的原因可能是训练数据中常见颜色（红绿蓝等标准色）的比例远高于不常见的颜色代码，导致模型对非标准颜色的学习严重不足。
八、AI总是"手太重"：编辑范围明显超标
研究团队还发现了一个有趣的系统性现象：AI改动的像素数量，远远超过任务要求的范围。
研究团队用一个比率来衡量这个问题：AI实际改动的像素数量，除以任务本身要求改动的区域大小。如果AI完美执行了任务，这个比率应该等于1。但实际情况是，对于面积较大的编辑区（超过256×256像素），这个比率在1到8倍之间——AI改了比应该改的多1到8倍的地方。而对于面积很小的编辑区（小于32×32像素），这个比率飙升至50到1400倍，意味着AI在做一个小改动的时候，误伤的范围可以是目标区域的几百倍乃至上千倍。
这个"手太重"的现象直接导致了一个规律：编辑区越小，mIoU得分越低。Nano-Banana-2在最小编辑区（小于32×32像素）上的得分只有0.9%，但在最大编辑区（超过256×256像素）上的得分能达到28.7%。GPT-Image-2从1.7%升至24.1%。所有11个模型都呈现出这个随编辑区增大而得分提升的规律，没有例外。
这个现象在日常应用中有很直接的含义：如果你要让AI帮你做一个精细的局部微调——比如修掉图片角落里一个小污点，或者把一个小角标改个颜色——AI很可能会连带着把周围一大片区域也一起改动，弄巧成拙。
九、从简单图形到真实图表：成绩依然高度相关
PAINTBENCH的测试画面都是由简单几何形状组成的，有人可能会问：这种简化的场景下的测试成绩，能代表AI在真实应用中的表现吗？
为了回答这个问题，研究团队建立了一个配套测试集，叫做TINYGRAFIXBENCH，把同样的测试哲学用在了真实的数据可视化图表编辑上。这个测试集包含600道题目，分布在5种图表类型上：柱状图、散点图、折线图、热力图、网络图。每种图表有4类编辑任务，分别对应构建、变换、删除和重新着色。
题目示例包括：给柱状图按升序排列所有柱子、在散点图中为没有趋势线的那类点画出最优拟合直线、在热力图中把颜色方案换成从指定低值颜色到指定高值颜色的渐变、在网络图中删掉某个节点及其所有连线等。所有图表都用Matplotlib程序生成，颜色、标签、数值均为随机生成，确保AI无法靠"背答案"来作弊。打分方式和PAINTBENCH完全一致。
结果显示，TINYGRAFIXBENCH的总体难度略高于PAINTBENCH，但各模型在两个测试集上的排名高度一致。更关键的是，两个测试集的分数之间呈现出极强的线性相关关系，R?（决定系数）高达0.91，统计显著性p值为5.28×10??，说明这绝非偶然。简单来说：一个模型在PAINTBENCH上得分高，在TINYGRAFIXBENCH上也高；在简单几何图形测试上表现差的模型，在真实数据图表编辑上也一样表现差。
Nano-Banana-2在TINYGRAFIXBENCH上以15.9%的mIoU领先，GPT-Image-2以15.6%紧随其后，与两者在PAINTBENCH上的相对排名完全一致。
各模型在具体任务上也出现了有趣的分化。Nano-Banana-2在"给柱状图加缺失柱子"（32.3%）、"重新着色柱子"（29.1%）、"给折线图区间加阴影"（28.4%）和"遮盖热力图中超阈值的单元格"（24.1%）这些任务上大幅领先于Nano-Banana-1（对应得分分别只有0.3%、0.6%、0.3%、1.2%），显示出两代模型之间能力的断层式飞跃。在开源模型中，BAGEL在"筛选折线系列"任务上以10.2%领跑，甚至超越了所有闭源模型；FLUX.1-Kontext-Dev在"交换散点图坐标轴"上以15.7%拔得头筹；LongCat-Image-Edit在"平移热力图"任务上以18.0%表现最佳。
十、这套测试体系的局限与未来
研究团队在论文中坦诚地讨论了PAINTBENCH的若干局限性。
当编辑区域非常细小或薄时（比如修改一条细线），即使AI的位置偏差很小，也可能完全错过目标区域，导致评分比实际"误差的严重程度"更为严苛。对于这种情况，持续渐变的评分方式或者针对具体任务的专项评分函数可能更合适。
此外，有些精确编辑任务本质上不存在唯一正确答案——比如，变换一个形状后，原本被遮住的背景区域应该用什么颜色填充？如果原始背景是纯色的，这道题有唯一答案；但如果背景是复杂图案，正确填充方式就有多种可能，需要更复杂的评判机制。
还有一点值得关注：PAINTBENCH聚焦于2D栅格图像（即普通的位图）的精确编辑，并不涉及视频、3D场景、科学可视化或工程图纸等领域。研究团队认为，这套"程序生成题目、像素精确打分"的哲学完全可以延伸到上述所有领域，并将其视为后续研究的方向。
说到底，PAINTBENCH揭示的是一个颇为尴尬的现实：今天的AI图像编辑模型，在"生成美观图片"这件事上已经相当出色，但在"精确执行人类指令"这件事上，还远未达到可靠实用的水准。最强模型17.1%的总分意味着，如果你随机从这20类任务中抽一道题让最好的AI来做，平均来看它只能把不到两成的像素改对。
这并非说这些模型毫无价值——它们在删除和单一颜色填充任务上已经展现出相对实用的能力，在特定任务上也有高达40%甚至50%的分数。但对于那些要求"改对就是改对、改错就是改错"的精确应用场景，现有模型的能力缺口依然巨大。
PAINTBENCH提供了一把量尺，让研究者和开发者能够清楚地看到自己的模型距离"精确可用"还差多远，也让未来的改进方向更加清晰。这套测试体系的题库是无限的，不会因为AI进步而"考题用完"，可以持续跟踪该领域的真实进展，而不会像很多静态测试集那样随着AI能力提升而失去区分度。
对于普通用户来说，这项研究提醒我们：在用AI处理需要精确结果的图像编辑任务时，最好在使用前明确了解它的局限，并对输出结果做仔细的人工核查。而对于开发者和研究者，PAINTBENCH和TINYGRAFIXBENCH提供了一个客观、可重现的基准，帮助他们诊断模型在哪类操作上最需要改进，以及哪些场景变化会最严重地拖累性能。有兴趣深入了解完整方法和数据的读者，可通过arXiv编号2606.00188查阅原论文。
Q&A
Q1：PAINTBENCH和其他AI图像编辑测试有什么不同？
A：PAINTBENCH专门测试有唯一正确答案的精确编辑任务，用像素级别的直接比对打分，不依赖人类评审或裁判AI。这与大多数现有测试依赖主观评分的方式完全不同，能客观衡量AI的精确执行能力，而非"看起来好不好看"。
Q2：PAINTBENCH测试中表现最好的AI模型是哪个？
A：在1920道题目、满分100分的mIoU评分体系下，谷歌的Nano-Banana-2（对应Gemini 3.1 Flash图像版）以17.1分排名第一，OpenAI的GPT-Image-2以16.3分紧随其后。值得注意的是，两者在不同任务类别上各有所长，几何变换和结构操控类任务由GPT-Image-2领先，而颜色变换和符号推理类任务则是Nano-Banana-2更胜一筹。
Q3：为什么AI在精确图像编辑上表现这么差？
A：研究团队的分析指出几个主要原因：AI模型的训练目标更偏向于生成视觉上合理的图片，而非执行精确的像素级操作；模型倾向于改动比指令要求更多的区域；对非标准颜色代码的精确复现能力不足，可能与训练数据中常见颜色的比例过高有关。这些问题在几何变换和复杂颜色公式类任务上尤为突出。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

国务院发展研究中心张文魁：推动智能终端与智能体融合发展

加州最大AI数据中心开发商索要河水遭拒，将供水机构告上法庭

支付宝体验技术部拆分，员工分散到各个业务线

苹果总市值再成全球第一

英伟达押注OpenAI联合创始人全新AI实验室拓宽算力布局版图

新榜单出炉，单周处理量破8万亿Token：Agnes公布大模型最新成绩单

全站最新

国务院发展研究中心张文魁：推动智能终端与智能体融合发展

加州最大AI数据中心开发商索要河水遭拒，将供水机构告上法庭

支付宝体验技术部拆分，员工分散到各个业务线

苹果总市值再成全球第一

热门推荐

国务院发展研究中心张文魁：推动智能终端与智能体融合发展

加州最大AI数据中心开发商索要河水遭拒，将供水机构告上法庭

支付宝体验技术部拆分，员工分散到各个业务线

苹果总市值再成全球第一

英伟达押注OpenAI联合创始人全新AI实验室拓宽算力布局版图

新榜单出炉，单周处理量破8万亿Token：Agnes公布大模型最新成绩单

长鑫科技上市后已有供应商赴合肥争抢新增订单

马斯克两次点赞的Kimi K3，核心架构背后还站着一位17岁高中生！

硅谷发起开源联盟，黄仁勋、马斯克带头站队，中国开源模型引发行业主导权之争

IDC王吉平：“个人AI”将定义下一轮终端增长

长鑫批量造富：朱一明持股市值达779亿元，员工总计持股市值达2558亿元

优必选：一场关于“孤独与两性关系”的商业化实验

商务部回应“美拟对中国人工智能企业开展调查并实施制裁”：典型的AI霸权主义行径

三星手机要用长鑫内存！用中国芯片来抢占中国市场

2026世界智能网联汽车大会10月北京举办，展现自动驾驶时代发展蓝图