当前位置: 首页 » 资讯 » 科技头条 » 正文

当AI像人类一样挑剔:北京人工智能研究院突破图像编辑评价难题

IP属地 中国·北京 科技行者 时间:2025-10-23 18:19:24


这项由北京人工智能研究院、中国科学技术大学、中科院自动化所和浙江大学联合开展的研究发表于2025年9月,论文编号为arXiv:2509.23909v2。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你用修图软件把照片中的天空从蓝色改成橙色,或者用AI工具把照片里的猫换成狗时,你可能会想:这个修改效果到底好不好?这个看似简单的问题,对于AI来说却是一个巨大的挑战。就像我们请一位美食评委来评判厨师的手艺一样,AI在修改图片时也需要一个"评委"来判断修改得是否成功。

然而,找到这样一个公正、准确的AI评委并不容易。以往的AI评价系统就像一个经验不足的美食评委,要么过于宽松,要么过于苛刻,很难给出令人信服的评价。更重要的是,当我们想要通过反复练习来提升AI的修图技能时,就像一个厨师需要不断得到评委的反馈来改进厨艺一样,缺乏可靠的评价系统就成了最大的障碍。

这项研究的核心创新在于开发了一套名为EditScore的AI评价系统,它就像培养出了一位经验丰富、眼光独到的美食评委。这个系统不仅能够准确判断图像修改的质量,还能为AI提供稳定可靠的学习信号,让AI在不断的练习中提升修图技能。研究团队首次在图像编辑领域实现了从评价标准建立、评价模型开发到强化学习训练的完整技术路径。

更令人印象深刻的是,这个评价系统在某些方面甚至超越了目前最先进的商业AI系统,比如GPT-5。这就好比一个年轻的美食评委经过专业训练后,在某个特定菜系的评判上超越了资深评委。通过这个系统的指导,原本表现一般的AI修图工具OmniGen2获得了显著的能力提升,修图质量有了明显改善。

一、建立修图界的"米其林指南":EditReward-Bench评价标准

当我们想要评判一家餐厅的好坏时,会从菜品口味、服务质量、环境氛围等多个维度来考量。同样地,评价AI修图效果也需要一套全面而科学的标准体系。研究团队开发的EditReward-Bench就像是图像编辑领域的"米其林指南",为AI修图质量的评判建立了权威标准。

这套评价体系覆盖了13种不同类型的修图任务,就像米其林指南涵盖了从快餐到精品料理的各种餐饮类别一样。这些任务被巧妙地分为四大类别,每一类都代表着不同难度等级的修图挑战。

第一类是"主体"修改,这就像在一道菜中增加、减少或替换主要食材。比如在一张照片中添加一只小狗,移除原有的汽车,或者把照片中的苹果换成橙子。这类修改虽然看似简单,但要求AI精确理解指令并且不破坏原有画面的和谐性。

第二类是"外观"调整,相当于改变菜品的色彩搭配和呈现方式。这包括改变物体的颜色(把红色的玫瑰变成白色)、材质(把木桌变成大理石桌)、风格(把照片变成油画效果)以及整体色调(把白天场景变成夜晚)。这类修改考验的是AI对视觉美学的理解能力。

第三类是"场景"改造,就像为同一道菜更换不同的餐具和餐桌布置。比如把人物照片的背景从室内换到海边,或者把完整场景中的某个元素单独提取出来。这类任务要求AI具备对空间关系和场景构成的深度理解。

第四类是"高级"编辑,这是最具挑战性的类别,相当于创意料理中的分子烹饪技术。包括人像美化(让照片中的人看起来更有魅力)、文字修改(改变图片中标志或文字的内容)、动态效果调整(让静态图片看起来更有动感)以及混合编辑(同时进行多种类型的修改)。这些任务需要AI具备接近人类水平的创意思维和美学判断。

为了确保评价的准确性和公正性,研究团队建立了一套严格的三维评价体系。第一个维度是"指令遵循度",检查AI是否准确理解并执行了修改指令,就像检查厨师是否按照菜谱制作菜品。第二个维度是"一致性保持",确保修改过程中没有破坏原图的其他部分,类似于确保在调整菜品口味时不影响其原有的精美摆盘。第三个维度是"整体质量",从所有角度综合评判修改效果的优劣。

这套评价标准的建立过程极其严谨。研究团队邀请了多位在生成式AI领域具有丰富经验的专家作为评委,他们就像米其林指南的美食评委一样,具备专业的判断能力和丰富的实践经验。在正式评价之前,所有评委都要先对少量样本进行试评,然后讨论分歧,统一标准,确保每个人都使用相同的评判尺度。

评价过程采用了独特的"分层排名"方式。当面对五张不同的修改结果时,评委不是简单地排出1、2、3、4、5的顺序,而是可以将质量相近的结果归为同一等级。比如可能的排名是"3|12|45",意思是第3张图片质量最好,第1和第2张图片质量相当且次之,第4和第5张图片质量最差且水平相近。这种方式更符合人类的实际判断习惯,因为有时确实很难在两个相似的结果之间分出高下。

最终,这套评价体系包含了3072个经过严格验证的对比样本,每个样本都经过了两名专家的独立评价,只有当两名专家的判断完全一致时,该样本才会被纳入最终的标准集。这就像米其林指南的每家餐厅都要经过多位评委的一致认可才能获得星级评定一样。

二、打造专业的AI评委:EditScore模型的诞生

有了评价标准之后,下一步就是培养出一位真正专业的AI评委。这就像是要把一个普通人训练成米其林星级餐厅的主厨评委一样,需要大量的专业训练和实践积累。研究团队开发的EditScore模型正是这样一位经过专业训练的AI评委。

EditScore的基础是强大的视觉语言模型Qwen2.5-VL,这就像是选择了一个本身就很有天赋的人作为培训对象。研究团队推出了三个不同规模的版本:7B、32B和72B参数版本,就像培养出了三个不同级别的评委,从新手评委到资深专家,各有其适用场景。

这个AI评委的工作方式很有趣。当它收到一个评价任务时,包括原始图片、修改指令和修改结果,它不会立即给出分数,而是会先进行详细的"reasoning"(推理分析),就像一个专业评委会先仔细观察菜品的色泽、闻味道、品尝口感,然后再给出评分和评语。

比如,当要求把照片中的蓝天改成黄昏时分的橙色天空时,EditScore会首先分析:"我看到原图中确实有蓝色的天空,修改后的图片中天空变成了温暖的橙色,这符合黄昏时分的色彩特征。同时,天空的纹理和云朵的形状得到了很好的保持,与原图保持了良好的一致性。地面部分的建筑物和其他元素没有受到不必要的改动。"然后才会给出具体的分数。

EditScore采用了一套双重评分机制。它会分别从"语义一致性"和"感知质量"两个角度进行评分。语义一致性关注的是修改是否准确执行了指令,以及是否保持了原图中不该改变的部分。感知质量则关注修改后图片的整体视觉效果,包括是否自然、是否有明显的人工痕迹等。最终分数是这两个分数的几何平均值,确保了评价的全面性和平衡性。

研究团队还开发了一项独特的"自我集成"技术,这就像是让评委对同一道菜品尝多次,然后综合多次品尝的感受给出最终评价。具体来说,EditScore会对同一个修改结果进行多次独立评价(通常是4次),每次都会产生略有不同的分析推理过程,然后将多次评价的分数进行综合,得出更加稳定和可靠的最终评分。

这种方法的效果非常显著。在与其他评价系统的比较中,EditScore展现出了令人印象深刻的准确性。即使是最小的7B版本,其评价准确性也超过了规模大它十倍的通用视觉语言模型。而当使用自我集成技术后,EditScore-72B的表现甚至超越了目前最先进的商业AI系统GPT-5。

这种成功并非偶然。研究团队在训练EditScore时采用了精心设计的数据构建流程。他们首先收集了大量高质量的图片作为编辑素材,然后使用多个不同的AI编辑工具生成各种修改结果。这些结果被送到专业的AI系统(如GPT-4.1)进行初步评分,然后再经过严格的筛选和过滤,只保留最具代表性和区分度的样本用于训练。

整个训练数据集包含了70000个精心构建的样本,每个样本都包含原图、修改指令、修改结果以及详细的评分和评价理由。这就像是为培训一个美食评委准备了70000道不同的菜品,每道菜都有详细的制作过程说明和专业评价,确保评委能够学习到各种复杂情况下的判断标准。

三、验证AI评委的专业水准:EditScore性能测试

训练出了AI评委之后,关键是要验证它的专业水准是否真的达到了预期。就像一个刚刚完成训练的美食评委需要通过实际的评判工作来证明自己的能力一样,EditScore也需要接受严格的性能测试。

研究团队设计了全面的测试方案,将EditScore与目前最先进的AI系统进行正面比较。参与比较的对手包括GPT-4.1、GPT-5、Gemini-2.5-Pro等商业AI巨头,以及Qwen2.5-VL系列等开源AI模型。这就像是一场高水平的烹饪比赛,汇集了各路顶尖高手。

测试结果令人震撼。在整体准确性方面,商业AI系统确实表现出色,GPT-4.1、GPT-5和Gemini-2.5-Pro的准确率都在70-75%的范围内,显示了它们强大的零样本判断能力。然而,开源AI模型的表现却令人失望。即使是参数规模最大的Qwen2.5-VL-72B,整体准确率也只有约61%,在一致性判断方面甚至低于随机猜测的水平。

相比之下,EditScore的表现极其抢眼。即使是最小规模的EditScore-7B,其准确性也全面超越了比它大十倍的Qwen2.5-VL-72B。而EditScore-72B的基础版本就已经能够与GPT-4.1媲美,当使用自我集成技术后,其表现甚至超越了GPT-5,在某些细分任务上创下了新的最高纪录。

更深入的分析揭示了有趣的模式。AI系统普遍在"指令遵循"方面表现更好,而在"一致性保持"方面相对较弱。这反映了一个重要现象:判断AI是否按照指令进行了修改相对容易,但要准确评估修改过程中是否意外改变了不该改变的部分则要困难得多。这就像评判一个厨师是否添加了要求的调料容易,但要判断他是否在添加调料的过程中意外改变了菜品的其他特征就困难多了。

研究团队还进行了详细的计算效率分析。他们发现,通过增加推理时间(即进行多次评价)获得的性能提升,比单纯增加模型规模更加高效。具体来说,让EditScore-7B进行4次独立评价然后取平均值,其效果超过了直接使用更大规模的模型进行单次评价,但计算成本却更低。这个发现具有重要的实用价值,为在有限计算资源下获得最佳性能提供了新的思路。

为了验证EditScore的实用价值,研究团队还进行了一系列实际应用测试。他们使用EditScore来指导三个不同的AI编辑工具:OmniGen2、Flux.1-Kontext-dev和Qwen-Image-Edit。测试方式是让每个工具对同一个编辑任务生成多个候选结果,然后用EditScore选出最好的一个。

结果显示,EditScore的选择确实能够显著提升编辑质量。在所有测试的编辑工具中,经过EditScore筛选后的结果都比随机选择的结果要好。特别是对于OmniGen2,改进效果最为明显,这为后续的强化学习训练奠定了基础。

四、从评委到教练:强化学习让AI越修越好

有了可靠的评价系统之后,研究团队迈出了更加雄心勃勃的一步:让AI通过不断的练习和反馈来提升自己的修图技能。这就像是从单纯的比赛评委转变为专业教练,不仅要会评判好坏,还要能指导学员不断进步。

这种训练方式被称为"强化学习",其核心思想是让AI在反复尝试中学习。想象一个初学绘画的学生,他画完一幅作品后,老师会给出评价和建议,学生根据这些反馈调整自己的技法,然后画下一幅作品。通过这样的循环往复,学生的绘画技能逐渐提升。

在这个过程中,EditScore扮演的就是严格而专业的老师角色。每当AI完成一次图像编辑后,EditScore就会给出详细的评分和分析,告诉AI这次修改哪里做得好,哪里还需要改进。AI根据这些反馈调整自己的行为模式,然后在下一次任务中尝试做得更好。

研究团队选择了OmniGen2作为学生,这是一个在图像生成和编辑方面已经具备相当基础的AI系统。之所以选择它,是因为前期的测试显示它具有很大的改进潜力,就像是一个基础扎实但还有提升空间的优秀学生。

训练过程采用了名为Flow-GRPO的先进算法。这个算法的工作原理可以比作团队协作学习:AI不是单独完成一个任务,而是同时尝试多种不同的方法(通常是12种),然后比较这些方法的效果。表现好的方法会被鼓励和强化,表现差的方法则会被抑制。这种方式比单纯的个体学习更加高效,因为AI可以在同一轮练习中从多个角度获得经验。

为了确保训练的稳定性和有效性,研究团队进行了精心的超参数设置。训练采用了20个离散时间步,噪声水平设为0.9,KL惩罚系数设为0.04。这些看似技术性的参数实际上就像是调节教学强度和节奏的关键变量,确保AI既能快速学习又不会因为训练过度而产生负面效果。

强化学习的效果立竿见影。随着训练的进行,OmniGen2的编辑质量稳步提升。更重要的是,这种提升是全面的,不仅在特定任务上表现更好,在各种不同类型的编辑任务上都有明显改进。这证明了AI真正学会了更好的编辑策略,而不是仅仅记住了某些特定情况下的正确答案。

研究团队还发现了一个重要现象:强化学习的成功高度依赖于奖励信号(即评价系统)的质量。当他们尝试使用其他评价系统(如未经专门训练的通用视觉语言模型)进行同样的训练时,效果要差得多,甚至可能导致训练失败。这进一步证明了EditScore这样的专业评价系统的重要性。

更有趣的是,研究团队发现评价系统的"挑剔程度"对训练效果有显著影响。相比于那些给分相对宽松但更准确的评价系统,那些更加严格、评分差异更大的系统反而能带来更好的训练效果。这就像是严师出高徒的道理,适度的严格要求反而能激发学生的更大潜力。

五、验证教学成果:实际应用效果测试

经过强化学习训练的OmniGen2需要接受实际应用的检验,看看它的进步是否真的转化为了实用价值。研究团队设计了全面的测试方案,就像是让刚刚完成进修的学生参加期末考试。

测试采用了两个广泛认可的图像编辑评测基准:GEdit-Bench-EN和ImgEdit-Bench。这些基准包含了各种真实世界的编辑任务,从简单的颜色调整到复杂的场景重构,全面考察AI的编辑能力。

在GEdit-Bench-EN上的测试结果令人振奋。经过强化学习训练的OmniGen2在整体评分上从6.28提升到6.68,这0.4分的提升看似不大,但在AI评价体系中已经是显著的进步。更细致的分析显示,在"语义控制"方面的提升最为明显,从6.72提升到7.20,增幅达到0.48分。这表明AI在理解和执行编辑指令方面有了实质性的改进。

在更具挑战性的ImgEdit-Bench上,改进效果同样明显。整体评分从3.40提升到3.63,虽然绝对数值看起来不高,但要知道这个基准的难度极高,即使是最先进的AI系统在这里的表现也相对有限,因此0.23分的提升已经相当可观。

为了确保这些改进的可信度,研究团队还进行了与其他方法的对比。他们将自己的成果与其他采用类似强化学习方法的研究进行比较,发现EditScore指导下的训练效果明显优于使用其他奖励系统的方法。这进一步证实了专业评价系统的价值。

更重要的是,这些改进具有很好的泛化能力。AI不仅在训练过的任务类型上表现更好,在一些从未见过的新任务上也表现出了更强的适应能力。这说明强化学习过程中获得的不是简单的记忆,而是真正的技能提升。

研究团队还通过大量的视觉案例展示了改进效果。在各种编辑任务中,从背景替换到物体颜色修改,从风格转换到文字编辑,经过训练的AI都能产生更加自然、准确的结果。这些改进在视觉上是显而易见的,即使是普通用户也能明显感受到质量的提升。

六、深入分析:成功的关键因素

为了更好地理解这项研究的成功之处,研究团队进行了深入的因素分析,就像是解析一道成功菜品的制作秘诀。

首先,他们发现评价系统的准确性是成功的基础。通过对比实验,他们证明了即使是规模庞大的通用AI模型,如果没有经过专门训练,也无法提供有效的学习信号。这就像是请一个不懂烹饪的人来指导厨师,无论这个人多么聪明,都很难给出有价值的建议。

其次,评价系统的稳定性同样关键。EditScore通过自我集成技术大大提高了评价的一致性,避免了因为随机性导致的不稳定反馈。这确保了AI在学习过程中能够获得清晰、一致的指导信号,就像是确保老师的评价标准始终保持一致。

研究团队还发现了一个有趣的现象:评价系统的"方差"(即评分的变化范围)对学习效果有重要影响。那些评分差异更大、更加"挑剔"的评价系统反而能够带来更好的训练效果。这个发现挑战了传统观念,表明在AI训练中,适度的严格要求可能比过分宽容更有效。

数据质量的重要性也得到了充分体现。EditScore的训练数据经过了严格的筛选和过滤,确保每个样本都具有高质量和高区分度。这种精益求精的态度为最终的成功奠定了坚实基础。就像是选择最好的食材才能做出最美味的菜品一样,高质量的训练数据是培养优秀AI评价系统的前提。

技术创新方面,自我集成策略的成功应用具有重要意义。这种方法通过增加推理时间而非模型规模来提升性能,为在有限计算资源下获得最佳效果提供了新思路。这就像是通过更仔细的思考而非更大的脑容量来提高思维质量。

强化学习算法的选择和调优也发挥了关键作用。Flow-GRPO算法特别适合处理图像生成任务,其组批学习的特点使得AI能够在每轮训练中获得更丰富的经验。同时,精心调节的超参数确保了训练过程的稳定性和有效性。

七、突破与创新:首次实现的技术里程碑

这项研究在多个方面实现了技术突破,为图像编辑AI的发展建立了新的里程碑。最重要的是,它首次在图像编辑领域建立了从评价标准制定、专业评价系统开发到强化学习训练的完整技术链条。

在评价标准方面,EditReward-Bench的建立填补了领域空白。以往的评价基准要么规模过小,要么任务覆盖不够全面,而这个新基准不仅包含了13种不同类型的编辑任务,还采用了多维度评价体系,为AI图像编辑的评价建立了新的黄金标准。

EditScore模型的成功开发证明了专门化训练的价值。相比于使用通用AI模型进行图像编辑评价,专门训练的评价模型在准确性和稳定性方面都有显著优势。这为其他AI应用领域提供了重要启示:在特定任务上,专门化的模型往往比通用模型更有效。

强化学习在图像编辑领域的成功应用也具有开创性意义。虽然强化学习在其他AI领域已经取得了巨大成功,但在图像编辑这个复杂的视觉任务上的应用一直面临挑战。这项研究证明了在有了可靠评价系统的前提下,强化学习确实能够显著提升AI的图像编辑能力。

自我集成技术的创新应用展示了通过增加推理时间来提升性能的潜力。这种方法不需要更大的模型或更多的训练数据,仅仅通过更充分的思考就能获得更好的结果,为AI系统的性能优化提供了新的思路。

在开源贡献方面,研究团队将评价基准、训练好的模型以及完整的训练代码都向公众开放,为整个学术界和产业界的发展做出了重要贡献。这种开放态度有助于推动整个领域的快速发展。

这项研究还在方法论上具有重要价值。它展示了如何系统性地解决AI应用中的复杂问题:从问题分析到标准建立,从工具开发到效果验证,每个环节都经过了精心设计和严格验证。这种全链条的研究方法为其他AI应用领域提供了宝贵的参考。

说到底,这项研究解决的是AI图像编辑领域的一个根本性问题:如何让AI知道什么是好的编辑结果。就像培养一个艺术家需要良师指导一样,让AI掌握图像编辑技能也需要专业的评价和反馈系统。研究团队不仅成功开发了这样的系统,还证明了它在实际应用中的价值。

这个成果对普通用户的意义是直接而实际的。未来的AI修图工具将会更加智能和可靠,能够更准确地理解用户的意图,产生更高质量的编辑结果。无论是专业摄影师还是普通社交媒体用户,都将从这项技术进步中受益。

从更广阔的视角来看,这项研究展示了AI系统自我改进的可能性。通过建立合适的评价机制和学习框架,AI不仅可以完成既定任务,还可以在实践中不断提升自己的能力。这种自我进化的能力可能是通向更强人工智能的重要一步。

当然,这项研究也为我们思考AI的未来发展提供了新的视角。在追求更大模型、更多数据的同时,我们也应该关注如何建立更好的学习机制和评价体系。有时候,正确的方向比单纯的规模扩张更重要。

Q&A

Q1:EditScore与普通AI评价系统有什么区别?

A:EditScore是专门为图像编辑任务训练的评价系统,就像专业美食评委比普通人更会品菜一样。它不仅能准确判断编辑质量,还能提供稳定的学习信号帮助AI提升技能,而普通AI系统往往无法提供这种专业级别的评价。

Q2:强化学习如何让AI的修图能力越来越好?

A:强化学习就像有老师指导的反复练习。AI每次修图后,EditScore会给出详细评分和建议,AI根据这些反馈调整自己的方法,然后在下次任务中尝试做得更好。通过这种循环,AI逐渐掌握更好的修图技巧。

Q3:这项技术什么时候能在日常修图软件中使用?

A:研究团队已经将相关技术开源,这意味着软件开发者可以基于这些成果开发更智能的修图应用。虽然具体的商业化时间表取决于各个公司,但这项技术为未来更智能的修图工具奠定了基础。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新