当前位置: 首页 » 资讯 » 科技头条 » 正文

韩国科学技术院(KAIST)攻克AI"眼瞎心不瞎"难题

IP属地 中国·北京 科技行者 时间:2026-06-09 22:24:23


这项由韩国科学技术院(KAIST)人工智能研究生院与KRAFTON联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2606.02578,有兴趣深入了解的读者可通过该编号查询完整论文。

当一个号称"什么都懂"的AI助手在判卷时,偷偷抄了答卷本身的内容而不是认真看图——这就是这项研究要解决的核心问题。研究团队发现,目前最先进的多模态大模型(也就是那些既能看图又能读文字的AI)在担任"评分官"角色时,存在一种系统性的偏差:它们经常对图像上明显错误的答案大方打高分,只因为那个答案写得头头是道、逻辑通顺。研究团队将这种现象命名为"感知判断偏差",并设计了一套完整的诊断和纠偏方案,最终训练出了一个名为"Perception-Judge"的新型评分模型。

研究背景要从AI领域一个越来越普遍的需求说起。随着各类AI模型的能力越来越强,如何公正、高效地评价这些模型的好坏,成了一个令整个行业头疼的问题。传统上,这件事靠人来做——组织一批专家逐条审阅AI的回答,给出评分。但这种方式费时费钱,而且不同专家的标准也可能参差不齐。于是,研究者们开始尝试让AI来评价AI,也就是所谓的"LLM-as-a-Judge"(让大语言模型充当评委)。这个思路延伸到图文结合的场景,就有了"MLLM-as-a-Judge"(让多模态大模型充当评委)。这位AI评委不仅要看懂文字答案,还要理解题目配套的图片,才能判断回答是否正确。

然而,研究团队在深入观察这类AI评委的表现时,发现了一个令人忧虑的现象。这个现象用一个生活场景来描述最为贴切:假设你是一位数学老师,正在批改一道关于图表的题。有个学生的答案写得极其流畅,推理步骤清晰,措辞专业——但他描述图中数据的那部分,和图上实际显示的数字完全对不上。一位尽职的老师应该扣分,但现实中的AI评委却往往因为被流畅的推理过程迷惑,反而给了高分。这就是"感知判断偏差"。

一、AI评委"只看文章、不看图"的两种失误方式

要理解这个问题,得先知道AI评委可能在哪里出错。研究团队把失误分成了两种类型,就像一位批卷老师可能犯的两类错误。

第一类失误叫做"感知能力不足"。这类情况发生在AI评委自己都没看懂图片的时候。比如一道关于魔方的题,图片上画的是一个7×7×7的魔方,但AI评委自己就误以为是3×3×3。这时候,如果有一个答案按照3×3×3计算出54个小方格,AI评委会认为"这个答案和我想的一样,给满分",而实际上正确答案应该是294。这就好比一个近视的老师不戴眼镜批卷,他根本没看清题目本身,自然也判断不了学生的答案对不对。

第二类失误叫做"回答锚定",这一类更加隐蔽,也更令人担忧。在这种情况下,AI评委本身能正确识别图片,但在评分时,它却忽略了自己"看到的内容",转而被学生答案中的文字描述所左右。比如,关于两个溶液哪个绿色粒子浓度更高的题,AI评委自己看图能得出"两者一样"的正确结论,但当它面对一个信誓旦旦地说"A溶液浓度更高,因为它含有更多绿色粒子"的答案时,可能反而被这段自信的描述说服,给出高分——尽管这个描述与图片事实相悖。这类错误的本质是:AI评委在评分时,更多依赖文字的"说服力",而不是图片的"客观证据"。

研究团队用实验数据量化了这两种失误的严重程度。他们发现,主流的基础模型Qwen2.5-VL-7B总体错误率高达30.5%,而专门为评分任务训练过的Flex-Judge-VL-7B也有23.5%的错误率。其中,第二类"回答锚定"型失误的比例甚至不低于第一类,说明问题不仅仅是AI"看不清图",更是AI在评分过程中根本没有认真用自己的视觉判断来说话。

研究团队还做了一个精妙的对比实验。他们准备了两类"干扰答案":一类同时在视觉描述和推理逻辑上都犯了错,另一类只在视觉描述上犯了错但推理逻辑听起来仍然合理。实验结果揭示了一个关键规律:当答案在逻辑推理上也有明显问题时,AI评委能相对准确地识别出这是个差答案;但当答案只是视觉描述错了、推理过程听起来仍然头头是道时,AI评委的准确率会大幅下滑,跌幅超过10个百分点。换句话说,现有的AI评委只要听到"理由充分",就容易忘记去核对图片本身。

二、构造"视觉陷阱题库":给AI评委设计专项训练数据

发现了问题,研究团队随即着手设计解决方案。他们的核心思路是:既然AI评委的毛病是"被文字迷惑、忽视图片",那就专门给它准备一批训练材料,让它在练习中不断遭遇这种陷阱,从而学会识破并抵御这种诱惑。

这批训练材料被命名为"感知扰动判断数据集"(PPJD,Perceptually Perturbed Judgment Dataset)。构造这个数据集的过程颇有些"制造假钞来训练银行员工识别真钞"的味道。研究团队从一个已有的多模态偏好数据集MMPR出发,对其中的正确答案进行系统性"篡改",制造出两种不同等级的"残次品答案"。

整个制造过程分四个步骤展开。首先,从原始数据集中筛选出那些经过核实、绝对正确的答案,这些答案将作为"标准答案"。筛选标准很严格:不仅要在原数据集中被标记为"较好答案",还要与该题目的标准答案完全吻合,确保是绝对意义上的正确,而非只是相对较好。

其次,研究团队调用强大的AI模型(如GPT系列或Qwen系列)分析每道题的图片,提取三到六个关键的"视觉属性"——也就是那些只能通过看图才能获得的信息,例如图中有几个人、某个物体是什么颜色、两个元素的空间位置关系如何。这些属性必须是真正来自图片的信息,而不是文字题目中已经说明的内容。

第三步是制造"感知错误版答案"。研究团队让AI模型在保持原答案推理框架和语言风格完全不变的前提下,悄悄修改一两个视觉属性。比如,把原答案中"三个人"改成"两个人",或者把"蓝色"改成"红色",但推理过程的逻辑结构、遣词造句依然和原答案几乎一模一样。这样得到的答案,乍一看非常合理、表达流畅,但只要仔细核对图片,就能发现其中的视觉描述是错的。每个生成的"感知错误版"答案都要经过自动验证,确保它确实给出了与正确答案不同的最终结论,才会被保留进数据集。

第四步是制造"双重错误版答案"——既有视觉描述错误,又有推理逻辑错误的版本。这类答案不仅偷换了图片信息,还基于这些错误的图片描述得出了显然站不住脚的结论。比如,先错误描述图中的粒子数量,再基于这个错误数量做出一系列荒谬推断。

经过这四个步骤,每道题就得到了三个有明确质量等级的答案:完全正确的"正确版"、只有视觉错误的"感知扰动版"、以及既有视觉错误又有逻辑错误的"双重扰动版"。三者之间存在清晰的优劣顺序,研究团队将其标记为"正确版优于感知扰动版,感知扰动版优于双重扰动版"。

最终构建出的训练数据集包含3000个这样的三元组,涵盖通用视觉问答、科学题、数学题、OCR文字识别、图表理解以及图像质量评估等六大类别。这个规模听起来不算很大,但正如后续实验所证明的,这批经过精心设计的数据,质量远比数量重要。

三、用"排名比较法"教会AI评委建立全局秩序感

有了训练数据,下一个问题是:用什么方式训练?研究团队选择了强化学习,具体来说是一种叫做GRPO(Group Relative Policy Optimization,组内相对策略优化)的方法。要理解这个方法,可以把AI评委的训练过程类比成一场体育裁判的成长历程。

一般的AI训练就像给裁判逐场比赛提供一份"标准答案",告诉他"这场比赛A队赢了,那场比赛B队赢了"。但GRPO更像是把一组比赛同时摆到裁判面前,让他在这一组中凭自己的判断排出名次,然后告诉他"你排的顺序和标准顺序差了多少"。这种方式的好处在于,裁判不是在孤立地评判每场比赛,而是在进行横向比较,这样更容易建立一套内部一致的评判标准。

研究团队在GRPO的框架下,设计了两个层次的奖励机制,就像给裁判的打分规则设立了两道门槛。第一道门槛是"格式奖励":AI评委输出的评分必须符合规定格式,有清晰的推理过程(用特定标签包裹),有明确的答案(用另一个特定标签包裹),而且分数在合理范围内。格式不合格的输出,后续所有奖励都归零。这就像告诉裁判:你的判决书格式必须规范,不然判决无效。

第二道门槛是核心所在,叫做"批量排名奖励"。这个奖励不评估单个答案打了多少分,而是评估AI评委对三个答案排出的顺序是否正确。研究团队采用了一种叫做"加权Levenshtein距离"的数学工具来衡量排名的准确程度——简单来说,就是计算AI评委排出的顺序和标准顺序"差了几步",差得越少,奖励越高。

具体的奖励分布非常直观:如果AI评委排出的顺序完全正确(正确版第一、感知扰动版第二、双重扰动版第三),获得满分1分;如果只有轻微错位(比如把双重扰动版排在了感知扰动版前面),得三分之二;错得更多则得三分之一;如果完全颠倒(把双重扰动版排第一)则得0分。

这种设计的妙处在于,它强迫AI评委同时关注两个维度的区别:既要能区分"视觉描述正确"和"视觉描述错误",又要能进一步区分"只有视觉错误"和"视觉与逻辑都错误"。如果AI评委只依赖文字推理的流畅程度打分,它就很难正确区分这三个层次——因为"感知扰动版"的推理写得和正确版一样流畅,唯一的差别只在视觉描述上。这样,训练过程就把"看清图片、核对视觉信息"变成了获得高奖励的必要条件,而非可有可无的加分项。

四、实验结果:小数据集撬动大改进

研究团队用多个公认的测评基准检验了这套方法的效果。评测维度分为三类:单项打分(给每个答案打1到5分,看是否和人类评分吻合)、两两比较(在两个答案中选出更好的,看是否和人类判断一致)、以及批量排名(对多个答案排序,看排出的顺序和人类顺序有多接近)。

训练后的Perception-Judge-Qwen3-4B与其基础模型Qwen3-VL-4B-Thinking相比,在两两比较上提升了约4个百分点,在批量排名上提升了约11个百分点,在单项打分上更是提升了约12个百分点——后者尤为值得关注,因为训练时根本没有用到任何具体的分数标签,模型完全是通过相对排名学会了打分。这说明,学会辨别答案之间的相对优劣,能够自然地迁移为对单个答案绝对质量的判断能力。

与商业闭源模型相比,Perception-Judge在单项打分上的表现已经和GPT-4o相当,在批量排名上甚至超过了大多数闭源模型。而这一切,是用区区3000条训练样本实现的,与LLaVA-Critic使用的11.3万条训练数据相比,数据效率高出数十倍。

研究团队还专门针对"感知错误识别能力"做了定点测试,验证训练效果。在需要区分"正确答案"和"感知扰动版答案"的场景下,基础模型的准确率在多个数据集上明显低于区分"正确答案"和"双重扰动版答案"的场景,而Perception-Judge在这两个场景下的表现差距大幅缩小,尤其在纯粹感知错误的识别上提升最为显著。

消融实验(也就是逐步去掉某个设计组件,看看各自贡献了多少)进一步证实了各个设计决策的价值。用PPJD数据集替换普通的MMPR数据集,在所有指标上都有稳定提升,说明专门针对感知错误设计的训练数据确实有效。在奖励设计上,批量排名奖励比两两比较奖励更有效——前者通过强制AI评委同时考虑三个答案的全局顺序,提供了比后者更丰富的监督信号。此外,研究团队还验证了KL系数(控制模型不要偏离原始状态太远的参数)的最优值为0.01,过大或过小都会影响最终性能。

研究团队还将这套训练方法扩展到了更大规模的模型,包括32B参数的Flex-Judge-VL-32B和8B参数的Qwen3-VL-8B-Thinking。实验结果显示,性能改善在更大模型上同样稳定,说明这套方法具有良好的可扩展性,不是只在特定尺寸的模型上才管用。

五、方法局限与未来空间

研究团队在论文中也坦诚地指出了目前方法的不足之处。在某些需要极为细粒度视觉识别的场景下,Perception-Judge仍然会犯错,尤其是当图片中涉及复杂的三维空间关系,或者需要精确识别细微差别时。比如,当有人拿着一个盘子,题目问他以什么角度端着盘子时,Perception-Judge和其他模型一样,难以从二维图片中准确判断三维姿态,往往给出看起来合理但实际错误的高分。这类失误更多反映的是当前多模态大模型在底层视觉感知能力上的普遍局限,而非训练方法本身的缺陷。

另一个局限是对商业闭源模型的依赖。在构建PPJD数据集时,研究团队调用了GPT-5等商业模型来提取视觉属性和生成扰动答案。这意味着数据集的构建成本受制于商业API的价格,也在一定程度上影响了整个流程的完全可复现性。未来,随着开源模型能力的持续提升,这个依赖有望逐步减少。

训练效率也是一个值得关注的问题。与直接监督微调相比,GRPO需要对每个训练样本生成多个候选回答,计算量更大。不过,研究团队认为,考虑到只需要3000条训练数据就能达到相当竞争力的性能,总体的计算代价仍然是合理的。

此外,在涉及主观判断或语境模糊的评分场景下,Perception-Judge偶尔仍会出现不一致的结果。这提示研究团队,在感知能力之外,如何进一步提升推理的稳健性和对模糊情境的处理能力,是下一步值得探索的方向。

归根结底,这项研究的本质贡献在于:它精确定位了多模态AI评委的一个系统性失误来源,并设计了一套在数据效率和方法设计上都颇具匠心的解决方案。它提醒我们,一个AI助手会不会"看图",和它在评判别人"看图答题"的对错时会不会真正用上自己的视觉判断,是两件截然不同的事。而弥合这两者之间的鸿沟,正是构建可信赖的AI评估系统不可绕过的一关。

对这个话题感兴趣的读者,不妨思考这样一个延伸问题:如果AI评委在图文评分上存在这种偏差,那么在其他需要多模态理解的场景(比如医学影像辅助诊断、安防监控分析)中,类似的"重文字、轻图像"偏差是否也会存在?解决这类偏差,最终需要的是更好的训练数据、更好的训练方法,还是从根本上改变模型架构?完整论文arXiv:2606.02578提供了更多技术细节,可供深入探索。

Q&A

Q1:什么是感知判断偏差,为什么AI评委会出现这个问题?

A:感知判断偏差是指多模态大模型在担任评分官时,倾向于根据答案文字的逻辑流畅程度打分,而不是认真核对图片内容与答案描述是否一致。出现这个问题的原因有两个:一是模型本身看不清图片(感知能力不足),二是模型即使能看清图片,在评分时也会被答案中的自信表述所左右,忽略了自己从图片中获取的信息(回答锚定)。

Q2:PPJD数据集是怎么构建的,和普通训练数据有什么不同?

A:PPJD数据集通过对正确答案进行受控的"视觉属性篡改"来构建,刻意制造出推理流畅但视觉描述错误的"陷阱答案"。普通训练数据只区分好答案和差答案,差答案通常在逻辑上也有明显问题;而PPJD专门构造了那种"逻辑没错、视觉错了"的微妙错误类型,迫使模型学会依靠图片核实而非依靠文字推理来判断答案质量。

Q3:Perception-Judge用了多少训练数据,性能怎么样?

A:Perception-Judge仅用了3000条训练样本,与使用11.3万条数据的同类模型相比,数据用量大幅减少。性能方面,与基础模型相比,单项打分相关性提升约12个百分点,批量排名准确率提升约11个百分点,在两两比较上也有约4个百分点的提升,整体表现与GPT-4o等商业模型相当,并在批量排名上超过了多数商业模型。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新