![]()
这项由香港中文大学与MiniMax合作完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.20278,感兴趣的读者可通过该编号检索完整论文。研究团队提出了一个名为ClaimDiff-RL的新框架,专门解决AI在生成长篇图像描述时面临的一个棘手困境。
用一个日常场景来理解这个困境:假设你雇了一个助理,让他帮你描述一张照片。这个助理面临两种截然相反的风险——要么描述得过于大胆,说了一堆照片里根本没有的东西(比如明明是蓝色的雨伞,他说成了红色的);要么为了保险起见,什么都只说一点点,大量关键细节一字不提。这两种情况,无论哪一种,这个助理都算是没完成工作。
AI系统在生成图像描述时,面临的正是这个"说多错多、说少漏多"的两难局面。以往的训练方式,往往是给AI的整体描述打一个总体评分,但这种"一刀切"的打分方式根本无法区分AI是因为"说错了"扣分,还是因为"没说完"扣分。结果就是:AI学聪明了,发现少说话可以减少犯错的风险,于是开始越来越保守,描述越来越简短,漏掉了大量应该说的内容。
ClaimDiff-RL的核心突破,正在于把这个"总体打分"的粗糙评判机制,替换成一种更像是精细"逐条核查"的评判机制。
一、为什么给AI打一个总分根本行不通
要真正理解这项研究的价值,需要先搞清楚此前的训练方式存在什么问题。训练AI生成图像描述,本质上是一个"强化学习"的过程——就像训练一只小狗,做对了给零食,做错了不给。问题在于,这里的"对"与"错",以往都是用一个整体分数来衡量的。
以往常见的做法大致分成几类。第一种是把AI生成的描述与人类写的"标准答案"进行比较,看文字层面有多相似,比如BLEU、CIDEr这类指标。这种方式的问题显而易见:一张照片可以有无数种正确的描述方式,用词不同、顺序不同、详略不同,但都是正确的,文字相似度根本无法捕捉这些差异。第二种是直接让一个强大的AI(充当"评委")给描述打一个1到10的整体分数,然后用这个分数来训练被评估的AI。这种方式更强大,但依然存在致命缺陷:一个7分的描述,到底是因为凭空捏造了一个不存在的物体才扣分,还是因为漏掉了重要细节才扣分,还是因为描述了一些额外的正确细节却没有参考答案而被误判扣分?这个7分背后的原因,完全是一团糊涂账。
正是因为无法区分这些截然不同的错误类型,AI系统在训练过程中找到了一条"捷径":通过缩短描述、减少说话来降低犯错风险。数据显示,用整体评分训练的AI,幻觉(说了照片里没有的东西)确实减少了,但遗漏(照片里有的东西没说出来)却大幅增加。换句话说,AI变得更"谨慎"了,但也变得更"沉默"了,而这种沉默本身就是一种失职。
研究团队的数据清楚地展示了这个现象:使用整体评分的两种训练方式(有参考答案版和无参考答案版),在200步的训练过程中,幻觉数量确实快速下降,但遗漏数量却同步急剧攀升,最终两者之间形成了一个明显的剪刀差。这背后的机制也在训练动态图中一览无遗——整体评分训练的AI,在训练过程中生成的描述长度急剧萎缩,而奖励分数却快速攀升,这说明AI根本没在学习如何更准确地描述图像,而是在学习如何通过少说话来骗过评分系统。
二、ClaimDiff-RL的核心思路:把总账本拆成明细账
ClaimDiff-RL的解决方案,本质上是把评判方式从"总体打印象分"变成"逐条核查明细账"。
具体的运作流程像是一场三方核查。给定一张图片、一份由被训练的AI生成的描述(称为"演员描述")以及一份由强大AI(Gemini-3-Pro-Preview)生成的参考描述,研究团队请来一个"裁判AI"来主持这场核查。裁判AI做的第一件事,是找出两份描述之间的具体差异点。比如,演员描述说"蓝色雨棚",参考描述说"绿色雨棚";演员描述说"三把椅子",参考描述说"两把椅子";演员描述提到了"黄色警示牌",参考描述却没有提;参考描述里有"菜单上写着COFFEE & BAGEL",演员描述里却完全没有提。这些差异点被一一列举出来,每一条都是一个独立的核查单元。
找到差异之后,裁判AI做的第二件事,是把真实的图片拿出来,逐条核对:到底是演员描述说的对,还是参考描述说的对,还是两边都说错了,或者两边说的都是对的?这一步至关重要——参考描述并不是"标准答案",图片才是最终的裁判。
核查结束之后,裁判AI对每一条差异,分别给演员描述和参考描述打上"错误标签",并标注错误的类型(比如"颜色幻觉"、"数量错误"、"细节遗漏"、"文字幻觉"等)以及严重程度(轻微、中等、严重三个级别)。这种分类方式借鉴了医学检查报告的思路——不只是说"这个人不健康",而是具体指出"这里有一个3级的心脏问题,那里有一个1级的轻微骨折"。
有了这份精细的明细账,研究团队设计了两种不同的奖励计算方式。第一种叫"相对奖励",计算逻辑是比较演员描述的错误总量与参考描述的错误总量:如果演员描述的错误比参考描述少,就给予高奖励;如果错得比参考描述还厉害,就给予低奖励。这种方式鼓励AI去全面描述图像内容,追求比参考描述更好的覆盖率。第二种叫"仅演员奖励",计算逻辑只看演员描述自己的错误:错误越少,奖励越高;不关心参考描述的表现。这种方式更专注于让AI减少自身的幻觉和失误。
在错误严重程度的权重设置上,研究团队采用了1、1.25、1.6的递进系数,意味着轻微错误权重为1,中等错误权重为1.25,严重错误权重为1.6。严重的事实错误(比如说了完全不存在的物体、数量彻底说错)会受到比轻微的风格问题重得多的惩罚。
三、一个防"耍赖"的额外保障:模糊惩罚机制
在设计奖励系统的过程中,研究团队发现了一个潜在的"钻空子"行为:AI可能会学会通过大量使用模糊表达来规避被判定为错误。比如,与其明确说"这是一把红色椅子"(存在说错颜色的风险),不如说"这可能是一把红色或者橙色的椅子吧"(这样即使颜色说错了,也可以辩称自己已经预留了不确定性)。
为了堵上这个漏洞,研究团队在奖励计算完毕后,额外加入了一个模糊惩罚机制。具体做法是,统计描述中出现了多少次类似"可能"、"也许"、"大概"、"似乎"这类模糊词汇,以及"A或者B"这类两可表达。为了公平起见,这个机制允许一定数量的模糊表达——毕竟一篇长达200到300词的描述,偶尔用几个不确定表达是正常的。研究团队设定的配额是每90个词允许1次模糊表达,超出配额的部分才会受到惩罚,且惩罚力度是乘法式的递增(每多一个超额模糊词,奖励乘以约0.905,5个超额模糊词会让奖励降到原来的60%左右)。
值得一提的是,裁判AI的提示词中也明确规定:当图片内容清晰可辨时,使用模糊表达本身就是一种错误。这意味着模糊惩罚机制从两个层面同时发力——裁判在评判每条差异时就会标记模糊表达为错误,事后还会再叠加一个统计层面的额外惩罚,双重保险。
四、实验设置:一切变量都被严格控制
为了确保实验结果能真实反映奖励设计方式的差异,研究团队对实验设置进行了极为严格的控制。
底层模型选用了Qwen3-VL-32B-Instruct,这是一个在视觉语言理解方面颇为强大的基础模型。在正式进行强化学习训练之前,研究团队先用200万张从LAION和DataComp-1B数据集中随机采样的图片,以及Gemini-3-Pro-Preview为这些图片生成的详细描述,对模型进行了监督微调(简单理解为:先通过大量示例让模型学会写长篇图像描述的基本技能)。强化学习阶段使用了从同一数据池中抽取的1万张图片,每张图片让模型生成8个不同版本的描述,对比这8个版本的表现差异来调整模型参数。
整个实验中,所有参与对比的训练方式(ClaimDiff-RL的两种变体、以及两种整体评分基准方法)都使用完全相同的训练数据、完全相同的起始模型、完全相同的生成设置和优化配方。唯一的差别,就是奖励计算方式不同。这保证了最终观察到的性能差异,是奖励设计本身造成的,而非其他因素干扰。
五、三重测试维度:幻觉、描述能力、通用理解
研究团队从三个维度对各种训练方式的效果进行了全面评估。
第一个维度是专门构建的160张图片诊断基准测试。这份测试集配有人类专家撰写的参考描述,用于区分两种截然不同的错误:幻觉(描述了图片里没有的东西)和遗漏(漏掉了图片里有的重要内容)。评判方式同样是两阶段的:先找出AI描述与人类参考描述之间的差异,再把图片拿出来核对,只有图片明确否定的内容才算幻觉,人类参考描述里没有的但图片支持的额外细节不算错误。这一设计防止了把人类参考描述当成唯一"圣经"的误判。
第二个维度是公开的Capability基准测试。这个测试从多个细粒度角度评估描述能力,包括物体类别识别、数量计数、颜色识别、空间关系描述、场景类型识别、拍摄角度判断、OCR文字识别、风格描述、人物身份识别等多个子类别,以F1分数(综合考虑查全率和查准率的指标)为评判标准。
第三个维度是五个通用视觉问答基准测试,分别是BLINK、OCRBench-v2、HRBench-4K、RealWorldQA和SimpleVQA。这些测试与图像描述任务没有直接关系,主要用来检测图像描述训练是否损害了模型的通用视觉理解能力。
六、实验结果:数据说话
在160张图片的诊断基准测试上,训练步数与幻觉、遗漏数量的变化曲线清楚揭示了各种方法的本质差异。整体评分(无参考)方式训练下,幻觉数量从约2.2急剧下降到0.8以下,但遗漏数量却从约1.2上升到接近2.0,形成了典型的"按下葫芦浮起瓢"。整体评分(有参考)方式稍好一些,但趋势相同。
ClaimDiff-RL相对奖励方式的表现则完全不同:幻觉从约2.2下降到约1.6,同时遗漏数量基本保持稳定,甚至略有下降,维持在约0.8至1.0之间。ClaimDiff-RL仅演员奖励方式在减少幻觉的同时,遗漏增加幅度明显小于整体评分方式,找到了一个更为平衡的位置。
在训练动态上,整体评分训练的模型在前100步内就实现了奖励的快速攀升,同时描述长度急剧缩短——这是"少说话换高分"策略的标志性特征。ClaimDiff-RL训练的模型奖励上升更为缓慢,但描述长度保持得更好,尤其是相对奖励方式始终维持着最长的描述输出。
在Capability基准测试上,各方法的表现分化十分明显。ClaimDiff-RL相对奖励方式的综合F1从监督微调基准的69.5分提升到71.5分,其中数量计数从44.1大幅提升到49.8,空间关系从57.9提升到64.2,场景识别从79.0提升到81.1。更令人印象深刻的是,在数量计数、空间关系、场景识别这三个维度上,ClaimDiff-RL相对奖励方式的表现超过了被用作参考描述来源的Gemini-3-Pro-Preview本身。整体评分(无参考)方式则正好相反——物体类别F1从81.2下降到74.8,数量计数从44.1骤降到31.1,整体平均F1从69.5下降到65.8,在所有维度几乎全面退步。
在通用视觉问答基准测试上,监督微调本身就带来了明显的能力损耗——仅做监督微调的模型,通用视觉问答平均分从基础模型的66.90下降到58.23。强化学习训练在一定程度上能够弥补这种损耗,其中ClaimDiff-RL相对奖励方式将平均分恢复到63.53,在五个基准上全面提升。更值得关注的是,直接在基础模型上(不经过监督微调)施加ClaimDiff-RL仅演员奖励训练,平均分从66.90进一步提升到67.52,在五个基准上全数超越基础模型,说明逐条核查式的奖励机制甚至能作为提升通用视觉理解能力的轻量级工具。
七、调节旋钮:严重程度权重如何影响最终结果
研究团队还专门研究了错误严重程度权重的设置对最终效果的影响,提供了一种直观可调的"控制旋钮"。
当三个级别的权重相同(均为1)时,惩罚不区分轻重,结果是遗漏数量降到最低(0.49),但幻觉数量最高(2.18),说明模型在追求覆盖率方面更激进,但也会带来更多不准确的声明。当权重设置为默认值(1、1.25、1.6)时,幻觉降到1.60,遗漏上升到0.76,在两者之间找到了较好的平衡点,同时整体误差指标也达到最优(0.52)。当权重进一步加强(1、1.5、2)时,幻觉进一步降低到1.32,但遗漏增加到0.92,说明越来越多的惩罚集中在了防止幻觉上,代价是覆盖率的损失。这组实验清楚说明,通过调节严重程度权重,研究者可以在"减少幻觉"和"保持覆盖率"之间明确地选择自己想要的工作点,这种可控性是整体评分方式根本无法提供的。
八、裁判可靠吗?两项独立验证给出答案
评判系统的可靠性是整个框架的基石,研究团队对此进行了两项独立验证。
第一项验证是人类专家审核。三位人类专家手动核查了Gemini-3-Pro-Preview的约100个样本、约300条逐条标注,检验自动标注是否正确。结果是Gemini的逐条准确率达到87%,说明自动标注在聚合统计层面是足够可靠的,尽管个别条目仍存在噪声。
第二项验证是跨评判模型的一致性检验。研究团队用另一个完全不同的AI评判系统(GPT-5.2)对同样的三组模型进行评判,然后计算两套评判结果在逐样本层面的斯皮尔曼相关系数(一种衡量排名一致性的统计量,数值越接近1表示两者判断越相似)。在有参考描述的条件下,幻觉计数的相关系数为0.537,遗漏计数的相关系数为0.334;在无参考描述的条件下,这两个数值分别降至0.377和0.284。这一结果说明,有参考描述参与的评判方式,两个完全不同的AI系统之间的一致性更高,验证了研究团队引入参考描述作为"比较锚点"这一设计决策的合理性。幻觉的一致性高于遗漏的一致性,也在意料之中——说了什么错的话比没说什么话更容易被明确识别。
从单个模型的角度来看,监督微调基准的两评判系统一致性最高(幻觉相关系数0.651),强化学习训练后的模型一致性有所降低。这并非坏事,而是因为经过训练后的模型产生的错误更加细微,更难被明确识别,反而说明模型质量提升了。
九、参考描述的角色:是向导而非标准答案
一个值得单独阐述的设计理念是参考描述在整个框架中扮演的角色。ClaimDiff-RL中的参考描述,不是被当作"唯一正确答案"来使用的。它的作用更像是一个"向导"——告诉裁判AI,这张图片里大概有哪些值得关注的视觉维度,引导裁判AI在这些维度上发现差异,然后再拿着真实图片来核对每条差异的对错。
研究团队通过一个对照实验清楚验证了这一点。在160张图片的诊断基准上,用"有参考描述"和"无参考描述"两种方式分别进行评判,结果发现:无参考描述的评判检测到的幻觉平均从1.52降到0.97,遗漏从0.80降到0.44。这并不意味着没有参考描述时模型表现更好,而是意味着没有参考描述时,裁判AI发现问题的能力被大幅削弱——尤其是对于遗漏类型的问题,因为没有参考描述作为比对基准,裁判AI很难知道"本应该说什么却没说"。这个实验结果为整个框架引入参考描述的必要性提供了直接的实证支持。
归根结底,ClaimDiff-RL做到的,是把原本"按印象整体打分"的粗糙评判方式,升级成了"逐条核查、分类定性、按严重程度差异化惩罚"的精细化评判方式。这不只是让AI描述图片描述得更准确、更全面,更重要的是让整个训练过程变得透明可解释——研究者能明确知道AI在哪些维度上有哪类问题,能通过调节权重参数来定向改善特定问题,而不是只能被动地观察一个笼统的总分在不明方向上的波动。这种"可诊断的训练"理念,或许比任何单一的性能指标提升都更具长远价值。
Q&A
Q1:ClaimDiff-RL和传统的整体评分训练方式有什么核心区别?
A:传统整体评分把AI描述的质量压缩成一个数字,无法区分"说错了"和"没说完"两种截然不同的问题。ClaimDiff-RL把评判拆解成逐条差异核查:先找出AI描述和参考描述之间的具体不同点,再拿真实图片核对每条差异的对错,给每条差异分别打上错误类型和严重程度标签,最后再汇总成奖励分数。这样AI在训练时就能明确知道是因为"说错了"还是"没说够"被扣分,而不是靠着减少说话量来逃避惩罚。
Q2:ClaimDiff-RL的参考描述如果本身有错误怎么办?
A:这正是该框架一个重要的设计考量。参考描述不被当成"标准答案",只是作为"话题引导者"使用——它告诉裁判AI大概有哪些视觉维度值得关注。每一条差异最终的对错,都由真实图片来裁定,而非由参考描述的内容来裁定。所以即使参考描述里有错,只要图片显示AI描述的内容才是正确的,AI描述就会被判为无误,参考描述反而会被标记错误。
Q3:严重程度权重具体怎么调节才能达到最好的效果?
A:研究团队测试了三组权重设置。权重均等(1、1、1)时幻觉最多但遗漏最少,适合追求覆盖率优先的场景;默认权重(1、1.25、1.6)在幻觉和遗漏之间取得较好平衡,综合误差指标最优;强化权重(1、1.5、2)幻觉最少但遗漏增加,适合对准确性要求极高的应用场景。具体选哪组,取决于实际应用中更在意"不说错"还是"不遗漏"。





京公网安备 11011402013531号