东北大学团队提出Ref-Adv：打造多模态AI视觉推理新标杆

IP属地中国·北京 科技行者 时间：2026-03-02 16:43:49

在人工智能视觉理解的世界里，就像考试一样，有些题目看起来很难，但实际上有很多"投机取巧"的方法可以拿到高分。东北大学的研究团队最近发现了一个有趣的现象：当前最先进的多模态大语言模型在经典的视觉理解任务上表现优异，但实际上可能并没有我们想象的那么"聪明"。
这项由东北大学领导的研究发表于2026年的ICLR会议（国际学习表征会议），论文编号为arXiv:2602.23898v1。研究团队针对指代表达理解任务（Referring Expression Comprehension，简称REC）提出了全新的评测基准Ref-Adv，揭示了当前AI模型在视觉推理方面的真实水平。
想象一下这样的情景：老师给学生出了一道数学题"找出图中穿红衣服的人"，学生看了一眼发现图里只有一个人穿红衣服，于是轻松答对了。但如果图里有三个穿红衣服的人，题目变成"找出穿红衣服、戴帽子、站在左边的那个人"，学生就需要真正理解每个描述词的含义，并在图中仔细寻找符合所有条件的目标。这就是研究团队想要解决的核心问题。
传统的REC评测基准，比如RefCOCO系列，就像是前面提到的简单数学题。这些数据集中的描述通常很短，平均只有3个词，而且图片中往往只有很少的"干扰项"（也就是同类但不同的对象）。结果就是，AI模型可以不需要真正理解整个描述的含义，只要抓住一两个关键词就能找到正确答案。这就好比学生做选择题时，不需要完全理解题目，只要找到关键信息就能蒙对答案。
研究团队通过深入分析发现了三个主要问题。首先是描述过于简短，缺乏足够的推理挑战。其次是图像中缺少足够的干扰对象，让任务变得过于简单。最重要的是存在"捷径解决方案"的问题：当一个长描述包含很多修饰词时，如果图中只有少数几个候选对象，模型往往只需要匹配部分描述就能找到正确答案，而不需要理解整个表达的完整含义。
为了解决这些问题，研究团队开发了Ref-Adv数据集。这个数据集的设计理念就像是为AI模型量身定制的"高考试卷"，确保每道题都需要真正的理解和推理能力才能解答。他们采用了一套精心设计的数据收集策略，使用大语言模型辅助生成，再通过人工验证确保质量。
整个数据收集过程就像是一个精密的工厂流水线。首先，研究团队筛选出包含至少3个同类候选对象的图像，确保有足够的"干扰项"。然后，他们使用GPT-4o来识别图像中最相似的对象对，并生成用于区分这些对象的描述词。这个过程分为两个步骤：先识别哪些对象最相似（容易混淆），然后生成既能区分相似对象，又能将它们与其他对象区别开来的精确描述。
比如，在一张包含多个人的照片中，如果有两个人都穿着深色衣服站得很近（这就是"相似对象对"），系统会先识别出这种相似性，然后生成类似"穿深色衣服但戴着太阳镜的人"这样的描述，既要和另一个穿深色衣服的人区分开，也要和其他人区分开。
研究团队还采用了一个巧妙的两阶段生成策略。他们发现，如果直接让AI生成完整的描述，往往会产生冗余的修饰词，这又会回到"捷径解决"的老问题。因此，他们先让AI识别关键的区分属性，再基于这些属性组合生成最简洁但充分的描述。这就像是先列出做菜的必需食材，再按照食谱步骤来烹饪，而不是一开始就把所有能想到的调料都加进去。
为了确保数据质量，每个生成的描述都要经过三位人工标注者的验证。他们需要确认两个关键问题：描述是否准确无歧义，以及图像中是否真的存在"困难干扰项"（即那些部分符合描述但不完全匹配的对象）。只有三位标注者都同意的情况下，这个样本才会被保留。最终的保留率只有18.7%，这说明生成高质量的推理样本确实很有挑战性。
最终的Ref-Adv数据集展现出了明显优于传统数据集的特征。描述的平均长度达到11.5个词，相比RefCOCO的3.6个词有了大幅提升。更重要的是，数据集中21.25%的描述使用了否定表达（比如"不是那个戴帽子的人"），这在传统数据集中只有不到4%。这种否定表达特别考验模型的理解能力，因为它需要模型不仅要识别某个属性，还要理解"不具备"这个属性的逻辑含义。
为了验证Ref-Adv数据集的有效性，研究团队设计了几个巧妙的测试。第一个测试叫做"词序打乱测试"，就像把一个句子的词语顺序完全打乱，看模型还能不能理解。结果显示，在传统数据集上，即使词序被打乱，模型的表现下降也不大，说明它们主要依赖关键词匹配而非真正的语言理解。但在Ref-Adv上，词序打乱后模型表现大幅下降，证明这个数据集确实需要真正的语言理解能力。
第二个测试叫做"描述词删除测试"，研究团队随机删除描述中的一个修饰词，看模型表现是否会下降。如果删除一个词后表现不变，说明这个词是"冗余"的，模型可以走"捷径"。结果显示，传统数据集中确实存在很多这样的冗余描述，而Ref-Adv中的每个描述词都是必需的，删除任何一个都会影响模型表现。
研究团队还进行了一个"偏见测试"，用固定的提示"the one"替换所有的具体描述，测试模型是否能仅凭图像就找到目标。这个测试旨在检测数据集中是否存在统计偏见。结果显示，传统数据集在这个测试中的表现明显好于Ref-Adv，说明Ref-Adv更少受到这类偏见的影响。
当研究团队用Ref-Adv来评测当前最先进的13个多模态大语言模型时，结果令人惊讶。这些在RefCOCO系列上能达到90%以上准确率的"学霸"模型，在Ref-Adv上的表现普遍下降了30-40个百分点。就连表现最好的GPT-4o，在使用了思维链推理的情况下，准确率也只有63.7%，远低于它在传统数据集上的表现。
更有趣的是，研究团队发现思维链推理（Chain-of-Thought，CoT）这种让模型"说出推理过程"的方法，在Ref-Adv上比传统数据集更有效。这进一步证明了Ref-Adv确实需要更多的推理步骤。在传统的简单任务中，额外的推理步骤可能反而是累赘，但在复杂的推理任务中，这种step-by-step的思考方式就显得尤为重要。
通过对不同干扰项数量的分析，研究团队发现了一个有趣的现象：随着同类干扰对象数量的增加，所有模型的表现都会下降，但下降程度各不相同。当干扰项数量达到7个或更多时，即使是最先进的模型也显得力不从心。这就像在人群中找人一样，目标人群越大，找到特定个体就越困难。
从不同模型的表现分析中，研究团队发现了几个有趣的规律。首先，模型规模的增大确实能带来性能提升，但这种提升在Ref-Adv上比在传统数据集上更明显，说明复杂推理任务对模型能力的要求更高。其次，一些专门针对视觉推理优化的模型（如使用thinking模式的模型）在Ref-Adv上表现更好，这验证了专门的推理训练对处理复杂视觉语言任务的重要性。
研究团队还观察到一个有趣的现象：很多模型在失败时，往往会选择"困难干扰项"作为答案，而不是完全无关的对象。这说明模型确实在进行某种程度的理解和匹配，但在精确区分相似对象方面还有欠缺。这就像学生在考试时，即使答错了也通常是选择了看起来相关的错误选项，而不是完全无关的选项。
为了促进研究社区的发展，研究团队公开发布了Ref-Adv-s，这是一个包含1,142个样本的精选子集，配备了完整的评测代码。他们还详细记录了数据收集过程中使用的所有提示模板和验证协议，确保其他研究者能够复现和扩展这项工作。
这项研究的意义远不止于提出一个新的评测数据集。它揭示了当前AI视觉理解能力评估中存在的系统性问题，并为未来的研究指出了方向。正如研究团队在论文中所说，随着多模态大语言模型能力的快速发展，我们需要更具挑战性的评测基准来真正衡量它们的推理能力，而不是让它们在"取巧"中获得虚高的分数。
研究结果还暗示了AI模型训练中的一个重要问题：如何平衡数据的多样性和质量。传统的大规模训练数据虽然量大，但可能包含太多可以通过简单模式匹配解决的样本，这可能限制了模型真正推理能力的发展。Ref-Adv的设计理念提醒我们，在追求更好的AI系统时，质量比数量更重要。
通过定性分析，研究团队发现了模型失败的几种典型模式。有些模型在理解复合描述时会"顾此失彼"，能正确识别某个属性但忽略另一个同样重要的属性。有些模型则在处理否定表达时出现困难，比如对"不戴帽子的人"这样的描述理解不准确。还有一些模型在空间关系理解上存在问题，对"左边的"、"背景中的"这样的空间描述词处理不当。
这些发现为改进AI模型提供了具体的方向。研究团队建议，未来的模型训练应该更多地关注复合属性理解、否定逻辑推理和精确的空间关系建模。他们还建议在模型评测中更多地采用需要多步推理的任务，而不是仅仅依赖单步的模式匹配。
值得注意的是，研究团队在数据收集过程中还探索了人工标注和AI辅助生成的结合方式。他们发现，纯粹的AI生成往往会产生过于冗长或不自然的描述，而纯粹的人工标注则成本过高且难以大规模进行。通过AI辅助生成加上严格的人工验证，他们找到了一个在质量、成本和规模之间的良好平衡点。
这项研究也展现了跨学科合作的价值。数据集的构建不仅需要计算机视觉和自然语言处理的专业知识，还需要认知科学和心理学的见解来理解人类是如何进行视觉推理的。研究团队在设计"困难干扰项"时，就借鉴了人类视觉注意和对象识别的认知机制。
从更广阔的视角来看，Ref-Adv的提出反映了AI研究中一个重要的发展趋势：从追求单一指标的优化转向更全面、更深入的能力评估。这种转变对于构建真正智能的AI系统至关重要。毕竟，在现实世界中，AI系统需要处理的往往是复杂、模糊、需要多步推理的任务，而不是可以通过简单模式匹配解决的问题。
研究团队在论文中坦诚地讨论了Ref-Adv的局限性。比如，当前的数据集主要关注静态图像中的对象识别，未来可能需要扩展到动态场景或更复杂的视觉推理任务。他们也承认，即使是Ref-Adv也可能随着AI技术的发展而变得"过时"，需要持续的更新和改进。
这种对局限性的坦诚认识，恰恰体现了优秀科研工作的特质。研究的价值不仅在于解决当前的问题，更在于为未来的研究奠定基础，指出新的方向。Ref-Adv的提出，就像是在AI视觉理解的发展道路上设立了一个新的里程碑，既标记了当前的位置，也指向了前进的方向。
说到底，这项研究提醒我们，在AI技术快速发展的今天，我们需要更加审慎地评估AI系统的真实能力。表面上的高分数可能掩盖了深层的能力缺陷，而只有通过更严格、更全面的评测，我们才能真正了解AI系统的优势和不足，从而指导未来的技术发展。
归根结底，Ref-Adv不仅仅是一个新的数据集，更是一面镜子，让我们更清楚地看到当前AI视觉理解技术的真实面貌。它告诉我们，在通向真正智能AI的路上，我们还有很长的路要走，但这正是科研的魅力所在——不断发现问题，不断寻求突破，不断向着更高的目标前进。对于有兴趣深入了解这项研究的读者，可以通过论文编号arXiv:2602.23898v1查询完整论文内容。
Q&A
Q1：Ref-Adv数据集与传统RefCOCO数据集有什么本质区别？
A：传统RefCOCO数据集就像简单的找茬游戏，描述很短（平均3个词），图像中干扰对象很少，AI模型可以通过简单的关键词匹配就找到答案。而Ref-Adv数据集更像复杂的推理题，描述更长（平均11.5个词），包含更多同类干扰对象，需要模型真正理解整个描述的含义并进行多步推理才能找到正确答案。
Q2：为什么当前最先进的AI模型在Ref-Adv上表现会大幅下降？
A：这些模型在传统数据集上能达到90%以上准确率，但在Ref-Adv上普遍下降30-40个百分点，主要是因为它们之前依赖的"捷径解决方案"不再有效。面对复杂的推理任务，模型需要真正理解语言描述的完整含义，识别多个属性，并在众多相似对象中进行精确区分，这暴露了当前AI在真正推理能力方面的不足。
Q3：Ref-Adv数据集对AI技术发展有什么实际意义？
A：Ref-Adv就像是给AI模型设计的"高考试卷"，能够更准确地评估AI的真实推理能力，避免虚高的评分。它为AI研究指出了几个关键改进方向：加强复合属性理解、改进否定逻辑推理、提升空间关系建模能力。这将推动开发更智能的AI系统，让它们能够处理现实世界中更复杂的视觉理解任务。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

强脑科技预计今年机械手销量大涨：宇树、乐聚都是我们的客户

大众、宝马、日产集体“投华”，只有它还在独自"头铁"

台风影响丰田等三企暂停生产

24小时极限创作“1分钟小游戏”，黑客松大赛落地张江AI创新小镇

5400亿！谷歌官宣猛攻AI基建，股价跌超2%

成都首次完成无人/有人机混合运行验证试飞

全站最新

强脑科技预计今年机械手销量大涨：宇树、乐聚都是我们的客户

大众、宝马、日产集体“投华”，只有它还在独自"头铁"

台风影响丰田等三企暂停生产

24小时极限创作“1分钟小游戏”，黑客松大赛落地张江AI创新小镇

热门推荐

旧霸主归来！美股AI新风口：“老七雄”力压“七巨头”？

旋转自助烤肉，掀起“开店潮”

起底华海诚科疑似高位套现

软通动力在厦门成立计算机公司注册资本1亿

川能动力等成立股权投资基金出资额5亿

现卫生问题亚朵酒店已成立7年

阿里云计算公司换帅

英特尔中国法定代表人发生变更

拉勾网及创始人再次被限消

白鹿掉粉近百万

稻城亚丁景区曾被起诉

比亚迪已注册多枚璇玑关联商标

孙杨近30日掉粉1.8万

腾讯等入股神经接口研发商暖芯迦

刘晓艳已成立多家公司