仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

IP属地中国·北京 新智元 时间：2025-11-08 20:11:23

新智元报道
编辑：LRST
加州大学河滨分校团队发现，AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法，挖掘模型潜力，使GPT-4.1在Winoground测试中首次超越人类，0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在，只需合适方法在测试阶段解锁。
前沿的人工智能模型虽然在众多任务上取得了显著进展，但研究发现，它们在组合推理 (compositional reasoning) 方面仍表现不佳，在多个经典基准测试上甚至低于随机猜测水平。
加州大学河滨分校Yinglun Zhu研究团队重新审视了这一问题，发现其根源之一在于评测指标本身——它系统性地低估了模型的真实能力。

博客链接：https://yinglunz.com/blogs/ttm.html
论文链接：https://arxiv.org/pdf/2510.07632
代码链接：https://github.com/yinglunz/test-time-matching
团队据此提出了新的GroupMatch指标，能够挖掘被现有评测掩盖的潜在能力，使GPT-4.1首次在Winoground基准测试上超越人类表现。
基于这一洞见，团队进一步提出一种无需外部监督、能够自我改进的迭代算法Test-Time Matching（TTM），可在模型推理阶段显著提升性能。
得益于TTM，仅0.2B参数的SigLIP-B16就在MMVP-VLM基准测试上超越了GPT-4.1，刷新了当前最优结果。
研究背景
组合推理（compositional reasoning）体现了AI是否具备「举一反三」的能力——能否将对象、属性和关系重新组合，去理解新的情境。
像Winoground这样的基准测试通过2×2群组设计来考察这种能力：其中两条文本用词相同但顺序不同，每条只对应其中一张图像。
尽管这些模型在多模态任务中表现出强大能力，但对比式视觉语言模型（VLMs）和多模态大语言模型（MLLMs）在这类基准测试中表现依然有限。
在Winoground基准测试上，即便是前沿模型的得分也远低于人类水平（约85.5分）；
此前的最佳结果仅为58.75，且是通过对GPT-4V进行scaffolding和prompt tuning实现的。
重新审视评测指标
从随机猜测到群组匹配
加州大学河滨分校（UCR）研究团队发现，模型在组合推理任务中的低分，部分源自评测指标本身。
当前广泛使用的GroupScore指标过于严格：它要求每张图像都与正确的文本匹配、每段文本也与正确的图像匹配，但并不检查整个群组的全局一致性。
只要有一次错配，整组得分就会被判为0。
假设每组包含k张图像和k条文本描述，GroupScore只逐一检查图像与文本之间的匹配情况，而忽略整体关系。
在随机匹配下，成功率仅为 (k−1)! / (2k−1)!；当k = 2时，这个概率只有六分之一。
为解决这一问题，团队提出了新的GroupMatch指标，用于评估群组内的整体最优匹配，而不是孤立的成对比较。
GroupMatch会考虑所有可能的匹配方式（共k!种），并选择最可能的那一个。
这样，在随机猜测下的成功率提升为1 / k!——当k = 2时为二分之一，比原来的六分之一大幅提高。
更关键的是，如果模型能在GroupMatch下找到正确匹配，只需在测试阶段对该匹配进行过拟合，就能在原始GroupScore下获得满分。
基于这一发现，团队提出了一个简单的SimpleMatch两步法：
1. 使用 GroupMatch 选择最可能的匹配；
2. 在测试阶段对该匹配进行过拟合。

如上图所示，SimpleMatch揭示了模型中大量「被隐藏」的潜力——它让仅有0.2B参数的SigLIP-B16超越了此前所有结果，并使GPT-4.1首次在Winoground上超过人类表现。
Test-Time Matching
在测试阶段自我迭代提升模型能力
为进一步提升模型表现，UCR研究团队提出了一种无需外部监督、能够自我改进的迭代算法Test-Time Matching (TTM)。
每次迭代包括三个步骤：
1. 模型对所有群组进行匹配预测；
2. 仅保留置信度高的匹配（即得分差距超过阈值）作为伪标签，并在这些伪标签上自我微调；
3. 随着迭代进行，逐步放宽阈值，以纳入更多样本。
TTM的核心在于两点：
1. 基于GroupMatch的伪标签能更有效地利用群组结构，提供更强的监督信号；
2. 阈值的逐步衰减机制让模型先从高置信数据学习，再逐步扩展覆盖范围。
这一算法可以看作测试时训练 (test-time training) 的一种形式，结合了自训练 (self-training)、半监督学习 (semi-supervised learning) 和主动学习 (active learning) 的思想。
从实验结果来看，TTM在多个数据集和模型上都稳定优于 SimpleMatch：相对性能提升最高可达 10.5%，相对错误率下降54.8%
值得注意的是，TTM让SigLIP-L16在ColorSwap数据集上提升至GPT-4.1的水平，并使SigLIP-B16（仅0.2B参数）在MMVP-VLM上超越GPT-4.1，刷新了当前最优结果。

TTM的广泛适用性
虽然前面的结果主要基于方形群组（k×k）的组合推理任务，但TTM同样适用于矩形群组，甚至是没有群组结构的数据集。
指标变化不带来提升的情况
在只有1×k结构的群组中，GroupMatch与GroupScore等价，因此单纯更换指标并不会改进结果。
即便如此，TTM在SugarCrepe和WhatsUp等数据集上依然带来了显著提升，其中在WhatsUp上的相对增幅高达85.7%，让原本困难的任务变得可解。

无群组结构的情况
TTM还能将整个数据集视为一个全局的「图像-文本匹配问题」（assignment problem），并在多项式时间内求解。
即使将Winoground、MMVP-VLM和ColorSwap等数据集全部「打平」为无群组结构，TTM依然能显著提升表现，最高可带来33.3%的相对错误率下降。

讨论与展望
UCR研究团队重新审视了多模态模型在组合推理上的长期难题，指出：许多被认为的「失败」，其实源自评测指标的局限。
团队提出的GroupMatch指标与Test-Time Matching (TTM) 算法表明，模型的组合推理能力早已存在——只需要在测试阶段，用合适的方法将其「解锁」。
在覆盖16个不同数据集变体的系统实验中，TTM在多种设置下都展现出稳定而显著的改进，推动了多模态推理研究的前沿进展。
展望未来，团队认为有两个方向值得进一步探索：
重新思考模型评估：同一个模型在不同指标下可能表现出截然不同的能力，这提醒我们需要建立更稳健、更统一的评测框架。
将TTM推广至组合推理之外：虽然TTM起源于组合推理，但它的核心思想——在测试阶段进行匹配式自训练——具有普适性。该思路有望在更广泛的多模态和语言任务中发挥作用，推动AI模型迈向真正的「自适应、自进化」。
参考资料：
https://arxiv.org/pdf/2510.07632

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

手机厂商AI竞速：有人押注云端大脑，有人布局机器人未来

MG07设计引争议，陈萃坦言“抄”自家老车，是传承致敬还是另有隐情？

iOS 27 第二个开发者测试版似乎暗示了一款新的苹果产品

工业互联网深度下沉，中小工厂全面数字化转型

腾讯阿里百度都来助力可灵，能和字节的seedance掰手腕吗？

浙大校友再战IPO！做半导体“保安”年入18亿，比亚迪、海康威视都下单

全站最新

手机厂商AI竞速：有人押注云端大脑，有人布局机器人未来

MG07设计引争议，陈萃坦言“抄”自家老车，是传承致敬还是另有隐情？

保时捷北京品牌空间启幕：从经典356到个性定制，解锁跑车文化新体验

辅助驾驶“责任竞争”白热化谁能让用户零成本畅享权益成关键

热门推荐

茶颜悦色在武汉成立新公司

手机厂商AI竞速：有人押注云端大脑，有人布局机器人未来

MG07设计引争议，陈萃坦言“抄”自家老车，是传承致敬还是另有隐情？

iOS 27 第二个开发者测试版似乎暗示了一款新的苹果产品

工业互联网深度下沉，中小工厂全面数字化转型

腾讯阿里百度都来助力可灵，能和字节的seedance掰手腕吗？

浙大校友再战IPO！做半导体“保安”年入18亿，比亚迪、海康威视都下单

彭博：为什么全球机场无法关闭吸烟休息室

李飞飞、Jim Fan、徐丹飞联手，给具身智能指了一条新路

别想用软色情做智能体的跳板

别争了！香农老婆，才是世界上第一个大语言模型

丰田将借助AI把各部门4.5万个专业术语精简至5000个

华为：截至目前，搭载乾崑智驾的车辆已超过190万辆

vivo X Fold6折叠屏手机首销情况曝光，同期约为上一代的90%

清华特奖获得者顾煜贤，加入DeepSeek