当前位置: 首页 » 资讯 » 科技头条 » 正文

切斯特理工学院SPHINX:AI实现复杂视觉推理

IP属地 中国·北京 科技行者 时间:2025-11-28 22:09:43


在人工智能领域,有一个让研究者们头疼不已的问题:虽然AI在文字理解和逻辑推理方面已经表现得相当出色,甚至能在国际数学奥林匹克竞赛中获得金牌,但一旦涉及到需要"看图说话"的视觉推理任务,这些聪明的AI就开始犯糊涂了。就像一个在纸上谈兵方面无所不能的战略家,却在实际观察战场形势时束手无策。

这项由罗切斯特理工学院的Md Tanvirul Alam领导,联合华盛顿大学Justin Yang Chae共同完成的突破性研究,于2025年11月发表在arXiv预印本平台(论文编号:arXiv:2511.20814v1),为解决这个难题提供了一个全新的解决方案。研究团队开发了一个名为SPHINX的合成环境系统,专门用来训练和测试AI的视觉感知与推理能力。

SPHINX这个名字很有深意,它来源于古埃及神话中那个以谜语考验路人的狮身人面像。就像古老的斯芬克斯会用复杂的谜题挑战智者一样,现代的SPHINX系统也在用各种视觉推理谜题考验着最先进的AI模型。研究结果令人深思:即使是目前最强大的GPT-5,在这些看似简单的视觉推理任务上也只能达到51.1%的准确率,远低于人类75.4%的平均表现。

这项研究的创新之处在于,它不是简单地收集现有的视觉问题,而是创建了一个能够无限生成各种视觉推理题目的"题库生成器"。这就像建造了一座永不枯竭的智力挑战工厂,能够源源不断地产生新的测试题目,每道题都有标准答案,确保评估结果的准确性和公正性。

一、SPHINX的独特设计理念:像搭积木一样构建视觉推理题目

SPHINX系统的核心理念可以用搭积木来比喻。传统的视觉推理测试往往是固定的题目集合,就像买来的现成拼图,数量有限且无法变化。而SPHINX则更像一套万能积木系统,包含了各种形状、颜色和图案的基础组件,可以按照不同的规则组合成无穷无尽的新图案。

这套"积木系统"包含三个核心组件。首先是"基础图形块",研究团队称之为Motifs,包含25种不同类型的基本视觉元素,从简单的圆形、三角形,到复杂的星形多边形、新月形,甚至包括时钟、齿轮等日常物品的图形化表示。每种图形都可以调整大小、颜色、角度等属性,就像可以变换颜色和大小的魔法积木。

第二个组件是"画布模板",也就是Tilings系统。这相当于为积木提供不同的拼装底板,包括方形网格、三角形网格、六边形网格等五种不同的几何排列方式。就像同样的乐高积木可以拼在不同形状的底板上,创造出完全不同的作品一样,相同的图形元素在不同的画布上会产生截然不同的视觉效果。

第三个组件是"游戏规则",即Tasks系统,定义了25种不同类型的视觉推理挑战。这些规则就像不同的游戏玩法,比如"找对称"游戏要求识别图案的对称性,"数图形"游戏要求计算特定形状的数量,"找规律"游戏要求预测序列中的下一个图案。

这种模块化设计的妙处在于,三个组件可以自由组合,产生几乎无限多的题目变化。研究团队巧妙地将视觉外观、空间布局和推理规则完全分离开来,这样就能系统性地控制题目的难度和类型,同时确保每道题都有明确唯一的正确答案。

二、五大类视觉推理挑战:从几何计算到抽象思维

SPHINX系统设计的25种任务可以归纳为五个主要类别,每一类都对应着人类视觉推理的不同能力层面。

几何推理类任务主要考验AI对空间关系和几何属性的理解能力。比如位置计数任务,要求计算有多少个小图形位于大图形的内部、外部或特定位置关系中。这就像在一张复杂的地图上数房子一样,需要准确理解空间位置关系。形状排序任务则要求按照面积、周长或角度大小对几何图形进行排列,类似于按大小整理不同的盘子或按重量排列不同的包裹。

计数类任务专门测试AI的精确计数能力,这看起来简单,实际上对机器来说相当具有挑战性。韦恩图任务要求计算重叠区域中数字的总和,就像计算不同圈子里共同好友的数量。图形计数任务要求统计复杂图形中包含的子图形数量,比如数一数由多个三角形组成的大图形中究竟有多少个三角形,这需要系统性的观察和计算能力。

对称性与模式识别类任务考验的是AI对规律性和对称性的敏感度。镜像识别任务要求判断图像具有哪种类型的对称性,就像识别一朵花是否左右对称或上下对称。对称填充任务则给出一个2×2网格,要求选择合适的图块来完成特定的对称模式,这类似于完成一个对称的拼图游戏。

序列与变换推理类任务模拟的是时间序列中的逻辑推理。变换结果识别要求预测对图形施加特定变换(如旋转、翻转)后的结果,就像心理旋转测试一样。序列旋转任务展示一系列按固定角度旋转的图形,要求预测序列中缺失的那一个,这考验的是对连续变化模式的理解能力。

拓扑与图论推理类任务涉及连通性、路径和网络结构的推理。最短路径任务要求在有障碍物的网格中找到两点间的最短路径,就像在迷宫中寻找出路。连通组件任务要求分析颜色相同的相邻格子组成了多少个独立的区域,类似于分析一张地图上有多少个独立的湖泊或森林。

三、令人意外的测试结果:AI的"视觉盲点"暴露无遗

研究团队使用SPHINX系统对当前最先进的视觉-语言模型进行了全面测试,结果令人深思。即使是被誉为最强大的GPT-5,在这些视觉推理任务上也只能达到51.1%的准确率,这意味着它的表现甚至不如随机猜测在某些多选题中的效果。相比之下,参与测试的人类用户平均准确率达到75.4%,显示出人类在视觉推理方面仍然保持着显著优势。

更有趣的是,不同类型任务之间的难度差异揭示了AI视觉理解的具体弱点。在几何推理类任务中,GPT-5表现相对较好,达到74%的准确率,这表明它在处理空间关系和几何属性方面有一定能力。然而在计数类任务中,准确率急剧下降到36.6%,暴露了AI在精确计数方面的严重不足。

最让研究者们感到意外的是,在一些看似简单的任务中,AI的表现反而更差。比如瓷砖线长度测量任务,要求计算彩色线条沿着网格边缘的长度,人类可以轻松达到86.4%的准确率,而GPT-5却只有14%的准确率。这就像一个能够解决复杂数学方程的天才,却在数格子这样的基础任务上频频出错。

相反,在图形计数任务中,GPT-5的表现(76%)竟然超过了人类(55.2%)。研究团队分析认为,这可能是因为AI在进行系统性计算时不会像人类那样因为注意力分散或记忆限制而出错,但前提是它必须正确理解视觉信息的基础结构。

人类测试者的表现也展现出有趣的规律。研究发现,参与者对这类视觉推理任务的熟悉程度与准确率之间存在强烈的正相关关系。那些自报对视觉推理任务很熟悉的参与者准确率可达88%,而完全不熟悉的参与者只能达到65.2%。这提示了经验和训练在视觉推理能力发展中的重要作用。

四、强化学习的救赎之路:让AI在试错中成长

面对AI在视觉推理方面的明显不足,研究团队尝试了一种名为"可验证奖励强化学习"(RLVR)的训练方法来改善模型性能。这种方法的核心思想是让AI在大量练习中逐步提高,就像一个学生通过不断做习题来提高解题能力。

强化学习训练的关键优势在于SPHINX系统能够自动生成无限多的练习题,并为每道题提供标准答案。这创造了一个完美的训练环境:AI可以尝试解答各种类型的视觉推理题目,每次回答后立即获得正确与否的反馈,然后调整自己的答题策略。这个过程就像一个永不疲倦的家教在旁边指导,确保每一次错误都能转化为学习的机会。

研究团队选择了四个不同规模的开源模型进行强化学习训练,分别是Qwen2.5-VL系列的3B和7B参数版本,以及Qwen3-VL系列的4B和8B参数版本。训练过程持续500轮,每轮都会生成多个候选答案,然后通过比较这些答案的质量来指导模型改进。

训练结果令人鼓舞。经过强化学习训练的模型在原有测试任务上都显现出明显改进,特别是在训练时见过的20种任务类型中,所有模型都获得了substantial gains。更重要的是,这种改进还能迁移到训练时从未见过的5种新任务类型中,虽然改进幅度有所降低,但仍然表现出可观的泛化能力。

五、意外发现:AI的计数困难与推理能力的深层联系

在对训练前后AI模型表现的详细分析中,研究团队发现了一些颇具启发性的模式。最引人注目的发现是,AI在视觉推理中的主要困难并不在于缺乏逻辑推理能力,而在于无法准确提取和计数视觉信息。

以图形计数任务为例,研究团队发现GPT-5经常能够产生清晰、合乎逻辑的推理步骤,比如系统性地枚举所有可能的子图形,按大小或类型进行分类,然后逐步累加总数。然而,这些逻辑上完全正确的推理过程经常建立在错误的视觉观察基础上。AI可能会错误地报告图形中有5行而不是4行,或者数错了平行线的数量,导致最终答案虽然逻辑严密但结果错误。

这种现象就像一个计算能力超强的会计师,能够进行复杂的财务计算和分析,但却经常看错账单上的基础数字,导致最终报告完全错误。这提示了当前视觉-语言模型的一个关键局限:它们在高层推理和低层感知之间存在着明显的能力不匹配。

另一个有趣的发现是不同任务之间的难度对比反映了人机认知差异。对称性识别任务对人类来说相对简单,因为人类视觉系统天生对对称性敏感,这可能源于进化过程中识别面部和身体的需要。然而对AI来说,对称性识别需要精确的几何计算和比较,反而比一些看似复杂的逻辑推理任务更困难。

六、SPHINX的更深层意义:重新定义AI能力评估标准

SPHINX系统的价值远远超出了单纯的模型测试。它代表了AI能力评估方法的一个重要转变:从依赖有限的静态测试集转向动态生成的无穷测试空间。

传统的AI评估往往使用固定的基准测试集,这些测试集虽然标准化程度高,但存在一个根本性问题:AI模型可能会"背答案"而不是真正理解问题。就像一个学生如果事先知道考试题目,可能会表现得比实际能力更好,但这种表现并不代表真实的理解水平。

SPHINX的程序化生成机制彻底解决了这个问题。由于题目是实时生成的,且数量几乎无限,AI模型不可能提前"见过"所有题目,因此测试结果更能反映真实的推理能力。这就像一个能够出无限多道数学题的智能出题系统,每次考试都有新题目,确保测试的是真实的数学理解能力而不是记忆力。

更重要的是,SPHINX的模块化设计使研究者能够系统性地分析AI的能力边界。通过调整不同的参数组合,研究者可以精确定位AI在哪些具体方面表现良好,在哪些方面仍有不足。这种精细化的分析有助于指导未来AI系统的改进方向。

七、强化学习训练的意外收获:缩短回答但提高准确性

在强化学习训练过程中,研究团队观察到了一个意外而有趣的现象:经过训练的模型不仅准确率提高了,回答也变得更加简洁。这个发现颠覆了"更长的解释意味着更好的推理"的常见假设。

训练前的模型往往会产生冗长、详细的解释,包含大量看似合理但实际上可能有误的推理步骤。训练后的模型学会了更直接、更准确地回答问题,减少了不必要的赘述。这就像一个经验丰富的医生能够快速准确地诊断病情,而不需要像医学生那样罗列所有可能的症状和检查项目。

这种变化可能反映了模型对任务理解的深化。当AI真正掌握了视觉推理的要领时,它就能够更高效地处理问题,而不需要通过冗长的"思考过程"来掩盖不确定性。这也为评估AI推理质量提供了一个新的指标:在准确率相同的情况下,更简洁的回答可能表明更深层的理解。

八、跨领域测试验证:SPHINX训练效果的广泛适用性

为了验证SPHINX训练是否只是在特定任务上的过拟合,研究团队在八个不同的外部视觉推理基准上测试了训练后的模型。这些基准包括MathVista(数学视觉推理)、MathVision(数学问题理解)、MathVerse(数学文本理解)、LogicVista(逻辑推理)、BLINK(视觉感知)、MMT-Bench(多模态任务)、MMVP(多模态视觉推理)和VStarBench(视频推理)。

结果显示,经过SPHINX训练的模型在这些外部测试中也表现出了一致的改进,虽然改进幅度相对较小,但覆盖面很广。在32个模型-测试组合中,有26个显示出性能提升,只有3个出现下降,其余保持不变。这种广泛的改进说明SPHINX训练确实增强了模型的通用视觉推理能力,而不只是针对特定任务的优化。

特别值得注意的是,改进幅度与基础模型的强度呈正相关关系。Qwen3-VL-8B作为四个测试模型中最强的基础模型,获得了最大的平均改进幅度(+2.8%)。这提示了一个重要趋势:更强的预训练模型可能更能够从强化学习训练中受益,这为未来更大规模模型的训练提供了有希望的方向。

九、技术实现细节:构建可扩展的视觉推理测试平台

SPHINX系统的技术实现体现了软件工程中模块化设计的最佳实践。整个系统采用了三层解耦的架构设计,每一层都可以独立修改和扩展,而不影响其他层的功能。

底层的Motifs系统实现了25种参数化的视觉图形生成器。每个生成器都像一个可调节的图形工厂,能够根据输入参数产生无限变化的图形实例。比如圆弧生成器可以调节圆心位置、半径、起始角度、扫描角度等参数,产生从完整圆形到各种弧形的变化。这种参数化设计确保了图形变化的可控性和系统性。

中层的Tilings系统提供了统一的几何画布接口。无论是方形网格、三角形网格还是六边形网格,都通过相同的接口提供顶点、单元格和邻接关系信息。这种标准化接口使得上层的任务系统可以无差别地在不同几何结构上操作,大大简化了任务实现的复杂度。

顶层的Tasks系统定义了25种不同的视觉推理挑战类型。每种任务都实现为一个独立的类,包含题目生成、答案计算、选项生成和答案验证等完整功能。这种面向对象的设计使得添加新任务类型变得相当简单,只需要继承基础任务类并实现特定的逻辑即可。

十、人类测试的启发性发现:熟悉度决定推理能力

在人类基准测试中,研究团队收集了32名参与者的完整测试数据,包括每个问题的回答时间、正确性和主观难度评分。这些数据揭示了人类视觉推理能力的一些有趣特征。

最重要的发现是熟悉度与表现之间的强烈正相关关系。那些自报对视觉推理任务"非常熟悉"的参与者平均准确率达到88%,而"完全不熟悉"的参与者只有65.2%。这种巨大差异提示了经验和训练在视觉推理能力发展中的关键作用。

不同任务类型的人类表现也展现出认知心理学的有趣模式。对称性相关任务的准确率分布很大,从简单的镜像识别(高准确率)到复杂的Frieze群识别(48.4%的最低准确率)。这种差异反映了人类视觉系统的层次化处理特性:基础的对称性检测是自动化的,但复杂的对称性分类需要有意识的分析处理。

时间分析数据也很有启发性。需要mental rotation(心理旋转)的任务,如瓷砖组合题,不仅准确率较低,平均回答时间也最长,这与认知心理学中关于空间推理认知负荷的经典研究结果高度一致。

说到底,SPHINX项目为我们揭示了一个重要的现实:当前最先进的AI在视觉推理方面仍然存在根本性的不足。虽然这些模型在文字推理和知识问答方面已经达到甚至超越人类水平,但在需要"眼脑并用"的综合任务中,它们的表现仍然落后于普通人类。

这个发现对AI发展具有深远意义。它提醒我们,真正的人工智能不仅需要强大的语言理解能力,更需要准确的视觉感知和空间推理能力。SPHINX系统提供了一个宝贵的工具,让研究者能够系统性地诊断和改进AI的视觉推理能力。

更令人鼓舞的是,强化学习训练显示出了改进的可能性。虽然目前的改进幅度还不足以完全缩小人机差距,但这种训练方法的有效性为未来的发展指明了方向。随着更大规模模型和更先进训练方法的出现,我们有理由相信AI在视觉推理方面的表现将会持续改善。

对于普通人来说,这项研究提醒我们,人类的视觉推理能力仍然是独特而宝贵的。在AI快速发展的时代,那些需要综合运用视觉感知、空间想象和逻辑推理的能力仍然是人类的相对优势领域。同时,SPHINX这样的研究工具也为教育和训练提供了新的可能性,或许未来我们可以用类似的系统来帮助学生提高视觉推理能力。

有兴趣深入了解技术细节的读者可以通过arXiv:2511.20814v1查阅完整论文,研究团队也在GitHub上开源了SPHINX系统的代码和数据集,为更广泛的研究社区提供了宝贵的资源。

Q&A

Q1:SPHINX系统是什么,它是如何工作的?

A:SPHINX是罗切斯特理工学院开发的AI视觉推理测试系统。它像一个智能题库生成器,能无限产生各种视觉推理题目。系统包含25种基础图形、5种画布布局和25种推理任务,通过自由组合创造出几乎无限的测试题目,每题都有标准答案,专门用来测试和训练AI的视觉推理能力。

Q2:为什么GPT-5这样的先进AI在SPHINX测试中表现不好?

A:GPT-5在SPHINX测试中只有51.1%准确率,主要问题不在逻辑推理能力,而在视觉信息提取。AI经常能产生完美的推理步骤,但基础视觉观察出错,比如数错图形数量或看错颜色,导致逻辑正确但答案错误。这就像计算专家看错了基础数据,再精密的计算也无济于事。

Q3:强化学习训练能让AI的视觉推理能力提高多少?

A:经过强化学习训练后,AI模型在SPHINX任务中普遍获得显著改进,训练过的任务准确率提升5-17%不等,甚至在未见过的新任务中也有2-8%的提升。更重要的是,这种改进还能迁移到其他视觉推理基准测试中,显示出通用性的提升,证明训练确实增强了真实的推理能力。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。