![]()
这项由中国科学院大学、上海人工智能实验室和中国石油大学(北京)联合开展的研究发表于2026年5月的arXiv预印本平台,论文编号为arXiv:2605.15963v1,对应的研究成果包括一个名为PAGER的AI系统和一套名为PAGE Bench的测试基准。有兴趣深入探究的读者可以通过这个编号在arXiv网站上找到完整论文。
回想一下你上中学时做几何题的场景。老师在黑板上画一个三角形,标上A、B、C三个顶点,然后让你用圆规和直尺,根据题目要求画出垂直平分线、内切圆或者外接圆。这个过程看似简单,但每一步都必须精准——铅笔尖落下的位置稍微偏一点点,整张图就全错了。因为后续画的每一条线、每一个圆,都依赖于前面那些点的精确位置。
那么问题来了:如今的AI已经能写诗、画画、写代码,甚至能帮你订机票、订外卖,但它能像中学生一样,拿着鼠标在电脑上精确地画出一道几何题吗?这听起来好像不难——毕竟AI连复杂的图像都能生成,画几条线还能难倒它?但研究团队发现,答案出乎意料地令人沮丧:即使是目前最强大的AI模型,比如GPT-5.4、Claude-Sonnet-4.6、Gemini-3.1-Pro,在这种看似简单的任务上的成功率竟然连6%都不到。
一、 当AI遇上几何作图,问题出在哪里
要理解这项研究的意义,得先明白一件事:AI操作电脑这件事,其实已经发展得相当成熟了。现在的AI助手能帮你点击按钮、填写表格、浏览网页、打开应用程序。这种能力被研究者称为"GUI智能体",简单说就是能操控图形界面的AI。
但研究团队敏锐地指出了一个被大家忽视的问题。当AI点击一个网页上的"提交"按钮时,它其实并不需要精确地点到那个按钮的某个具体像素——按钮覆盖的整个区域,比如说2000个像素的范围,随便点哪里都算成功。这就好比你要按电梯按钮,手指碰到按钮的任何位置都能让电梯响应,误差范围相当宽容。研究者管这叫"区域容忍"的交互方式。
可几何作图完全不一样。当你要在画布上标记三角形的一个顶点时,那个点必须落在一个非常精确的位置——研究中规定的容差仅为3个像素。这就像让你用绣花针穿过一根头发丝的孔,根本不存在"差不多就行"的概念。更要命的是,几何作图存在一种叫做"依赖性"的特性:如果你画错了第一个点,那么所有以这个点为基础画出的线、圆、多边形,全都会跟着错位。一个小小的偏差,会像多米诺骨牌一样,让整个图形彻底崩塌。
研究团队给这种新型挑战起了一个名字,叫做"精度敏感型GUI任务"。这类任务要求AI不仅要理解该做什么,还要在连续的画布空间中做到点级别的精确操作,并且要能处理那种"一步错、步步错"的连锁反应。
二、 一个戳破皇帝新衣的实验
研究团队做了一件特别有意思的事情。他们让目前业界最顶尖的AI模型来挑战几何作图任务,结果发现了一个相当尴尬的现象,他们称之为"语义-执行鸿沟"。
什么意思呢?以Claude-Sonnet-4.6为例,它在判断"该执行什么类型的操作"上准确率高达95.85%,几乎完美。换句话说,AI完全知道"现在应该画一条线段"或者"现在应该画一个圆"。但当真正要把这条线段画到正确位置上时,整个任务的成功率却跌到了1.11%。GPT-5.4也类似——它知道该做什么的准确率是88.04%,但实际完成整道题的成功率只有0.56%。
打个比方,这就好比一位厨师非常清楚做红烧肉需要先切肉、再焯水、然后炒糖色、最后炖煮——每个步骤他都能准确说出来。但当真正下厨时,他切的肉块大小不一、糖色炒糊、火候掌握不准,最后端出来的菜根本不是红烧肉。AI在几何作图上的表现就是这样:它有完美的"理论知识",却缺乏精确的"动手能力"。
这个发现戳破了一个被很多人忽视的真相:现有的AI智能体之所以看起来无所不能,是因为它们工作的场景对精度要求不高。一旦面对真正需要精确操作的任务,它们就立刻露馅了。
三、 一个庞大的"几何作业本"
要研究这个问题,首先需要一套合适的测试题目。研究团队为此构建了一个名为PAGE Bench的测试基准,可以把它理解为一本超级详细的"AI几何作业本"。
这本作业本包含4906道几何题,分为训练用的4443道和测试用的463道。题目类型一半是选择题(占41.77%),一半是开放性问题(占58.23%)。研究者特意让开放性问题占多数,因为这类问题更需要真正去"画图",而不是简单地选个答案。
但这本作业本最特别的地方不在于题目数量,而在于它记录了每道题的完整"解题过程"。整个数据集包含53277个高级任务和224497个低级GUI动作。换算下来,平均每道几何题需要10.86个高级步骤和45.76个具体的鼠标键盘操作才能完成。在这些操作中,点击动作占47.73%,绘制动作占40.31%,输入文字占11.97%——也就是说,绝大多数操作都是需要精确空间定位的。
这些题目涵盖了从六年级到高中的各个年级,难度从入门到困难都有覆盖,其中中等和困难的题目占了94.11%。研究团队还把题目按照所需技能划分成了十个类别,包括把自然语言转换成几何工具的能力、基础几何对象构造能力、坐标系建模能力、几何关系处理能力、多步规划能力等等。平均每道题涉及5.16种技能,这意味着大多数题目需要综合运用多种能力才能解决。
构建这套数据的过程本身就像一个精密的流水线。研究团队先从公开的中小学多模态几何资源中收集候选题目,然后用AI模型筛选出那些能在GeoGebra软件中实际作图的题目,再经过人工审核排除那些定义不清或无法操作的问题。接着,他们用语言模型把每道题转化为一个有序的构造任务列表,然后将这些抽象的构造步骤映射成具体的浏览器操作——选择工具、点击位置、输入参数。在执行过程中,系统会记录每一步的截图、当前任务、之前的操作、执行是否成功、操作日志和下一步动作。对于点击操作,还会额外保存目标边界框、点击范围和归一化坐标,为后续的精度分析提供细粒度的空间证据。最后,再用语言模型对比记录的操作轨迹和最终渲染结果,过滤掉不一致的任务序列、失败的执行和几何上无效的构造。
四、 PAGER:一个会精确画图的AI
针对前面发现的问题,研究团队开发了一套名为PAGER的AI系统。这个名字是"精度感知几何推理"的英文缩写。整个系统的设计思路相当巧妙,可以用做家具来类比。
假设你要组装一个宜家书柜。一个新手可能会拿着说明书随便看几眼就开始动手,结果不是螺丝拧反了就是板子装错了。而一个经验丰富的师傅会先把所有零件分类摆好,画一张装配顺序图,搞清楚哪些步骤必须先做、哪些可以后做,然后再按部就班地组装。PAGER采用的就是这种"先规划、后执行"的策略。
系统的第一部分叫做"规划模块"。当它接收到一道几何题时,会先理解题目要求,识别出需要画哪些几何元素,分析这些元素之间的依赖关系,然后生成一个有序的子任务列表。比如要画一个有外接圆的三角形,规划模块就会知道必须先画三个顶点,再连接成三角形,最后才能画外接圆——顺序绝对不能乱。
第二部分是"任务执行模块",负责把每个子任务转换成具体的鼠标键盘操作。每一步操作都包含五个要素:对象类型、像素坐标、几何参数、颜色样式和标签位置。比如执行"画一个点"这个任务时,系统会输出:"选择'线段'工具;动作:点击;参数:[0.1711, 0.1764]"。
但仅有这样的架构还不够,关键在于如何训练PAGER掌握这种精确操作的能力。研究团队采用了两阶段的训练方法。
第一阶段叫做"像素级监督微调"。这个阶段就像让学徒跟着老师傅照本宣科地练习。系统拿到完整的标准解题轨迹,学习什么情况下该做什么操作。这一阶段能让AI掌握基本的操作语法和顺序,但有个问题:训练时看到的都是标准答案的截图,而实际使用时看到的是自己操作产生的截图。一旦自己操作时出现小偏差,画面就会和训练时见过的不一样,AI就容易越走越偏。
为了解决这个问题,研究团队引入了第二阶段——"精度对齐强化学习"。这就像让学徒在真实环境中独立练习,根据实际效果获得反馈。系统会自己生成一系列操作,然后根据三种奖励信号来调整:动作类型是否正确、参数精度如何、最终渲染出的几何图形是否有效。
具体来说,奖励机制是这样工作的。对于每一步操作,如果动作类型对了,就给一个基础奖励λa。然后根据参数的准确程度给额外奖励,使用指数衰减函数——参数越准,奖励越高。最后,整个图形的几何完整性也会被评估,与参考构造对比后给出全局奖励。这种多层次的奖励设计,让AI不仅学会做正确的动作,还要把动作做得足够精准,并且要保证整体几何结构的正确性。
五、 实验结果:一场实力悬殊的比拼
研究团队让PAGER和十几个其他AI模型同台竞技,结果相当令人瞩目。
在开源AI模型中,Qwen3-VL-8B(PAGER的基础模型)的综合得分只有5.80,DeepSeek-VL2得了7.17,GLM-4.5V得了9.37。这些数字本身就说明了开源模型在精度敏感任务上的薄弱。
闭源的顶级模型表现稍好一些,但也远未达到实用水平。Claude-Sonnet-4.6得分14.91,GPT-5.4得分14.28,阿里的Qwen3.6-Plus得分19.56,谷歌的Gemini-3.1-Pro得分24.36——这是所有通用AI模型中表现最好的。
而那些专门为GUI操作设计的智能体表现也不尽如人意。UI-TARS综合得分6.38,OS-ATLAS得分8.24,InfiGUI-R1-3B得分10.66。这些专门训练过的GUI智能体在精度敏感任务上的步骤成功率都低于9%,最强的GUI智能体也只达到16.18%。
而PAGER的综合得分达到了29.52,比表现最好的Gemini-3.1-Pro还高出5.15分,提升了21.1%。更惊人的是任务成功率指标——PAGER达到23.78%,是Gemini-3.1-Pro(5.82%)的4.1倍。在步骤成功率上,PAGER达到62.20%,而那些GUI专用智能体最高只有16.18%。
这些数字背后是一个重要的发现:通用AI模型的瓶颈不在于理解操作语义,而在于状态相关的参数控制和依赖步骤间的误差累积。换句话说,问题不是AI不知道该做什么,而是它做不准、做不稳。
为了验证设计的每个部分都有用,研究团队还做了消融实验,就是把PAGER的各个组件分别拆掉看看效果。单纯的监督微调版本(PAGER-SFT)就已经达到20.47分的综合得分,说明像素级的过程监督本身就很有效。如果只去掉参数准确性奖励,性能反而从20.47降到20.07,说明仅靠动作类型正确根本无法保证几何结构的正确。如果只去掉动作类型奖励,得分上升到24.52,说明连续空间的精度才是核心。当两种奖励都使用时,得分达到29.52,任务成功率从SFT的4.48%飙升到23.78%。这清楚地说明两种奖励是互补的——动作类型奖励稳定语义执行顺序,参数准确性奖励改善点级控制。
六、 一道具体的题目,一场鲜活的较量
光看数字可能不够直观,研究团队还展示了一个具体的案例对比。题目是:矩形ABCD的对角线相交于O点,∠AOB=60°,AB=2,求BC的长度。这道题需要准确放置四个顶点、画出对角线,并保持边长、角度和交点的各种约束关系。
正确答案要求画出一个矩形,四个顶点坐标分别为A(-1.75, 1.0)、B(-1.75, -1.02)、C(1.75, -1.02)、D(1.75, 1.0),两条对角线在原点O(0, 0)相交。
PAGER的表现接近完美。它给出的四个顶点坐标分别是A(-1.8, 1.0)、B(-1.88, -1.0)、C(1.8, -1.0)、D(1.8, 1.0),O(0, 0)。虽然有些微小的数值偏差,但整体构造出了一个几何上一致的矩形,边长关系合理,对角线在中心相交。
GPT-5.4的表现就有些尴尬了。它大致捕捉到了题目意图,但画出的四边形明显变形——顶点坐标分别是A(-2.0, 1.0)、B(-1.71, -0.92)、C(1.41, -1.02)、D(1.75, 1.0),还莫名其妙地多出了一个E点(1.75, -1.02)。整个图形不是规整的矩形,而且漏掉了一条关键的对角线。
Gemini-3.1-Pro的表现更让人意外。它的参数偏差更严重,早期的顶点错误传播到后续步骤,最终画出了一些无意义的长线段,完全破坏了矩形结构。它给出的坐标是A(-1.75, 1.0)、B(1.77, -1.02)、C(-7.25, 5.8)、D(-4.99, 1.82),O(0, 0)——明显C点和D点已经飞到画布外去了。
这个案例生动地说明了一件事:精确作图任务中的失败往往不是因为AI完全不理解题目,而是因为像素级参数不稳定、约束保持能力弱。即使是顶级AI模型,在严格几何约束下也会出现"参数漂移"的问题。
七、 与人类判断的一致性
研究团队还做了一项验证:他们的自动评分系统是否真的反映了图形的质量?为此,他们让人类专家也对各个模型的结果进行评分,然后计算两种评分之间的相关性。
结果令人欣慰:自动评分和人类评分之间的相关系数高达0.9397,这是一个非常高的相关性。大部分现有的多模态大语言模型,包括GPT-5.4和Gemini-3.1-Pro,都聚集在评分图的左下角——自动分数低,人类评分也低。而PAGER则独占右上角——自动分数高,人类评分也优异。
这个高相关性说明,PAGE Bench测量的是真实的几何有效性,而不是某种代理信号。换句话说,AI在这个基准上表现好,确实意味着它画出的图形在人类看来也是合格的。
八、 这项研究告诉了我们什么
回过头来看,这项研究最重要的贡献其实有三个层面。
首先,它揭示了AI能力评估中一个被忽视的盲点。多年来,我们一直用各种基准测试来评估AI的能力,得出了AI"接近人类水平"甚至"超越人类"的各种结论。但这项研究表明,当任务从"区域容忍"转向"点级精确"时,即使最强的AI模型也会立刻露出马脚。这提醒我们,AI的能力评估必须考虑任务的精度要求,不能一概而论。
其次,它提供了一个新的研究方向。研究团队提出的"精度敏感型GUI任务"概念,揭示了当前GUI智能体研究中的一个重要缺口。未来要让AI真正成为可靠的数字助手,特别是在CAD设计、图表编辑、科学可视化等需要精确操作的领域,这条研究路线不可或缺。
最后,它展示了一种解决方案。PAGER通过依赖结构化规划、像素级执行、像素级监督微调和精度对齐强化学习的组合,证明了即使是规模相对较小的8B参数模型,在专门设计的训练方法下,也能在精度敏感任务上超越规模大得多的通用模型。这对于资源有限的研究者和开发者来说是一个好消息。
研究团队也坦承了局限性。这项工作主要聚焦于GeoGebra风格的平面几何作图,对于其他精度敏感的界面,比如CAD软件、专业绘图工具、科学可视化平台等,可能需要额外的动作语法、环境适配器和有效性规则。但他们也指出,将相同的原则扩展到更广泛的领域是一个自然的研究方向。
说到底,这项研究让我们重新认识到一件事:AI的能力并不像我们以为的那样均衡。它在某些方面已经超越人类,但在另一些看似简单的任务上却依然力不从心。让计算机像中学生一样精确地画一道几何题,听起来微不足道,却揭示了人工智能发展中的一个真实挑战。当AI能够稳定地完成这类需要精确空间控制的任务时,它才能真正胜任那些专业领域的工作——从工程设计到医学影像,从科学实验到艺术创作。
下次当你用电脑画图、设计或做几何作业时,不妨想想:如果让AI替你做这件事,它真的能做得比你好吗?这个问题的答案,可能比你想象的更复杂。如果你对这项研究感兴趣,可以通过arXiv编号arXiv:2605.15963v1查阅完整论文,里面还有许多本文未能详尽展开的技术细节和实验数据。
Q&A
Q1:PAGE Bench测试的是什么类型的AI能力?
A:PAGE Bench测试的是AI在精度敏感型GUI任务上的能力,特别是几何作图。它包含4906道几何题、53277个高级任务和224497个低级GUI动作,要求AI在GeoGebra画布上精确地画出点、线、圆、多边形等几何元素,容差仅为3像素。这与传统GUI测试不同,因为传统测试只要求AI点击到正确的按钮区域即可,而几何作图需要点级别的精确操作。
Q2:为什么GPT-5.4、Claude等顶级AI模型在几何作图上表现这么差?
A:研究发现了一个叫做"语义-执行鸿沟"的现象。这些顶级AI模型能准确判断该执行什么操作(Claude-Sonnet-4.6动作类型准确率达95.85%),但实际把操作做精确的能力很弱(任务成功率仅1.11%)。问题不在于AI不理解题目,而在于它无法在连续画布空间中保持精确参数控制,加上几何作图存在依赖性,早期的小偏差会像多米诺骨牌一样传播到后续步骤,最终导致整个图形崩塌。
Q3:PAGER是怎么解决精确作图问题的?
A:PAGER采用"先规划、后执行"的两层架构。规划模块先分析题目的几何依赖关系,生成有序的子任务列表;执行模块再将每个子任务转换为具体的鼠标键盘操作。训练上采用两阶段策略:先用像素级监督微调让AI掌握基本操作语法,再用精度对齐强化学习让AI在实际操作中获得反馈。奖励机制同时考虑动作类型正确性、参数精度和最终几何有效性。最终PAGER的任务成功率达到23.78%,是最强通用AI模型的4.1倍。





京公网安备 11011402013531号