当电脑学会用尺规作图：中国科学院团队让AI真正"画"出几何题

IP属地中国·北京 科技行者 时间：2026-05-22 22:15:41

这项由中国科学院大学、上海人工智能实验室和中国石油大学（北京）联合开展的研究发表于2026年5月的arXiv预印本平台，论文编号为arXiv:2605.15963v1，对应的研究成果包括一个名为PAGER的AI系统和一套名为PAGE Bench的测试基准。有兴趣深入探究的读者可以通过这个编号在arXiv网站上找到完整论文。
回想一下你上中学时做几何题的场景。老师在黑板上画一个三角形，标上A、B、C三个顶点，然后让你用圆规和直尺，根据题目要求画出垂直平分线、内切圆或者外接圆。这个过程看似简单，但每一步都必须精准——铅笔尖落下的位置稍微偏一点点，整张图就全错了。因为后续画的每一条线、每一个圆，都依赖于前面那些点的精确位置。
那么问题来了：如今的AI已经能写诗、画画、写代码，甚至能帮你订机票、订外卖，但它能像中学生一样，拿着鼠标在电脑上精确地画出一道几何题吗？这听起来好像不难——毕竟AI连复杂的图像都能生成，画几条线还能难倒它？但研究团队发现，答案出乎意料地令人沮丧：即使是目前最强大的AI模型，比如GPT-5.4、Claude-Sonnet-4.6、Gemini-3.1-Pro，在这种看似简单的任务上的成功率竟然连6%都不到。
一、当AI遇上几何作图，问题出在哪里
要理解这项研究的意义，得先明白一件事：AI操作电脑这件事，其实已经发展得相当成熟了。现在的AI助手能帮你点击按钮、填写表格、浏览网页、打开应用程序。这种能力被研究者称为"GUI智能体"，简单说就是能操控图形界面的AI。
但研究团队敏锐地指出了一个被大家忽视的问题。当AI点击一个网页上的"提交"按钮时，它其实并不需要精确地点到那个按钮的某个具体像素——按钮覆盖的整个区域，比如说2000个像素的范围，随便点哪里都算成功。这就好比你要按电梯按钮，手指碰到按钮的任何位置都能让电梯响应，误差范围相当宽容。研究者管这叫"区域容忍"的交互方式。
可几何作图完全不一样。当你要在画布上标记三角形的一个顶点时，那个点必须落在一个非常精确的位置——研究中规定的容差仅为3个像素。这就像让你用绣花针穿过一根头发丝的孔，根本不存在"差不多就行"的概念。更要命的是，几何作图存在一种叫做"依赖性"的特性：如果你画错了第一个点，那么所有以这个点为基础画出的线、圆、多边形，全都会跟着错位。一个小小的偏差，会像多米诺骨牌一样，让整个图形彻底崩塌。
研究团队给这种新型挑战起了一个名字，叫做"精度敏感型GUI任务"。这类任务要求AI不仅要理解该做什么，还要在连续的画布空间中做到点级别的精确操作，并且要能处理那种"一步错、步步错"的连锁反应。
二、一个戳破皇帝新衣的实验
研究团队做了一件特别有意思的事情。他们让目前业界最顶尖的AI模型来挑战几何作图任务，结果发现了一个相当尴尬的现象，他们称之为"语义-执行鸿沟"。
什么意思呢？以Claude-Sonnet-4.6为例，它在判断"该执行什么类型的操作"上准确率高达95.85%，几乎完美。换句话说，AI完全知道"现在应该画一条线段"或者"现在应该画一个圆"。但当真正要把这条线段画到正确位置上时，整个任务的成功率却跌到了1.11%。GPT-5.4也类似——它知道该做什么的准确率是88.04%，但实际完成整道题的成功率只有0.56%。
打个比方，这就好比一位厨师非常清楚做红烧肉需要先切肉、再焯水、然后炒糖色、最后炖煮——每个步骤他都能准确说出来。但当真正下厨时，他切的肉块大小不一、糖色炒糊、火候掌握不准，最后端出来的菜根本不是红烧肉。AI在几何作图上的表现就是这样：它有完美的"理论知识"，却缺乏精确的"动手能力"。
这个发现戳破了一个被很多人忽视的真相：现有的AI智能体之所以看起来无所不能，是因为它们工作的场景对精度要求不高。一旦面对真正需要精确操作的任务，它们就立刻露馅了。
三、一个庞大的"几何作业本"
要研究这个问题，首先需要一套合适的测试题目。研究团队为此构建了一个名为PAGE Bench的测试基准，可以把它理解为一本超级详细的"AI几何作业本"。
这本作业本包含4906道几何题，分为训练用的4443道和测试用的463道。题目类型一半是选择题（占41.77%），一半是开放性问题（占58.23%）。研究者特意让开放性问题占多数，因为这类问题更需要真正去"画图"，而不是简单地选个答案。
但这本作业本最特别的地方不在于题目数量，而在于它记录了每道题的完整"解题过程"。整个数据集包含53277个高级任务和224497个低级GUI动作。换算下来，平均每道几何题需要10.86个高级步骤和45.76个具体的鼠标键盘操作才能完成。在这些操作中，点击动作占47.73%，绘制动作占40.31%，输入文字占11.97%——也就是说，绝大多数操作都是需要精确空间定位的。
这些题目涵盖了从六年级到高中的各个年级，难度从入门到困难都有覆盖，其中中等和困难的题目占了94.11%。研究团队还把题目按照所需技能划分成了十个类别，包括把自然语言转换成几何工具的能力、基础几何对象构造能力、坐标系建模能力、几何关系处理能力、多步规划能力等等。平均每道题涉及5.16种技能，这意味着大多数题目需要综合运用多种能力才能解决。
构建这套数据的过程本身就像一个精密的流水线。研究团队先从公开的中小学多模态几何资源中收集候选题目，然后用AI模型筛选出那些能在GeoGebra软件中实际作图的题目，再经过人工审核排除那些定义不清或无法操作的问题。接着，他们用语言模型把每道题转化为一个有序的构造任务列表，然后将这些抽象的构造步骤映射成具体的浏览器操作——选择工具、点击位置、输入参数。在执行过程中，系统会记录每一步的截图、当前任务、之前的操作、执行是否成功、操作日志和下一步动作。对于点击操作，还会额外保存目标边界框、点击范围和归一化坐标，为后续的精度分析提供细粒度的空间证据。最后，再用语言模型对比记录的操作轨迹和最终渲染结果，过滤掉不一致的任务序列、失败的执行和几何上无效的构造。
四、 PAGER：一个会精确画图的AI
针对前面发现的问题，研究团队开发了一套名为PAGER的AI系统。这个名字是"精度感知几何推理"的英文缩写。整个系统的设计思路相当巧妙，可以用做家具来类比。
假设你要组装一个宜家书柜。一个新手可能会拿着说明书随便看几眼就开始动手，结果不是螺丝拧反了就是板子装错了。而一个经验丰富的师傅会先把所有零件分类摆好，画一张装配顺序图，搞清楚哪些步骤必须先做、哪些可以后做，然后再按部就班地组装。PAGER采用的就是这种"先规划、后执行"的策略。
系统的第一部分叫做"规划模块"。当它接收到一道几何题时，会先理解题目要求，识别出需要画哪些几何元素，分析这些元素之间的依赖关系，然后生成一个有序的子任务列表。比如要画一个有外接圆的三角形，规划模块就会知道必须先画三个顶点，再连接成三角形，最后才能画外接圆——顺序绝对不能乱。
第二部分是"任务执行模块"，负责把每个子任务转换成具体的鼠标键盘操作。每一步操作都包含五个要素：对象类型、像素坐标、几何参数、颜色样式和标签位置。比如执行"画一个点"这个任务时，系统会输出："选择'线段'工具；动作：点击；参数：[0.1711, 0.1764]"。
但仅有这样的架构还不够，关键在于如何训练PAGER掌握这种精确操作的能力。研究团队采用了两阶段的训练方法。
第一阶段叫做"像素级监督微调"。这个阶段就像让学徒跟着老师傅照本宣科地练习。系统拿到完整的标准解题轨迹，学习什么情况下该做什么操作。这一阶段能让AI掌握基本的操作语法和顺序，但有个问题：训练时看到的都是标准答案的截图，而实际使用时看到的是自己操作产生的截图。一旦自己操作时出现小偏差，画面就会和训练时见过的不一样，AI就容易越走越偏。
为了解决这个问题，研究团队引入了第二阶段——"精度对齐强化学习"。这就像让学徒在真实环境中独立练习，根据实际效果获得反馈。系统会自己生成一系列操作，然后根据三种奖励信号来调整：动作类型是否正确、参数精度如何、最终渲染出的几何图形是否有效。
具体来说，奖励机制是这样工作的。对于每一步操作，如果动作类型对了，就给一个基础奖励λa。然后根据参数的准确程度给额外奖励，使用指数衰减函数——参数越准，奖励越高。最后，整个图形的几何完整性也会被评估，与参考构造对比后给出全局奖励。这种多层次的奖励设计，让AI不仅学会做正确的动作，还要把动作做得足够精准，并且要保证整体几何结构的正确性。
五、实验结果：一场实力悬殊的比拼
研究团队让PAGER和十几个其他AI模型同台竞技，结果相当令人瞩目。
在开源AI模型中，Qwen3-VL-8B（PAGER的基础模型）的综合得分只有5.80，DeepSeek-VL2得了7.17，GLM-4.5V得了9.37。这些数字本身就说明了开源模型在精度敏感任务上的薄弱。
闭源的顶级模型表现稍好一些，但也远未达到实用水平。Claude-Sonnet-4.6得分14.91，GPT-5.4得分14.28，阿里的Qwen3.6-Plus得分19.56，谷歌的Gemini-3.1-Pro得分24.36——这是所有通用AI模型中表现最好的。
而那些专门为GUI操作设计的智能体表现也不尽如人意。UI-TARS综合得分6.38，OS-ATLAS得分8.24，InfiGUI-R1-3B得分10.66。这些专门训练过的GUI智能体在精度敏感任务上的步骤成功率都低于9%，最强的GUI智能体也只达到16.18%。
而PAGER的综合得分达到了29.52，比表现最好的Gemini-3.1-Pro还高出5.15分，提升了21.1%。更惊人的是任务成功率指标——PAGER达到23.78%，是Gemini-3.1-Pro（5.82%）的4.1倍。在步骤成功率上，PAGER达到62.20%，而那些GUI专用智能体最高只有16.18%。
这些数字背后是一个重要的发现：通用AI模型的瓶颈不在于理解操作语义，而在于状态相关的参数控制和依赖步骤间的误差累积。换句话说，问题不是AI不知道该做什么，而是它做不准、做不稳。
为了验证设计的每个部分都有用，研究团队还做了消融实验，就是把PAGER的各个组件分别拆掉看看效果。单纯的监督微调版本（PAGER-SFT）就已经达到20.47分的综合得分，说明像素级的过程监督本身就很有效。如果只去掉参数准确性奖励，性能反而从20.47降到20.07，说明仅靠动作类型正确根本无法保证几何结构的正确。如果只去掉动作类型奖励，得分上升到24.52，说明连续空间的精度才是核心。当两种奖励都使用时，得分达到29.52，任务成功率从SFT的4.48%飙升到23.78%。这清楚地说明两种奖励是互补的——动作类型奖励稳定语义执行顺序，参数准确性奖励改善点级控制。
六、一道具体的题目，一场鲜活的较量
光看数字可能不够直观，研究团队还展示了一个具体的案例对比。题目是：矩形ABCD的对角线相交于O点，∠AOB=60°，AB=2，求BC的长度。这道题需要准确放置四个顶点、画出对角线，并保持边长、角度和交点的各种约束关系。
正确答案要求画出一个矩形，四个顶点坐标分别为A(-1.75, 1.0)、B(-1.75, -1.02)、C(1.75, -1.02)、D(1.75, 1.0)，两条对角线在原点O(0, 0)相交。
PAGER的表现接近完美。它给出的四个顶点坐标分别是A(-1.8, 1.0)、B(-1.88, -1.0)、C(1.8, -1.0)、D(1.8, 1.0)，O(0, 0)。虽然有些微小的数值偏差，但整体构造出了一个几何上一致的矩形，边长关系合理，对角线在中心相交。
GPT-5.4的表现就有些尴尬了。它大致捕捉到了题目意图，但画出的四边形明显变形——顶点坐标分别是A(-2.0, 1.0)、B(-1.71, -0.92)、C(1.41, -1.02)、D(1.75, 1.0)，还莫名其妙地多出了一个E点(1.75, -1.02)。整个图形不是规整的矩形，而且漏掉了一条关键的对角线。
Gemini-3.1-Pro的表现更让人意外。它的参数偏差更严重，早期的顶点错误传播到后续步骤，最终画出了一些无意义的长线段，完全破坏了矩形结构。它给出的坐标是A(-1.75, 1.0)、B(1.77, -1.02)、C(-7.25, 5.8)、D(-4.99, 1.82)，O(0, 0)——明显C点和D点已经飞到画布外去了。
这个案例生动地说明了一件事：精确作图任务中的失败往往不是因为AI完全不理解题目，而是因为像素级参数不稳定、约束保持能力弱。即使是顶级AI模型，在严格几何约束下也会出现"参数漂移"的问题。
七、与人类判断的一致性
研究团队还做了一项验证：他们的自动评分系统是否真的反映了图形的质量？为此，他们让人类专家也对各个模型的结果进行评分，然后计算两种评分之间的相关性。
结果令人欣慰：自动评分和人类评分之间的相关系数高达0.9397，这是一个非常高的相关性。大部分现有的多模态大语言模型，包括GPT-5.4和Gemini-3.1-Pro，都聚集在评分图的左下角——自动分数低，人类评分也低。而PAGER则独占右上角——自动分数高，人类评分也优异。
这个高相关性说明，PAGE Bench测量的是真实的几何有效性，而不是某种代理信号。换句话说，AI在这个基准上表现好，确实意味着它画出的图形在人类看来也是合格的。
八、这项研究告诉了我们什么
回过头来看，这项研究最重要的贡献其实有三个层面。
首先，它揭示了AI能力评估中一个被忽视的盲点。多年来，我们一直用各种基准测试来评估AI的能力，得出了AI"接近人类水平"甚至"超越人类"的各种结论。但这项研究表明，当任务从"区域容忍"转向"点级精确"时，即使最强的AI模型也会立刻露出马脚。这提醒我们，AI的能力评估必须考虑任务的精度要求，不能一概而论。
其次，它提供了一个新的研究方向。研究团队提出的"精度敏感型GUI任务"概念，揭示了当前GUI智能体研究中的一个重要缺口。未来要让AI真正成为可靠的数字助手，特别是在CAD设计、图表编辑、科学可视化等需要精确操作的领域，这条研究路线不可或缺。
最后，它展示了一种解决方案。PAGER通过依赖结构化规划、像素级执行、像素级监督微调和精度对齐强化学习的组合，证明了即使是规模相对较小的8B参数模型，在专门设计的训练方法下，也能在精度敏感任务上超越规模大得多的通用模型。这对于资源有限的研究者和开发者来说是一个好消息。
研究团队也坦承了局限性。这项工作主要聚焦于GeoGebra风格的平面几何作图，对于其他精度敏感的界面，比如CAD软件、专业绘图工具、科学可视化平台等，可能需要额外的动作语法、环境适配器和有效性规则。但他们也指出，将相同的原则扩展到更广泛的领域是一个自然的研究方向。
说到底，这项研究让我们重新认识到一件事：AI的能力并不像我们以为的那样均衡。它在某些方面已经超越人类，但在另一些看似简单的任务上却依然力不从心。让计算机像中学生一样精确地画一道几何题，听起来微不足道，却揭示了人工智能发展中的一个真实挑战。当AI能够稳定地完成这类需要精确空间控制的任务时，它才能真正胜任那些专业领域的工作——从工程设计到医学影像，从科学实验到艺术创作。
下次当你用电脑画图、设计或做几何作业时，不妨想想：如果让AI替你做这件事，它真的能做得比你好吗？这个问题的答案，可能比你想象的更复杂。如果你对这项研究感兴趣，可以通过arXiv编号arXiv:2605.15963v1查阅完整论文，里面还有许多本文未能详尽展开的技术细节和实验数据。
Q&A
Q1：PAGE Bench测试的是什么类型的AI能力？
A：PAGE Bench测试的是AI在精度敏感型GUI任务上的能力，特别是几何作图。它包含4906道几何题、53277个高级任务和224497个低级GUI动作，要求AI在GeoGebra画布上精确地画出点、线、圆、多边形等几何元素，容差仅为3像素。这与传统GUI测试不同，因为传统测试只要求AI点击到正确的按钮区域即可，而几何作图需要点级别的精确操作。
Q2：为什么GPT-5.4、Claude等顶级AI模型在几何作图上表现这么差？
A：研究发现了一个叫做"语义-执行鸿沟"的现象。这些顶级AI模型能准确判断该执行什么操作（Claude-Sonnet-4.6动作类型准确率达95.85%），但实际把操作做精确的能力很弱（任务成功率仅1.11%）。问题不在于AI不理解题目，而在于它无法在连续画布空间中保持精确参数控制，加上几何作图存在依赖性，早期的小偏差会像多米诺骨牌一样传播到后续步骤，最终导致整个图形崩塌。
Q3：PAGER是怎么解决精确作图问题的？
A：PAGER采用"先规划、后执行"的两层架构。规划模块先分析题目的几何依赖关系，生成有序的子任务列表；执行模块再将每个子任务转换为具体的鼠标键盘操作。训练上采用两阶段策略：先用像素级监督微调让AI掌握基本操作语法，再用精度对齐强化学习让AI在实际操作中获得反馈。奖励机制同时考虑动作类型正确性、参数精度和最终几何有效性。最终PAGER的任务成功率达到23.78%，是最强通用AI模型的4.1倍。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文

深耕AI安全标准化 | 亚信安全参编《数字安全大模型应用成熟度模型与评估》团体标...

韩国要为AI“大开绿灯”？李在明：要千方百计加速推进大型芯片项目

全站最新

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文

热门推荐

中信证券等在青岛成立合伙企业

智元机器人家族集结！覆盖七大场景引领通用具身智能新潮流

具身智能浪潮涌动，上海智元世界模型夺冠引领产业新飞跃

深夜突发！腾讯大幅减持快手！

【科技前沿】马斯克3小时访谈震撼全球（完整视频+全文）

AI时代怎么教？深圳南山这群校长走进腾讯“取经”找答案

阿里紧急驰援广西：10000台照明设备及2500份食品连夜发往灾区

活力中国调研行｜浦江之畔，看机器人加速突围

大道至简，阿里与清华论文揭示扩散大模型推理能力，入选 ICML 杰出论文

深耕AI安全标准化 | 亚信安全参编《数字安全大模型应用成熟度模型与评估》团体标...

韩国要为AI“大开绿灯”？李在明：要千方百计加速推进大型芯片项目

TAI完成40nm边缘物理AI芯片原型评估，目标2027年量产

芯碁微装国内首款510mm×515mm PLP直写光刻设备获重要客户订单

宇树科技科创板IPO审核状态变更为注册生效

婉拒DeepMind、清华95后助理教授陈勇超官宣创业：押注自进化大模型