当前位置: 首页 » 资讯 » 科技头条 » 正文

乔治亚大学开发出视觉推理"训练场",让AI像人一样越练越聪明

IP属地 中国·北京 科技行者 时间:2026-06-09 22:23:50


这项由乔治亚大学研究团队完成的工作发表于2026年6月,论文编号为arXiv:2606.01599,有兴趣深入了解的读者可以通过该编号查询完整论文。

训练一个能"看图思考"的AI,比你想象的要难得多。教会AI认识猫和狗是一回事,但让它看着一张棋盘图推断出下一步最优解,或者盯着一张电路图算出输出电压——这需要的不只是认识图像,而是真正的视觉推理能力。乔治亚大学的研究团队正是为了解决这个棘手问题,设计出了一套名为TRON(全称:Targeted Rule-verifiable Online eNvironments,可理解为"有针对性的、规则可验证的在线训练环境")的全新训练框架。

用强化学习训练AI推理能力,近年来已经成为一条颇受认可的路线。简单说,强化学习就像训练一只狗做把戏:它做对了就给奖励,做错了就不给,久而久之它就学会了正确的行为。这套方法在训练AI解数学题、写代码方面取得了很好的效果,因为那些领域里对不对很好判断——数学答案能验算,代码能运行测试。但视觉推理不一样,问题出在哪里?

麻烦的根源在于训练数据。以往的视觉AI训练,依赖的是人工收集好的一批图片加问答对——就像给学生一本固定的练习题册。这本练习册有几个天然的缺陷:题目数量是有限的,收集一道高质量的视觉推理题往往需要大量人力;题目的难度无法根据学生当下的水平动态调整,不能做到因材施教;而且随着AI模型越来越强,很多题目在模型预训练阶段就已经见过了,再拿来训练就像让学生做自己已经背过答案的题,根本没有学习效果。

TRON的核心思路是从根本上抛弃这本"固定练习题册",改为给AI配备一套能自动出题的"智能题库系统"。这套系统里有520个不同类型的"出题程序",每个程序都能随时按需生成一道全新的视觉推理题,并且能精确地验证AI的答案是否正确——这就是所谓的"在线环境"。

一、那520个"出题程序"究竟是什么?

把每一个出题程序想象成一位擅长特定领域的出题老师。乔治亚大学的团队一共培养了520位这样的老师,按照他们各自的专长,被分成五个大组。

第一组是"空间推理"组,共有111位老师,专门出考查三维空间理解能力的题目。比如,让AI看着一个展开的立方体纸样,判断折叠后哪两个面会相对;或者给一张迷宫地图,问从起点走到终点最少需要几步;或者展示一组齿轮,问其中某个齿轮的转向。

第二组是"数学推理"组,共有131位老师,出的是需要用到几何定理、代数、概率等知识的视觉数学题。例如给一个图形,标注了两个角的角度,让AI算出第三个角;或者给一棵决策树图,让AI算出某个结果发生的概率。

第三组是"图表理解"组,共有144位老师,专门处理各类图表——柱状图、折线图、散点图、流程图、电路图、食物链图等等,考查AI从图表中提取信息、进行多步推理的能力。

第四组是"规律与逻辑"组,共有104位老师,出的题目涵盖数独、视觉类比(给三张图,推断第四张应该是什么)、逻辑推理等,需要AI找规律、归纳规则。

第五组是"计数与估算"组,共有30位老师,专门考查计数能力,包括在遮挡情况下数清楚有多少个物体、数棋盘中特定格子的数量等。

二、这些出题程序到底是怎么工作的?

每一个出题程序背后都遵循一套严密的逻辑,可以用烤蛋糕的食谱来理解这个过程。

首先,程序会随机抽取一组"食材",也就是题目的原始参数。以角度推理题为例,程序随机抽到了"55度"和"70度"这两个数字,作为三角形的两个已知角。

接着,程序按照食谱"烹饪",也就是用数学公式或算法计算出正确答案。三角形内角和是180度,所以第三个角是180-55-70=55度,答案确定了。

然后,程序把这道题"摆盘",也就是把题目渲染成一张图片——一个标注了两个角度、第三个角用"x=?"标注的三角形图,同时生成配套的题目文字。

关键在于,答案是在画图之前就已经算好的,图片只是答案的"外衣"。这意味着,验证AI答案对不对,完全不需要再去"看"那张图,只需要把AI的回答和事先算好的正确答案做比对即可——这保证了评判的绝对准确,完全不依赖另一个AI来当裁判(现有很多系统就存在"让AI评判AI"的不准确问题)。

这就是TRON所强调的"规则可验证":每道题的裁判权掌握在一段确定性的代码手中,而不是另一个可能犯错的模型。

三、难度可以像旋钮一样精确调节

TRON还有一个格外实用的特性:每个出题程序都内置了一个从0到9的"难度旋钮",共十个档位。

以角度推理题为例,难度0时,题目就是最简单的三角形内角和,一步推理就能搞定。难度9时,题目变成了由多个三角形和平行线构成的复杂几何图,需要连续四五步推理才能得出答案。迷宫题的难度旋钮则控制着迷宫的大小和墙壁的数量——难度越高,迷宫越大越复杂。图表题的难度旋钮控制着图表中数据系列的数量和查询的复杂程度。

这个设计的好处是让AI的训练可以真正实现因材施教。一旦AI在当前难度上正确率超过80%,系统就会自动把难度旋钮拨高一档,给它出更难的题。同时,系统还会保留30%的概率继续出一些稍简单的题,防止AI把原来学会的技能"遗忘"——就像学钢琴的学生在攻克新曲目的同时,也要时常复习老曲目巩固基础。

为了验证这个难度旋钮是真实有效的,研究团队专门测试了Qwen3-VL-4B这个基础AI模型在四个难度档位(0、3、6、9)上的表现。结果显示,在难度0时,这个模型平均能答对72.8%的题;难度3时降至59.9%;难度6时降至48.0%;难度9时只剩41.3%。难度从最低到最高,正确率下降了约31个百分点,清晰地证明难度升高意味着题目确实变难了,而不只是换了个标签。

四、在正式使用前,这套系统接受了严格的"质检"

研究团队没有直接把这520个出题程序拿去训练AI,而是先对它们做了一次全面的质量检查。对四个难度档位各抽取四个随机种子,总共做了8320次测试探针,检查率高达99.1%。

质检分三个维度。第一维度考查"质量":这个程序每次生成题目时会不会出错?生成的图片是不是正常的、有内容的?题目文字和答案是不是都完整存在?验证器能不能正确接受正确答案、拒绝错误答案?结果显示,520个程序中有502个(占96.5%)通过了最高标准的质量评级,剩余18个被重新修改直到合格。

第二维度考查"多样性":每次出的题目够不够不一样?换一个随机种子,题目在视觉上、在问法上、在答案上是不是都有所不同?不同难度档位之间,题目有没有实质性的变化?同时也检查不同程序之间有没有高度雷同的情况——毕竟如果两个名字不同的出题程序实际上出的是完全一样的题,那就等于浪费了一个名额。检查结果是520个程序中有435个(占83.7%)获得了多样性方面的优良评级,整体多样性表现良好。

五、训练方式:让AI在这套题库中真正学会推理

确认出题程序质量过关之后,研究团队把TRON接入了AI的强化学习训练流程,采用的是一种叫做DAPO的训练算法。

训练过程就像这样:从520个程序中选一道题,生成一道新鲜的图文题目,同时获得正确答案。把这道题交给AI,AI给出回答。验证器比对AI的回答和正确答案,给出0或1的奖励(对了得1分,错了得0分)。AI根据这个信号调整自己的思维策略,就像学生根据老师的评分反思自己的解题思路。每道题AI会尝试做8次,拿到8次评分后再统一更新策略。

为了让AI的训练更加鲁棒(也就是不那么脆弱,换一点点条件也能答对),每张训练图片还会随机施加一些小扰动——比如在图片边缘随机加一些白边,或者以30%的概率对图片做轻微旋转、降低画质、调整亮度等处理。这就像让学生在稍微有些噪声干扰的环境下练习,以培养更强的适应能力。

六、在三个主流AI模型上测试,结果如何?

研究团队把经过TRON训练的AI拿到十个外部视觉推理评测基准上进行测试,这些测试完全独立于TRON的训练数据,是真实意义上的"考场",考查的内容覆盖了数学推理、空间推理、图表理解、科学图表、视觉谜题和逻辑推理等多个方向。

测试对象是三个不同的基础AI模型:Qwen3-VL-4B(一个40亿参数的视觉语言模型)、Qwen2.5-VL-7B(一个70亿参数的模型)和MiMo-VL-7B-SFT(另一个70亿参数的模型)。

Qwen3-VL-4B经过TRON训练后,十项测试的平均分从52.61分提升到55.23分,提升了2.62分。Qwen2.5-VL-7B从40.85分提升到43.35分,提升了2.50分。MiMo-VL-7B-SFT从63.37分提升到66.50分,提升了3.13分,是三者中提升幅度最大的。

这个结果有几点值得关注。三个来自不同团队、具有不同预训练背景的模型,在经过TRON训练后全部获得了提升——这说明TRON的效果不是专门为某一个模型定制的,而是具有普遍性。提升并不集中在某一两个测试上,而是分布在多个不同类型的评测中,说明AI确实学到了多方面的推理能力。有趣的是,MiMo-VL-7B-SFT本来起点就最高,却反而提升最大,说明即便一个模型已经经过了大量的监督学习训练,TRON提供的强化学习信号仍然能补充额外的价值。

七、能不能专门训练某一项能力的"专科医生"?

除了训练一个"全能型"模型,TRON的架构还允许研究团队轻松地训练五个"专科模型"——每个模型只接受一个能力桶的题目训练。研究团队以Qwen3-VL-4B作为基础,分别训练了数学专科、空间专科、计数专科、规律逻辑专科、图表专科五个版本,并通过这五个模型深入分析了一个有趣的问题:训练某一类视觉能力,会不会意外地提升其他类型题目的表现?

结论是肯定的,而且效果相当显著。数学专科模型在外部评测中的迷宫路径规划题上提升了20分——这道题完全不是数学题,而是空间导航题。为什么数学训练能帮助解迷宫?研究团队的解释是,解复杂数学题需要多步骤推理,而迷宫同样需要多步骤推理,两者共享的是"多步推理"这个底层能力,而不是表面的"图像格式"。

空间专科模型在数学角度测量题上提升了12.6分,因为两者都需要理解空间关系这一底层能力。计数专科模型在三维体积计算题上提升了7.8分,因为两者都需要精准地识别和量化离散的视觉元素。图表专科模型在外表看起来完全不同的规律题上提升了10分,因为两者都需要从结构化的视觉信息中读取数值。

这一系列发现指向一个重要结论:决定一个AI能不能做好某道题的,是这道题背后需要的那种深层思维能力,而不仅仅是图片看起来像什么类型。这和我们人类的学习经验其实是相通的——学好逻辑思维,可以帮助你做好很多表面上看起来不相关的事情,因为它们都需要同一套底层思维工具。

然而,研究团队也发现了一个有趣的反例,证明"视觉格式匹配"并非万能。数学专科模型在MathVerse这个评测上的表现反而低于未经训练的基础模型。原因在于,MathVerse这个评测有一个特殊设计:它的许多题目故意去掉了文字描述,只留下图形,强迫AI必须能直接"读图"才能解题。数学专科训练的重心是推理链条,而不是单纯的图形阅读,所以在这种"纯看图说话"的题目上反而吃亏了。反倒是图表专科模型,因为大量训练了从图中提取数值的能力,在这类题目上表现更好。

这告诉我们:视觉格式和底层能力,两者缺一不可。最有效的训练集应当同时覆盖题目所需的视觉格式和其要求的底层思维能力。TRON的520个程序分布在五大能力桶的初衷,正是为了尽可能广泛地覆盖这两个维度的多样性,以应对任何可能出现的未知考题。

说到底,TRON解决的是一个"鱼和水"的问题:好的AI训练既需要足够多样的题目,也需要足够精准的反馈,还需要能随着AI成长而持续变难的挑战。固定的数据集给不了这三样东西,而TRON的在线生成机制把这三者都内置进了系统本身。当然,这套系统也有其局限性——生成的图片毕竟是程序化的,在视觉风格上和真实世界的照片或手绘图有一定差异;难度档位是人工设计的,不同程序之间的难度步长也不完全一致;五个能力桶的划分也是粗线条的,现实中很多题目会同时涉及多种能力。这些都是后续工作可以继续完善的方向。

对于关心AI发展的普通读者,这项研究让人思考的一个问题是:人类在学校里也面临着"教材有限、考试固定"的困境,如果教育系统也能像TRON一样实现按需生成、动态调整难度、精确评判,学习效率会不会有大幅提升?技术上的突破,有时候反过来会给我们提供理解自身学习过程的全新视角。有兴趣深入了解这项研究全部技术细节的读者,可以通过arXiv:2606.01599查阅原始论文。

Q&A

Q1:TRON和普通AI训练数据集有什么本质区别?

A:普通训练数据集是提前收集好的一批固定题目,数量有上限,难度固定,而且模型可能在预训练时就已经见过这些题目。TRON是一套能自动生成题目的程序系统,每次运行都会产生全新的题目,难度可以动态调整,理论上永远不会被模型"背熟答案",更重要的是每道题都有精确的程序化验证器,评判完全不依赖另一个AI模型。

Q2:TRON训练出来的AI在哪些能力上提升最明显?

A:在结构化推理类任务上提升最为显著,例如需要按确定性规则进行状态转移的任务、涉及网格或图结构的任务、以及需要精确答案验证的几何约束类问题。具体到评测基准,MM-HELIX和SpatialEval在三个模型上都获得了较大提升,说明空间推理和多步逻辑推理方面的收益尤为突出。

Q3:TRON的五个能力桶是怎么划分的?

A:五个桶分别是空间推理(111个程序,涵盖三维旋转、迷宫导航、立方体展开等)、数学推理(131个程序,涵盖几何定理、概率、代数等)、图表理解(144个程序,涵盖柱状图、电路图、流程图等)、规律与逻辑(104个程序,涵盖数独、视觉类比、逻辑推理等)和计数估算(30个程序,涵盖遮挡计数、网格计数等)。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新