![]()
这项由伊利诺伊大学香槟分校与Meta合作完成的研究,以预印本形式于2026年5月21日发布在arXiv平台,论文编号为arXiv:2605.22642。感兴趣的读者可以通过该编号查询完整论文。
**Excel为什么难倒了AI?**
每天全球有数以亿计的人在用Excel或Google Sheets处理各种工作——财务报表、库存管理、人力资源分析、销售预测……这些表格工作看似枯燥,却是许多行业运转的基础骨架。你肯定有过这样的经历:面对一个几百行的表格,需要手动填写一列复杂的计算公式,或者把数据按照特定规则重新整理,光是这一件事就能消耗掉大半个下午。
那么,有没有AI能帮我们自动搞定这些活儿?这正是研究团队要解决的核心问题。
近年来,ChatGPT、GPT-4这类大模型的强大能力让很多人看到了希望。确实已经有一些工具,比如微软的Copilot、OpenAI的ChatGPT Agent,开始尝试帮用户操作表格。但现实情况是,这些工具面对简单任务还算凑合,一旦遇到需要多步骤、跨多个工作表、涉及复杂公式的真实工作流程,表现就会大打折扣——微软的Copilot在专业测试中得分只有20%,ChatGPT Agent也不过45.5%,离真正"替代人工"还差得很远。
更关键的是,现有的方法本质上是在用"聪明的提示词"来引导通用AI模型,就像是给一个没学过厨艺的人一本菜谱,指望他临时烧出一桌满汉全席。这种方式有着根本的上限:模型本身没有受过专门的"表格操作训练",碰到复杂情况就容易出错、绕弯子甚至直接放弃。
于是,伊利诺伊大学香槟分校和Meta的研究团队换了一条路:与其靠提示词引导模型,不如直接把模型"训练"成一个表格专家。这个思路听起来简单,但背后藏着两个非常棘手的难题,而这篇论文的核心价值,就在于它把这两个难题都给解决了。
**一、表格AI的训练困境:没有教材,没有练习场**
要理解这个挑战,可以用学驾照来打个比方。
学开车有两个必不可少的东西:一是教材(告诉你规则和技巧),二是练车场(让你反复练习、犯错、改正)。如果这两样缺一个,你就很难真正学会开车。
对于表格AI来说,"教材"相当于大量真实的表格任务数据——需要有人告诉模型"这是一个初始状态的表格,任务是这样,完成之后应该变成这个样子"。这种"起始状态—目标状态"的配对数据,在现实中极其稀缺。之前最大的公开数据集SpreadsheetBench也只有912个这样的配对样本,对于训练AI来说实在太少。而且每个样本都需要专家花大量时间手工制作,成本非常高昂。
"练车场"的问题同样棘手。训练AI需要让它在一个真实的表格环境里反复"操作—反馈—改进",但现有的工具要么对复杂公式支持不足,要么没法和大规模训练框架兼容,要么在并行运行时数据会乱掉。
这两个困难,恰恰是这项研究最重要的两个突破口。
**二、自动"刷题机器":从论坛帖子到训练素材**
研究团队解决"没有教材"问题的方式,就像是派了一个聪明的助理去互联网上海量收集真实考题。
他们的第一步是盯上了一个叫ExcelForum的公开论坛。这个论坛里,每天都有真实用户发帖求助:"我的表格有这个问题,该怎么解决?"其他用户会回帖提供解决方案,还有人继续跟进讨论。这些帖子里通常附有用户上传的原始表格,以及完整的对话讨论串。
研究团队收集了2024年1月1日之后的18855个这样的讨论帖,里面包含32691个附件表格和144694条用户回复,平均每个帖子有7.67条回复。这是原始素材,相当于一大堆"题目描述"和"解题思路",但还没有标准答案。
接下来,研究团队让强大的编程AI(比如Claude Code和Codex)充当"解题高手"。这些编程AI读取帖子里的原始表格和讨论内容,自动生成一套解题操作代码,然后在真实的Excel环境里执行这套操作,把结果记录下来,作为"标准答案表格"。
最后,还有一道质量关卡:自动过滤掉那些触发了Excel错误(比如 VALUE!、#REF! 等)的结果,只保留逻辑上完整、公式可以正确计算的样本。经过这整套流程,最终产出了5928个高质量的"起始表格—任务说明—目标表格"配对样本,可以直接用于训练。
这个自动化流程的意义在于,它把人工标注成本几乎降到了零,而且只要论坛还在运营,数据来源就可以持续扩充。
**三、专业"练车场":让AI在真实Excel里反复磨练**
有了训练素材,还需要一个合适的练习场。研究团队为此搭建了一个叫做"Spreadsheet Gym"(表格健身房)的交互式训练环境。
这个环境有几个关键特点,直接决定了训练质量。
第一个特点是"真材实料"——用的是真实的微软Excel 365,而不是某个简化版的表格引擎。为什么这很重要?因为Excel有很多高级功能,比如FILTER(筛选)、UNIQUE(去重)、SORT(排序)、TAKE(提取)、MAP(映射)等动态数组公式,是很多现代表格任务必须用到的,而LibreOffice等替代软件对这些功能的支持并不完整。用真Excel训练,意味着模型学到的是真正能在现实工作中用上的技能。
第二个特点是"隔离沙盒"——每一次模型练习任务,都会分配一个独立的文件空间,模型在这个空间里操作表格,不会影响到其他正在进行的练习。这对于大规模训练非常关键,因为训练时需要同时进行成百上千个平行练习,如果文件互相干扰,结果就会乱掉,就像一个考场里所有人共用一张卷子一样荒唐。
第三个特点是"专业工具箱"——研究团队为模型量身设计了一套专门针对表格操作的工具命令。模型可以使用find_cells来定位某个标题或关键词在哪里,用inspect_range来查看某个区域的内容,用fill_formula来填充公式,用clear_range来清空单元格,用delete_rows或delete_columns来删除行列,还有recalculate_and_read用来让Excel重新计算后读取结果,以及code_interpreter作为万能后备方案处理复杂的自定义逻辑。
这套工具箱的设计背后有深刻的工程考量。如果只给模型一个"写Python代码"的通用接口,看起来什么都能做,实际上却很脆弱——在循环里删除列时索引会错位,手动拼接公式字符串时引号容易转义出错,区分"清空单元格"和"删除整行"这种细微差别对小模型来说也很容易搞混。专用工具把这些陷阱都封装掉了,让模型只需关注"做什么",不用操心"怎么做"的底层细节。
**四、强化学习的核心逻辑:做对了就给奖励**
训练AI的方式决定了它最终能达到的水平。这项研究采用的方法叫"强化学习",或者更具体地说,是带有结果奖励的在线策略强化学习,算法叫GRPO(Group Relative Policy Optimization,组相对策略优化)。
用一个更直观的类比来解释:这就像训练一只宠物狗完成复杂任务。每次任务完成得好,就给零食奖励;完成得不好,就不给。狗会在无数次尝试中,逐渐学会哪些行为序列能带来奖励,从而越做越好。
对于表格AI来说,"奖励"的判定标准是:把AI最终改好的表格,和标准答案表格逐个单元格对比,看目标区域里所有单元格是否都匹配。数字有一定容差(四舍五入到小数点后2位),文字要精确匹配,日期统一转换成Excel序列日期再比较。全部匹配则得1分,否则得0分。这个奖励信号简单而明确,不需要人工逐步打分,可以完全自动化进行。
然而,奖励计算本身就是一个工程挑战。要给一个表格打分,必须先用真实的Excel打开它,触发重新计算(确保所有公式都算出了正确结果),然后再和标准答案比对。这个过程时间不固定,有时很快,有时因为公式复杂会慢很多。如果每次训练都要等着这个过程完成,GPU就会大量空闲,非常浪费。
研究团队的解决方案是一个异步提交-轮询的验证服务。训练时,模型提交一个完成的表格,立刻拿到一个任务编号,然后继续去做下一个练习;与此同时,后台的Windows服务器用Excel慢慢计算,算完了把结果存好;等模型空闲时再回来查询这个任务编号,取回分数。这样GPU永远不会空等,训练效率大幅提升。实测数据显示,一台32GB内存的Windows服务器配合四个并行Excel实例,在不到30分钟内处理了超过20000个评分任务,平均每秒超过11个,完全没有成为训练瓶颈。
**五、从"三步走"到脱胎换骨:效果究竟如何?**
研究团队选择了Qwen3-4B-Thinking-2507这个开源模型作为基础,一步步叠加改进,最后用强化学习精调。整个过程的效果可以用SpreadsheetBench这个权威测试集的成绩来衡量。
原始模型在这个测试集上的正确率只有12.0%。加上专门设计的表格交互引导框架之后,正确率提升到了15.6%。再加上完整的专业工具箱,正确率进一步提升到19.3%。最后经过强化学习精调,正确率达到了23.4%。
这个进步幅度很有意思。12%到23.4%,表面上看起来数字不大,但要知道这是一个只有40亿参数的小模型,而且这次提升完全来自训练方法的改进,没有换更大的模型,也没有更换底层架构。与此同时,OpenAI的o3模型(一个更大、更昂贵的闭源模型)在同一个测试集上的成绩是23.3%,被这个4B的开源模型以微弱优势超过。
横向对比一下其他开源模型的成绩:Qwen3-32B(参数量是这个模型的8倍)得分17.6%,Qwen3-8B得分15.9%,Qwen3-14B得分15.0%。经过专门训练的4B模型,在表格任务上全面超越了比它大得多的通用模型,充分说明了专业化训练的价值。
**六、域外迁移:从"论坛技巧"到"金融分析"**
有一个合理的担心:模型是用论坛上的常见表格问题训练的,会不会只会做那些"常见操作",遇到真正的专业工作场景就不行了?
为了测试这一点,研究团队专门制作了一个叫Domain-Spreadsheet的新测试集,共包含1660个任务,覆盖金融(分初级、中级、高级三档)、供应链管理、人力资源、销售和房地产这几个专业领域。
这些任务的来源和论坛帖子完全不同——它们来自CPA(注册会计师)、CFA(特许金融分析师)、FRM(金融风险管理师)、CPIM(供应链管理认证)、SHRM(人力资源管理认证)等专业认证的知识体系,以及投资银行、资产管理、库存分析、薪酬基准、物业估值等实际工作流程。
举个具体例子,金融类任务会要求:在指定表格里计算可比公司分析的交易倍数,或者建立债务还款覆盖率模型,或者计算衍生品合约的抵押物净额……这些都是真实金融从业者日常工作内容。
测试结果显示,在没有专门训练这些领域知识的情况下,经过强化学习训练后的模型,整体正确率从8.4%提升到了17.2%。其中金融初级任务的提升最为显著(从15.6%到29.3%),金融中级从7.7%提升到16.2%,金融高级从8.1%提升到19.3%,供应链从1.1%提升到5.0%,人力资源从0.5%提升到3.2%,销售从1.2%提升到5.8%。唯独房地产类任务几乎没有变化,维持在1.1%,说明这个领域的任务对于当前4B模型来说依然是个硬骨头。
这个结果意味着,强化学习在表格领域具备相当不错的迁移能力——模型不只是记住了训练数据里的技巧,而是真正学到了"如何在表格里思考和解决问题"这种更通用的能力。
**七、训练过程的变化:越来越聪明,也越来越高效**
研究团队记录了60个训练步骤内模型的行为变化,这些数据讲述了一个很有趣的成长故事。
训练奖励(即每次任务平均得分)从最初的约0.21稳步爬升到步骤60时的约0.33。与此同时,模型回复的平均长度从约16000个字符缩短到约11000个字符,平均交互轮数从约20轮降低到约11轮。
换句话说,经过训练的模型不只是"做得更对",还"做得更快、更干净"——用更少的步骤、更简洁的表达完成同样的任务。这就像一个学厨的学生,从最初笨拙地反复尝试、频繁出错、说一大堆废话,慢慢练成了动作利索、话不多说、一锅出好菜的熟手。
研究团队还对模型在训练前后的行为做了定性比较。训练前的模型经常说"这段代码应该能用"(speculative,凭感觉猜测),说"我真的卡住了"(stuck,承认无助),以及在出错后直接崩溃重来。训练后的模型更倾向于说"换个方案:既然行2里有这个值,我们可以先定位它再处理"(有备用计划),或者"有可能没有符合条件的行"(对失败有理性预判),以及在开始操作前先明确说出执行计划。这些行为上的变化,说明强化学习不只是提升了成功率,还改变了模型"思考问题"的方式。
**八、专业领域数据集的构建:用认证知识造题**
Domain-Spreadsheet数据集的构建方式本身也值得单独介绍一下,因为这是目前第一个开源的、专业领域导向的表格任务评测集。
专业领域的知识不会自然出现在公开论坛上,需要特别的方法来收集。研究团队首先整理了来自各类专业认证体系的核心知识点和行业模板。对于金融领域,这包括CPA、CFA和FRM考试覆盖的内容;供应链用的是CPIM认证;人力资源参考了SHRM和CCP认证;房地产则用了CCIM认证。
在这些知识框架下,研究团队指导数据生成AI把专业概念转化为具体的表格任务说明,再通过和论坛数据同样的自动化流程,生成对应的初始表格和目标表格。最终产出的1660个任务,每个都有完整的任务说明、初始表格和标准答案表格,可以直接用于评测。
这个数据集和现有的表格评测基准相比,最大的不同在于它不考察通用操作技巧,而是考察专业工作流的完成能力。一个模型如果只会套用通用公式,而不理解"风险加权资产"或"再订货点"这类业务概念背后的逻辑,就很难在这个数据集上得到好成绩。
**九、工程细节:让AI安全、稳定地操作真实表格**
除了方法论上的创新,这项工作还包含大量值得关注的工程设计细节。
在工作空间隔离方面,每次训练任务都有独立的文件目录,初始表格被复制进去作为工作文件data.xlsx,所有工具操作都在这个目录内进行,避免不同训练任务之间互相污染。工作空间创建时有文件锁保护,防止并发时的竞争条件。训练完成后,工作空间可以自动清理,防止长期运行积累大量临时文件。
在Excel服务的稳定性方面,研究团队维护了一个长期运行的Excel实例池来分摊启动开销。考虑到Excel进程在长期高负载下可能积累内存或变得不稳定,系统会定期检查健康状态,当内存占用超过4GB或累计处理任务数达到阈值时,主动回收并重启Excel实例。每个评分任务都有硬性超时限制,失败时会在数据库里记录明确的错误状态,防止任务永久卡住占用资源。
评分逻辑在技术上也做了精心处理。数字比较容许微小误差(四舍五入到小数点后2位),这是因为不同公式写法在浮点计算上可能有细微差异,不应算作错误。日期统一转换为Excel序列日期(从1900年1月0日开始计数的整数),统一后再比较。空字符串和None值视为等价。公式单元格同时比较"公式字符串"和"计算结果值",两者都报告,方便调试和错误分析。
**十、局限与未来方向**
研究团队对这项工作的局限性保持了坦诚。目前的实验主要集中在4B参数的轻量模型上,没有对更大的稠密模型或混合专家(MoE)架构模型进行训练实验,而这些更大的模型通常有更强的基础能力,训练后的效果可能会更好。
在测试结果上,房地产类任务的改善几乎为零,说明当前的数据收集和训练方式对某些特定专业领域的覆盖还不够。供应链、人力资源等领域的提升幅度也明显小于金融类任务,这可能是因为论坛数据里金融相关内容本来就更多,模型对这个领域的基础语义理解更好。
此外,模型在实际部署中还存在一些潜在风险:公式写错、结构性编辑出错、格式细节遗漏,这些都可能影响依赖表格输出做决策的下游用户。研究团队明确指出,Spreadsheet-RL是一个研究性框架,不应直接用于高风险的生产场景,实际使用时需要人工审查、编辑日志、隐私保护等配套措施。
研究团队计划将全部训练数据、Spreadsheet Gym环境、工具引导框架、训练流水线和精调后的模型全部开源,为后续研究提供可复现的基础平台。
归根结底,这项工作做了一件看起来简单、实际上相当复杂的事:把"让AI学会用Excel"这个模糊的目标,拆解成一套可操作的工程系统——自动化数据收集、真实执行环境、专用工具接口、异步评分服务、强化学习训练——每一块都经过了仔细的设计和验证。
对于普通用户来说,这项研究意味着:未来帮助你处理表格的AI助手,有可能是一个真正经过"上万小时表格实操训练"的专家,而不只是一个聪明但经验不足的通才。当然,从实验室到办公室还有不少路要走,但方向已经很清晰了。
如果你对表格自动化或AI训练方法感兴趣,可以通过arXiv编号2605.22642找到完整论文,或者关注Spreadsheet-RL在HuggingFace和GitHub上的开源项目,那里将会持续更新数据集、代码和模型权重。
Q&A
Q1:Spreadsheet-RL训练出来的模型跟GPT-4o比,谁更厉害?
A:在SpreadsheetBench这个专业测试集上,经过Spreadsheet-RL训练的Qwen3-4B模型得分23.4%,而GPT-4o在Windows+Excel环境下的得分是18.4%。所以在这个专项测试上,这个只有40亿参数的小模型反而超过了GPT-4o,甚至和OpenAI o3(23.3%)基本持平。不过GPT-4o是通用模型,Spreadsheet-RL是专门针对表格任务训练的,两者的应用场景不完全一样。
Q2:Spreadsheet-RL的训练数据是怎么来的?
A:训练数据主要来自ExcelForum这个公开论坛。研究团队收集了18855个帖子里用户上传的真实表格和讨论内容,然后让Claude Code、Codex等编程AI自动生成解题操作,在真实Excel里执行后生成标准答案表格,再经过自动质量过滤,最终得到5928个高质量的训练样本。整个过程不需要人工逐一标注,可以持续扩充。
Q3:Spreadsheet-RL能用于Google Sheets吗?
A:目前Spreadsheet-RL的训练和评测都基于微软Excel 365,特别依赖Excel对高级公式的支持,以及Windows平台上的COM自动化接口来做评分。Google Sheets在功能上有一定差距,部分Excel专属公式无法直接迁移。研究团队没有在Google Sheets上做实验,但框架的核心思路(自动数据收集+专用工具+强化学习)在理论上是可以迁移的,只需要针对Google Sheets重建评测环境。





京公网安备 11011402013531号