![]()
这项由英国伦敦大学学院(UCL)联合南京大学与腾讯的研究团队共同完成的工作,以预印本形式发布于2026年5月,论文编号为arXiv:2605.22535。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。
**故事从一个尴尬的现实开始**
每天,全球无数工程师坐在电脑屏幕前,打开黑色的命令行窗口,敲下一行行字符来完成工作——安装软件、分析数据、管理服务器、自动化流程。这个黑色窗口,就是所谓的"终端",是程序员和计算机系统对话的最原始方式。
近年来,一批AI助手开始学着替人类操作这扇黑色窗口。它们能理解人类的意图,自动敲命令、处理报错、一步步完成任务,仿佛一个会写代码的全能助手。Anthropic的Claude Code、OpenAI的Codex CLI、Google的Gemini CLI……各大科技公司争相推出这类产品。
但这些AI助手到底有多厉害?它们真的能胜任工程师的日常工作吗?
这个问题的答案,居然比我们想象的要模糊得多。现有的测试方法存在一个根本性的问题:负责出题的专家们,往往会不自觉地把题目出得像"益智游戏",而非"真实工作"。就像用奥林匹克数学题来考察一个会计的实际工作能力——通过了测试,不代表真的会做账。
UCL等机构的研究团队决定从根本上解决这个问题,他们的解法出人意料:既然要测试AI做真实工作的能力,为什么不直接从真实工作中取材?
**一、从录屏到考题:一台自动出题机的诞生**
在互联网上,有一个叫做asciinema的平台,工程师们在这里自愿分享自己的终端操作录像——不是视频那种录像,而是完整记录每一行命令和系统反馈的文字日志。这些录像是工程师们为了展示技巧、分享经验或教学而录制的,本质上是一份份"真实工作实录"。
研究团队从这个平台上下载了整整80870段这样的录屏日志,然后构建了一个名为TERMINALWORLD的自动化系统,将这些原始记录转化为可以测试AI能力的标准题目。这个过程的挑战性远超表面看起来的难度,因为这些录屏有三个天然的"缺陷"。
第一个缺陷是杂乱无章。工程师在录屏时会打错字、反复尝试、产生大量无关输出,录屏里没有人明确说"我的目标是什么",只有混乱的操作流水账。研究团队用一个大语言模型(具体是Anthropic的Claude Sonnet 4.6)来担任"速记员",从杂乱的命令流中提炼出工程师的真实意图,写成一段清晰的任务描述,同时整理出一份干净的参考解答脚本。整理规则非常严格:任务描述只能写最终需要达到的状态,不能有任何关于"如何达到"的提示,参考解答也必须把结果保存到固定文件路径,以便后续自动检验。
第二个缺陷是环境不可复现。工程师在自己电脑上操作时,依赖的是他本机安装的所有软件和配置,而录屏里完全没有记录这些。研究团队用另一个AI智能体来扮演"侦探",从参考解答脚本推断出运行这段代码需要哪些软件依赖,然后将其写入一份Docker配置文件(可以理解为"一份组装虚拟电脑的说明书"),自动搭建出一个隔离的虚拟环境。这个过程中,智能体会亲自"动手"——构建镜像、启动容器、执行参考解答,用运行时出现的报错作为反馈,不断修正配置,直到整个工作流程能够顺利重现为止。
第三个缺陷是缺少评分标准。录屏只记录了操作过程,并没有说"怎样才算完成任务"。研究团队为此设计了一套自动生成测试用例的机制,同样由AI智能体在已搭建好的虚拟环境中运行三类"摸底测试":第一类是执行参考解答后要求全部测试通过,确保正确答案确实能得满分;第二类是什么都不做,要求全部测试失败,确保不能"摸鱼过关";第三类是执行一个残缺版解答,要求至少一个测试失败,确保测试有足够的区分度。只有全部通过这三类检验,这道题才会被正式收录。
经过这套流水线的处理,最终有1530道题通过了自动验证,形成了TERMINALWORLD完整基准库。
**二、1530道题长什么样:一张覆盖真实世界的知识地图**
这1530道题横跨18个类别,从最日常的文件管理、版本控制,到容器编排、云基础设施、机器学习训练,乃至二进制安全分析和科学计算,几乎涵盖了现代软件工程师可能在终端里做的一切事情。
从难度分布来看,大多数题目需要5到10条命令就能解决,反映了工程师日常工作中最常见的短流程操作;但也有相当一部分题目需要20步、30步甚至超过50步的连续操作,代表那些复杂的多阶段任务。这种分布不是人为设计的,而是从真实录屏中自然浮现的,因此它忠实地映射了真实工作的复杂度分布。
与现有的同类基准测试相比,TERMINALWORLD覆盖了多达1280个不同的命令,其中91%的命令在另一个主流测试集Terminal-Bench中完全没有出现过。那些在Terminal-Bench里缺席的命令,大多是工程师每天都在用的实用工具,比如用于创建轻量Kubernetes集群的k3d、用于管理应用包的helm、用于自动化运维的ansible,以及用于基础设施即代码的terraform。这个对比鲜明地说明了人工出题的局限性:专家们倾向于选择他们熟悉或认为"有难度"的题目,而忽略了那些虽然常见但不够"炫技"的日常工具。
研究团队从1530道题中精选了200道,经过四位具有三年以上实际终端开发经验的作者亲自手动验证——每人进入Docker容器,一步步执行参考解答,检查每一个测试用例是否准确,每一条任务描述是否与测试内容完全对应。这200道经过人工复核的题目构成了TERMINALWORLD-VERIFIED子集,也是后续测试AI助手的主战场。
**三、考场开放:八个顶级AI模型的真实成绩单**
研究团队邀请了当前最顶尖的8个大语言模型坐进这个考场,用统一的智能体框架(Terminal-Bench项目的标准工具Terminus-2)驱动它们完成任务,确保比较的公平性。参加测试的模型包括Anthropic的Claude Opus 4.7、Google的Gemini 3.1 Pro、OpenAI的GPT-5.5三款闭源模型,以及Kimi K2.6、GLM 5.1、Qwen3.6-Max-Preview、DeepSeek-V4-Pro、MiniMax M2.7五款开源模型。
成绩出来了,结果颇令人深思。成绩最好的Claude Opus 4.7通过率为62.5%,意味着它在200道真实工作题中,有超过三分之一没有完成。其余模型的通过率从49%到57.5%不等,整体平均仅为54.8%。
更有趣的是通过率与资源消耗之间的关系。按常理来说,一个模型如果在任务上花了更多时间、思考了更多步骤,应该表现得更好才对。然而数据显示的却是相反的趋势:模型的成功率与它花费的轮次呈弱负相关(Pearson r = -0.49),与消耗的Token数量也呈弱负相关(r = -0.62)。GPT-5.5消耗的平均Token数量是所有模型中最多的,接近50万个Token,但通过率只有53.5%;MiniMax M2.7平均需要27.5轮对话才结束一次任务,比其他模型多出一倍,通过率却垫底,只有49%。
通过对每次任务轨迹的详细分析,研究团队发现了一个结构性的问题:失败的任务平均消耗的Token数量是成功任务的3.3倍,耗时也多出1.4倍,失败任务虽然只占总尝试数的43%,却吞噬了63%的总成本。换句话说,当AI助手遇到不会做的题时,它并不会及时放弃,而是在原地"死磕"——越磕越多,越磕越费钱,最终还是没解出来。这就是研究团队称之为"效率悖论"的现象:在真实终端环境里,计算资源的增加没有带来对应的能力提升。
从不同类别的表现来看,各模型在"环境配置"和"软件构建与测试"类题目上表现相对较好,平均通过率分别达到87.5%和78.1%;但在"性能优化"(平均28.1%)、"脚本与自动化"(39.1%)和"调试与测试"(39.3%)等类别上明显力不从心。而且没有任何一个模型在所有类别上都表现最好,Claude Opus 4.7在云基础设施(83.3%)和容器编排(67.9%)上领先,而Kimi K2.6在脚本与自动化方面(46.9%)反而超过了Claude Opus 4.7(37.5%)。
在成本方面,开源模型展示出显著的性价比优势。三款闭源模型完成200道题的平均花费约为70.82美元,而五款开源模型的平均花费仅为17.13美元,达到4到8倍的成本差距,而性能却与闭源模型相差无几,部分开源模型甚至超越了部分闭源模型。
**四、换个壳子有多大用:六种AI助手框架的横向对比**
除了测试"AI大脑"本身,研究团队还对比了六种不同的"AI助手框架"——可以把它理解成给同一个AI大脑配上不同的"操作规范和工具包",看看不同的框架能让AI表现得更好还是差不多。
以Claude Opus 4.7为核心大脑为例,研究团队对比了四种框架:标准框架Terminus-2、官方产品Claude Code、面向软件工程的mini-SWE-agent,以及通用AI开发平台OpenHands。通过率分别为62.5%、58%、52%和45%,差距并不算太大,但成本差距却非常悬殊。OpenHands的每道题平均成本高达2.19美元,总费用371美元,是Terminus-2(63.47美元)的将近6倍,但通过率却低了17.5个百分点。
类似的模式在其他AI大脑上也成立。以Gemini 3.1 Pro为核心,Terminus-2的通过率55%、总费用56.82美元,而Gemini CLI的通过率56%(略高),但总费用85.9美元,且平均每次任务消耗的对话轮数高达41.5轮,是Terminus-2的近4倍。以GPT-5.5为核心,Terminus-2通过率53.5%,而Codex CLI通过率48.5%,成本却高出近30%。
研究团队从这些数据中得出一个核心结论:AI助手框架的选择主要影响的是成本效率,而非AI大脑的能力上限。真正决定能否完成任务的,是底层语言模型的推理能力;框架设计得越复杂、越"重",往往只是让AI探索了更多无效路径,花了更多冤枉钱,而不是让它更聪明。实用的AI终端助手,应该优先降低"探索摩擦",帮助AI更快找到正确路径,而不是用复杂的编排逻辑堆砌一个华而不实的外壳。
**五、和"应试专家"的对比:真实能力与刷题能力的分离**
这项研究还回答了一个关键问题:在现有测试集上得高分的模型,是否真的在实际工作中更厉害?
研究团队把每个模型在Terminal-Bench 2.0(目前最主流的人工出题测试集)上的成绩,与在TERMINALWORLD-VERIFIED上的成绩放在一起对比。
Terminal-Bench 2.0上,各模型成绩在57%到82.7%之间;TERMINALWORLD-VERIFIED上,同样的模型成绩只有49%到62.5%。不仅整体成绩下滑,排名也发生了明显的洗牌。GPT-5.5在Terminal-Bench 2.0上几乎拿了82.7%的高分,排名靠前,但到了TERMINALWORLD-VERIFIED上,通过率掉到53.5%,落后于多个开源模型。相反,Kimi K2.6在Terminal-Bench 2.0上只有66.7%,在TERMINALWORLD-VERIFIED上却达到57.5%,超过了GPT-5.5和Gemini 3.1 Pro。
两个测试集成绩的Pearson相关系数只有0.20,接近于完全无关。这意味着你在人工出题的测试集上得了高分,并不能预测你在真实工作场景下表现如何。专家出题时倾向于设计那些有明确技巧、需要特定知识点的"考题",而真实的终端工作更看重的是灵活调度工具、处理未知报错、在开放环境中找到可行路径的综合能力。
**六、AI和人类走的不是同一条路:命令路径的差异分析**
由于TERMINALWORLD的每道题都来自真实的人类录屏,研究团队还能做一件其他测试集做不到的事:把AI解题的命令序列和原始人类录屏的命令序列拿来对比,看看它们究竟有多相似。
对于所有成功解出的题目,研究团队计算了AI使用的命令集合与参考解答命令集合的Jaccard相似度(一个衡量两个集合重叠程度的指标,100%代表完全相同,0%代表完全不同)。结果是:所有模型的中位数相似度只有21.4%,也就是说,AI和人类解同一道题,用的命令通常只有五分之一是重叠的,大部分情况下走的完全是不同的路。
研究团队给出了两个具体例子来说明这一点。在一道"从网络数据包文件中提取HTTP认证信息"的题目中,人类录屏使用的是一个专门用于网络攻击分析的工具ettercap;而AI则选择了tshark加上Python脚本直接解析数据包,两者的命令集合没有任何交集,但结果同样正确。在另一道"修改磁盘镜像文件"的题目中,人类手动用mknod命令创建设备节点来访问分区;AI则直接调用fdisk、mkfs.ext4和mount这些标准工具完成了同样的目标,方式更接近教科书但同样有效。
这个发现印证了TERMINALWORLD的设计哲学:题目只规定最终状态是什么,不规定怎么到达那里。任何能产生正确结果的路径都被认可,无论这条路和人类走的有多不同。这也意味着AI助手已经发展出了属于自己的"解题风格",而不是在模仿人类。
**七、任务越长,AI越难:复杂度对成功率的影响**
研究团队还深入分析了任务难度对AI成功率的影响,并发现了一个清晰的规律:参考解答需要的命令数量,是预测AI是否能成功的最可靠指标,远比人类完成这道题花了多少时间更可靠。
需要21条以上命令的任务,无论原始录屏中人类用多长时间完成,AI的平均通过率都只有25%到41.2%。而需要6到10条命令的任务,通过率可以高达70.6%。相比之下,人类完成时间的长短就没那么重要——一道命令很少但需要等待很久的任务(比如编译大型程序或等待模型训练),人类录屏可能持续很长时间,但对AI来说只需要正确触发那几条命令再等结果就好,本质上并不复杂。
从命令数量的角度来说,AI的困难在于"计划的长度":当完成一件事需要按正确顺序执行十几二十步操作时,每一步都有出错的可能,且错误会累积,整个链条断裂的概率就大幅上升。
与此同时,研究团队还发现了另一个规律:不管是成功还是失败的尝试,AI实际执行的命令数量几乎总是多于参考解答的命令数量,而失败的尝试消耗的命令数量又远多于成功的尝试。这和录屏的本质有关——人类录屏是精心准备的演示,是高度精炼的最优路径;而AI需要在陌生环境中摸索、验证、回头修正,自然走了更多弯路。
**说到底,这项研究告诉我们什么**
归根结底,这项研究做了一件看起来平凡却意义深远的事:它把AI助手的测评从"考场"搬回了"办公室"。
当前最强的AI助手,在真实的日常工作面前,仍然有三分之一到一半的任务无法完成。它们不是因为不够努力——恰恰相反,失败的时候它们往往比成功的时候花了更多精力,只是这些精力大部分花在了无效的探索上。设计更复杂的框架和更多的编排层次并不能根本提升能力,反而可能让AI在错误的方向上越走越远。
另一个值得关注的发现是,在现有测试集上得高分并不能保证在真实工作中同样出色。这提醒我们在选择和评价AI工具时,需要更谨慎地看待"跑分"数字,多问问它在你实际工作场景中的表现。
TERMINALWORLD的设计还有一个特别的优点:因为asciinema平台每天都在积累新的录屏,整个数据引擎可以持续运行下去,随着工程师实践的演进而自动更新。AI助手的测试集不会像传统的人工出题库一样迅速过时,而会保持与真实世界的同步。
对于普通用户来说,这意味着今天的AI终端助手还不是一个可以闭眼信任的"全能助理",对于复杂任务尤其要保持核查习惯。对于研究者来说,如何让AI在开放环境中学会"适可而止"——知道什么时候自己的方向是错的、及时止损而不是继续浪费资源——可能是下一步最值得攻克的方向。
对这项研究感兴趣的读者可以在arXiv平台搜索编号2605.22535查阅原始论文,研究的数据集和代码也已在GitHub上公开,项目名称为TerminalWorld。
Q&A
Q1:TERMINALWORLD基准测试与Terminal-Bench这类人工出题测试集有什么本质区别?
A:TERMINALWORLD的题目全部来自工程师在asciinema平台上真实录制的操作视频,由自动化流水线从中提炼出任务描述、参考解答和测试用例,保证了题目对真实工作场景的忠实还原。而Terminal-Bench等测试集由领域专家手动设计,专家往往倾向于设计有明确技巧点的"难题",与工程师日常执行的普通任务存在偏差,导致两者的模型排名相关性很低,Pearson相关系数仅为0.20。
Q2:AI终端助手在TERMINALWORLD上失败的主要原因是什么?
A:研究发现主要原因是AI在遇到无法解决的任务时缺乏有效的"停损"机制,会持续在错误方向上探索,导致失败任务消耗的Token数量平均是成功任务的3.3倍,耗时多出1.4倍。真实终端环境的开放性和复杂依赖关系,使得AI无法像解标准题一样靠堆砌计算量取胜,需要真正的规划能力和判断能力。
Q3:增加AI助手框架的复杂度能提升终端任务的完成率吗?
A:根据TERMINALWORLD的测试结果,框架复杂度的提升主要影响成本效率,而非AI的能力上限。以Claude Opus 4.7为例,OpenHands框架的总费用是Terminus-2的近6倍,但通过率反而低了17.5个百分点。研究表明,实用的AI终端助手应优先降低探索摩擦,帮助模型更快锁定正确路径,而不是通过增加编排层次来叠加复杂度。





京公网安备 11011402013531号