UCL等机构研究团队如何用八万段录屏测出AI助手的"真实水平"

IP属地中国·北京 科技行者 时间：2026-05-28 22:15:22

这项由英国伦敦大学学院（UCL）联合南京大学与腾讯的研究团队共同完成的工作，以预印本形式发布于2026年5月，论文编号为arXiv:2605.22535。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。
**故事从一个尴尬的现实开始**
每天，全球无数工程师坐在电脑屏幕前，打开黑色的命令行窗口，敲下一行行字符来完成工作——安装软件、分析数据、管理服务器、自动化流程。这个黑色窗口，就是所谓的"终端"，是程序员和计算机系统对话的最原始方式。
近年来，一批AI助手开始学着替人类操作这扇黑色窗口。它们能理解人类的意图，自动敲命令、处理报错、一步步完成任务，仿佛一个会写代码的全能助手。Anthropic的Claude Code、OpenAI的Codex CLI、Google的Gemini CLI……各大科技公司争相推出这类产品。
但这些AI助手到底有多厉害？它们真的能胜任工程师的日常工作吗？
这个问题的答案，居然比我们想象的要模糊得多。现有的测试方法存在一个根本性的问题：负责出题的专家们，往往会不自觉地把题目出得像"益智游戏"，而非"真实工作"。就像用奥林匹克数学题来考察一个会计的实际工作能力——通过了测试，不代表真的会做账。
UCL等机构的研究团队决定从根本上解决这个问题，他们的解法出人意料：既然要测试AI做真实工作的能力，为什么不直接从真实工作中取材？
**一、从录屏到考题：一台自动出题机的诞生**
在互联网上，有一个叫做asciinema的平台，工程师们在这里自愿分享自己的终端操作录像——不是视频那种录像，而是完整记录每一行命令和系统反馈的文字日志。这些录像是工程师们为了展示技巧、分享经验或教学而录制的，本质上是一份份"真实工作实录"。
研究团队从这个平台上下载了整整80870段这样的录屏日志，然后构建了一个名为TERMINALWORLD的自动化系统，将这些原始记录转化为可以测试AI能力的标准题目。这个过程的挑战性远超表面看起来的难度，因为这些录屏有三个天然的"缺陷"。
第一个缺陷是杂乱无章。工程师在录屏时会打错字、反复尝试、产生大量无关输出，录屏里没有人明确说"我的目标是什么"，只有混乱的操作流水账。研究团队用一个大语言模型（具体是Anthropic的Claude Sonnet 4.6）来担任"速记员"，从杂乱的命令流中提炼出工程师的真实意图，写成一段清晰的任务描述，同时整理出一份干净的参考解答脚本。整理规则非常严格：任务描述只能写最终需要达到的状态，不能有任何关于"如何达到"的提示，参考解答也必须把结果保存到固定文件路径，以便后续自动检验。
第二个缺陷是环境不可复现。工程师在自己电脑上操作时，依赖的是他本机安装的所有软件和配置，而录屏里完全没有记录这些。研究团队用另一个AI智能体来扮演"侦探"，从参考解答脚本推断出运行这段代码需要哪些软件依赖，然后将其写入一份Docker配置文件（可以理解为"一份组装虚拟电脑的说明书"），自动搭建出一个隔离的虚拟环境。这个过程中，智能体会亲自"动手"——构建镜像、启动容器、执行参考解答，用运行时出现的报错作为反馈，不断修正配置，直到整个工作流程能够顺利重现为止。
第三个缺陷是缺少评分标准。录屏只记录了操作过程，并没有说"怎样才算完成任务"。研究团队为此设计了一套自动生成测试用例的机制，同样由AI智能体在已搭建好的虚拟环境中运行三类"摸底测试"：第一类是执行参考解答后要求全部测试通过，确保正确答案确实能得满分；第二类是什么都不做，要求全部测试失败，确保不能"摸鱼过关"；第三类是执行一个残缺版解答，要求至少一个测试失败，确保测试有足够的区分度。只有全部通过这三类检验，这道题才会被正式收录。
经过这套流水线的处理，最终有1530道题通过了自动验证，形成了TERMINALWORLD完整基准库。
**二、1530道题长什么样：一张覆盖真实世界的知识地图**
这1530道题横跨18个类别，从最日常的文件管理、版本控制，到容器编排、云基础设施、机器学习训练，乃至二进制安全分析和科学计算，几乎涵盖了现代软件工程师可能在终端里做的一切事情。
从难度分布来看，大多数题目需要5到10条命令就能解决，反映了工程师日常工作中最常见的短流程操作；但也有相当一部分题目需要20步、30步甚至超过50步的连续操作，代表那些复杂的多阶段任务。这种分布不是人为设计的，而是从真实录屏中自然浮现的，因此它忠实地映射了真实工作的复杂度分布。
与现有的同类基准测试相比，TERMINALWORLD覆盖了多达1280个不同的命令，其中91%的命令在另一个主流测试集Terminal-Bench中完全没有出现过。那些在Terminal-Bench里缺席的命令，大多是工程师每天都在用的实用工具，比如用于创建轻量Kubernetes集群的k3d、用于管理应用包的helm、用于自动化运维的ansible，以及用于基础设施即代码的terraform。这个对比鲜明地说明了人工出题的局限性：专家们倾向于选择他们熟悉或认为"有难度"的题目，而忽略了那些虽然常见但不够"炫技"的日常工具。
研究团队从1530道题中精选了200道，经过四位具有三年以上实际终端开发经验的作者亲自手动验证——每人进入Docker容器，一步步执行参考解答，检查每一个测试用例是否准确，每一条任务描述是否与测试内容完全对应。这200道经过人工复核的题目构成了TERMINALWORLD-VERIFIED子集，也是后续测试AI助手的主战场。
**三、考场开放：八个顶级AI模型的真实成绩单**
研究团队邀请了当前最顶尖的8个大语言模型坐进这个考场，用统一的智能体框架（Terminal-Bench项目的标准工具Terminus-2）驱动它们完成任务，确保比较的公平性。参加测试的模型包括Anthropic的Claude Opus 4.7、Google的Gemini 3.1 Pro、OpenAI的GPT-5.5三款闭源模型，以及Kimi K2.6、GLM 5.1、Qwen3.6-Max-Preview、DeepSeek-V4-Pro、MiniMax M2.7五款开源模型。
成绩出来了，结果颇令人深思。成绩最好的Claude Opus 4.7通过率为62.5%，意味着它在200道真实工作题中，有超过三分之一没有完成。其余模型的通过率从49%到57.5%不等，整体平均仅为54.8%。
更有趣的是通过率与资源消耗之间的关系。按常理来说，一个模型如果在任务上花了更多时间、思考了更多步骤，应该表现得更好才对。然而数据显示的却是相反的趋势：模型的成功率与它花费的轮次呈弱负相关（Pearson r = -0.49），与消耗的Token数量也呈弱负相关（r = -0.62）。GPT-5.5消耗的平均Token数量是所有模型中最多的，接近50万个Token，但通过率只有53.5%；MiniMax M2.7平均需要27.5轮对话才结束一次任务，比其他模型多出一倍，通过率却垫底，只有49%。
通过对每次任务轨迹的详细分析，研究团队发现了一个结构性的问题：失败的任务平均消耗的Token数量是成功任务的3.3倍，耗时也多出1.4倍，失败任务虽然只占总尝试数的43%，却吞噬了63%的总成本。换句话说，当AI助手遇到不会做的题时，它并不会及时放弃，而是在原地"死磕"——越磕越多，越磕越费钱，最终还是没解出来。这就是研究团队称之为"效率悖论"的现象：在真实终端环境里，计算资源的增加没有带来对应的能力提升。
从不同类别的表现来看，各模型在"环境配置"和"软件构建与测试"类题目上表现相对较好，平均通过率分别达到87.5%和78.1%；但在"性能优化"（平均28.1%）、"脚本与自动化"（39.1%）和"调试与测试"（39.3%）等类别上明显力不从心。而且没有任何一个模型在所有类别上都表现最好，Claude Opus 4.7在云基础设施（83.3%）和容器编排（67.9%）上领先，而Kimi K2.6在脚本与自动化方面（46.9%）反而超过了Claude Opus 4.7（37.5%）。
在成本方面，开源模型展示出显著的性价比优势。三款闭源模型完成200道题的平均花费约为70.82美元，而五款开源模型的平均花费仅为17.13美元，达到4到8倍的成本差距，而性能却与闭源模型相差无几，部分开源模型甚至超越了部分闭源模型。
**四、换个壳子有多大用：六种AI助手框架的横向对比**
除了测试"AI大脑"本身，研究团队还对比了六种不同的"AI助手框架"——可以把它理解成给同一个AI大脑配上不同的"操作规范和工具包"，看看不同的框架能让AI表现得更好还是差不多。
以Claude Opus 4.7为核心大脑为例，研究团队对比了四种框架：标准框架Terminus-2、官方产品Claude Code、面向软件工程的mini-SWE-agent，以及通用AI开发平台OpenHands。通过率分别为62.5%、58%、52%和45%，差距并不算太大，但成本差距却非常悬殊。OpenHands的每道题平均成本高达2.19美元，总费用371美元，是Terminus-2（63.47美元）的将近6倍，但通过率却低了17.5个百分点。
类似的模式在其他AI大脑上也成立。以Gemini 3.1 Pro为核心，Terminus-2的通过率55%、总费用56.82美元，而Gemini CLI的通过率56%（略高），但总费用85.9美元，且平均每次任务消耗的对话轮数高达41.5轮，是Terminus-2的近4倍。以GPT-5.5为核心，Terminus-2通过率53.5%，而Codex CLI通过率48.5%，成本却高出近30%。
研究团队从这些数据中得出一个核心结论：AI助手框架的选择主要影响的是成本效率，而非AI大脑的能力上限。真正决定能否完成任务的，是底层语言模型的推理能力；框架设计得越复杂、越"重"，往往只是让AI探索了更多无效路径，花了更多冤枉钱，而不是让它更聪明。实用的AI终端助手，应该优先降低"探索摩擦"，帮助AI更快找到正确路径，而不是用复杂的编排逻辑堆砌一个华而不实的外壳。
**五、和"应试专家"的对比：真实能力与刷题能力的分离**
这项研究还回答了一个关键问题：在现有测试集上得高分的模型，是否真的在实际工作中更厉害？
研究团队把每个模型在Terminal-Bench 2.0（目前最主流的人工出题测试集）上的成绩，与在TERMINALWORLD-VERIFIED上的成绩放在一起对比。
Terminal-Bench 2.0上，各模型成绩在57%到82.7%之间；TERMINALWORLD-VERIFIED上，同样的模型成绩只有49%到62.5%。不仅整体成绩下滑，排名也发生了明显的洗牌。GPT-5.5在Terminal-Bench 2.0上几乎拿了82.7%的高分，排名靠前，但到了TERMINALWORLD-VERIFIED上，通过率掉到53.5%，落后于多个开源模型。相反，Kimi K2.6在Terminal-Bench 2.0上只有66.7%，在TERMINALWORLD-VERIFIED上却达到57.5%，超过了GPT-5.5和Gemini 3.1 Pro。
两个测试集成绩的Pearson相关系数只有0.20，接近于完全无关。这意味着你在人工出题的测试集上得了高分，并不能预测你在真实工作场景下表现如何。专家出题时倾向于设计那些有明确技巧、需要特定知识点的"考题"，而真实的终端工作更看重的是灵活调度工具、处理未知报错、在开放环境中找到可行路径的综合能力。
**六、AI和人类走的不是同一条路：命令路径的差异分析**
由于TERMINALWORLD的每道题都来自真实的人类录屏，研究团队还能做一件其他测试集做不到的事：把AI解题的命令序列和原始人类录屏的命令序列拿来对比，看看它们究竟有多相似。
对于所有成功解出的题目，研究团队计算了AI使用的命令集合与参考解答命令集合的Jaccard相似度（一个衡量两个集合重叠程度的指标，100%代表完全相同，0%代表完全不同）。结果是：所有模型的中位数相似度只有21.4%，也就是说，AI和人类解同一道题，用的命令通常只有五分之一是重叠的，大部分情况下走的完全是不同的路。
研究团队给出了两个具体例子来说明这一点。在一道"从网络数据包文件中提取HTTP认证信息"的题目中，人类录屏使用的是一个专门用于网络攻击分析的工具ettercap；而AI则选择了tshark加上Python脚本直接解析数据包，两者的命令集合没有任何交集，但结果同样正确。在另一道"修改磁盘镜像文件"的题目中，人类手动用mknod命令创建设备节点来访问分区；AI则直接调用fdisk、mkfs.ext4和mount这些标准工具完成了同样的目标，方式更接近教科书但同样有效。
这个发现印证了TERMINALWORLD的设计哲学：题目只规定最终状态是什么，不规定怎么到达那里。任何能产生正确结果的路径都被认可，无论这条路和人类走的有多不同。这也意味着AI助手已经发展出了属于自己的"解题风格"，而不是在模仿人类。
**七、任务越长，AI越难：复杂度对成功率的影响**
研究团队还深入分析了任务难度对AI成功率的影响，并发现了一个清晰的规律：参考解答需要的命令数量，是预测AI是否能成功的最可靠指标，远比人类完成这道题花了多少时间更可靠。
需要21条以上命令的任务，无论原始录屏中人类用多长时间完成，AI的平均通过率都只有25%到41.2%。而需要6到10条命令的任务，通过率可以高达70.6%。相比之下，人类完成时间的长短就没那么重要——一道命令很少但需要等待很久的任务（比如编译大型程序或等待模型训练），人类录屏可能持续很长时间，但对AI来说只需要正确触发那几条命令再等结果就好，本质上并不复杂。
从命令数量的角度来说，AI的困难在于"计划的长度"：当完成一件事需要按正确顺序执行十几二十步操作时，每一步都有出错的可能，且错误会累积，整个链条断裂的概率就大幅上升。
与此同时，研究团队还发现了另一个规律：不管是成功还是失败的尝试，AI实际执行的命令数量几乎总是多于参考解答的命令数量，而失败的尝试消耗的命令数量又远多于成功的尝试。这和录屏的本质有关——人类录屏是精心准备的演示，是高度精炼的最优路径；而AI需要在陌生环境中摸索、验证、回头修正，自然走了更多弯路。
**说到底，这项研究告诉我们什么**
归根结底，这项研究做了一件看起来平凡却意义深远的事：它把AI助手的测评从"考场"搬回了"办公室"。
当前最强的AI助手，在真实的日常工作面前，仍然有三分之一到一半的任务无法完成。它们不是因为不够努力——恰恰相反，失败的时候它们往往比成功的时候花了更多精力，只是这些精力大部分花在了无效的探索上。设计更复杂的框架和更多的编排层次并不能根本提升能力，反而可能让AI在错误的方向上越走越远。
另一个值得关注的发现是，在现有测试集上得高分并不能保证在真实工作中同样出色。这提醒我们在选择和评价AI工具时，需要更谨慎地看待"跑分"数字，多问问它在你实际工作场景中的表现。
TERMINALWORLD的设计还有一个特别的优点：因为asciinema平台每天都在积累新的录屏，整个数据引擎可以持续运行下去，随着工程师实践的演进而自动更新。AI助手的测试集不会像传统的人工出题库一样迅速过时，而会保持与真实世界的同步。
对于普通用户来说，这意味着今天的AI终端助手还不是一个可以闭眼信任的"全能助理"，对于复杂任务尤其要保持核查习惯。对于研究者来说，如何让AI在开放环境中学会"适可而止"——知道什么时候自己的方向是错的、及时止损而不是继续浪费资源——可能是下一步最值得攻克的方向。
对这项研究感兴趣的读者可以在arXiv平台搜索编号2605.22535查阅原始论文，研究的数据集和代码也已在GitHub上公开，项目名称为TerminalWorld。
Q&A
Q1：TERMINALWORLD基准测试与Terminal-Bench这类人工出题测试集有什么本质区别？
A：TERMINALWORLD的题目全部来自工程师在asciinema平台上真实录制的操作视频，由自动化流水线从中提炼出任务描述、参考解答和测试用例，保证了题目对真实工作场景的忠实还原。而Terminal-Bench等测试集由领域专家手动设计，专家往往倾向于设计有明确技巧点的"难题"，与工程师日常执行的普通任务存在偏差，导致两者的模型排名相关性很低，Pearson相关系数仅为0.20。
Q2：AI终端助手在TERMINALWORLD上失败的主要原因是什么？
A：研究发现主要原因是AI在遇到无法解决的任务时缺乏有效的"停损"机制，会持续在错误方向上探索，导致失败任务消耗的Token数量平均是成功任务的3.3倍，耗时多出1.4倍。真实终端环境的开放性和复杂依赖关系，使得AI无法像解标准题一样靠堆砌计算量取胜，需要真正的规划能力和判断能力。
Q3：增加AI助手框架的复杂度能提升终端任务的完成率吗？
A：根据TERMINALWORLD的测试结果，框架复杂度的提升主要影响成本效率，而非AI的能力上限。以Claude Opus 4.7为例，OpenHands框架的总费用是Terminus-2的近6倍，但通过率反而低了17.5个百分点。研究表明，实用的AI终端助手应优先降低探索摩擦，帮助模型更快锁定正确路径，而不是通过增加编排层次来叠加复杂度。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

腾讯×越疆：Physical AI“深圳方案”在真实产线跑通全链路落地

感知交互大模型加速落地，极豪科技三大创新方案亮相WAIC 2026

小红书赋能青年AI开发者：希望年轻人的创造力被集中看见

WAIC，我们看到这六个趋势

荣耀Robot Phone正式开启预约：8月发布

锂电池要和成品油一样交消费税了！专家称油电同权坚实一步：对电车征养路费还远吗

全站最新

腾讯×越疆：Physical AI“深圳方案”在真实产线跑通全链路落地

感知交互大模型加速落地，极豪科技三大创新方案亮相WAIC 2026

小红书赋能青年AI开发者：希望年轻人的创造力被集中看见

WAIC，我们看到这六个趋势

热门推荐

雷军现身小米汽车工厂澎程N90二排空间宽敞车门电动操作引关注

卢伟冰发文庆米家净水器11周年，800万台销量见证品质与市场认可

腾讯×越疆：Physical AI“深圳方案”在真实产线跑通全链路落地

感知交互大模型加速落地，极豪科技三大创新方案亮相WAIC 2026

小红书赋能青年AI开发者：希望年轻人的创造力被集中看见

WAIC，我们看到这六个趋势

荣耀Robot Phone正式开启预约：8月发布

锂电池要和成品油一样交消费税了！专家称油电同权坚实一步：对电车征养路费还远吗

台积电：A14制程过去三个月进展迅速，手机、AI领域客户兴趣强烈

摆脱制程依赖！东方算芯3D AI芯片DF1000首次展出：获SAIL大奖

OPPO新机PMW110入网，疑似归属Find X10系列

感知系统缺陷导致车辆冲进火场，亚马逊召回105辆Zoox无人出租车

WAIC信息爆炸！大佬们都在说什么，笔记看这里

比亚迪被白宫叫海盗，沃尔沃CEO：中国车企做对了很多事

腾讯WorkBuddy APP正式发布：鸿蒙、iOS、安卓三端同步上线