约1000行代码搭起网页AI智能体：微软Webwright登场

IP属地中国·北京 IT之家 时间：2026-05-26 12:12:57

IT之家 5 月 26 日消息，微软研究院本月发布开源网页智能体框架 Webwright，让 AI 模型在终端里编写 Playwright（浏览器自动化库）代码、执行 bash 命令、查看日志并反复修正。
IT之家援引博文介绍，常见网页智能体采用“截图或 DOM 状态 → 预测下一次点击、输入或滚动”模式，而微软 Webwright 让模型直接在终端中写 Playwright 代码、执行 shell 命令、检查日志、截图和报错，再持续修改脚本。
在架构方面，该框架采用 Runner、Model Endpoint 和终端环境 3 个核心组件。公开信息显示，Runner 约 150 行代码，模型接口约 550 行，环境部分约 300 行，总计约 1000 行，没有多智能体编排，也没有复杂分层规划。

在执行流程上，Runner 把当前上下文发给模型，模型返回思考内容与一条 shell 命令，环境执行后再返回终端输出、日志、截图或错误栈，随后进入下一轮。
相较一次只预测一个低级动作，代码方式更适合表达多步网页任务，例如完整填写表单、选择日期、跨页面重复操作，也更容易借助循环、函数和抽象复用能力。
团队重点解决了 2 个工程问题。首先是“过早宣告完成”，模型可能在任务没真正结束后就声称成功。
为此，Webwright 加入一个门控步骤：模型必须先生成自检配置，再在全新文件夹里运行最终脚本，结合日志和截图通过自我反思判断成功或失败，之后才能输出完成标记。
其次是上下文膨胀，长轨迹编码容易超出上下文限制，因此系统每 20 步会把历史压缩成一份摘要。
基准测试方面，Webwright 在 Online-Mind2Web 和 Odysseys 上都给出较强表现。前者包含 300 个任务、覆盖 136 个常用网站，基于 GPT-5.4 的 Webwright 整体准确率达到 86.67%，在 100 步预算下位列公开 harness 配方前列。

Odysseys 关注跨多网站的长链路浏览任务，任务指令平均 272.3 个词。2026 年 4 月榜单最佳模型 Opus 4.6 得分为 44.5%，而 Webwright＋GPT-5.4 达到 60.1%，相对此前最佳结果提升 35.1%，比基础 GPT-5.4 的 33.5% 高出 26.6 个百分点，提升 81.49%。

参考

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

张雪回应捐款500万驰援广西有点多

字节跳动公益基金会捐赠2000万元，支援广西、湖北、甘肃灾区

三六零：预计上半年净利润1.8亿元-2.6亿元

美团回应多业务线集中裁员：实际离职员工不到2000人

美媒紧盯诺奖得主赴华：中国许多领域已经领先

2026中国互联网大会｜探讨智能体的安全发展与新质生产力的提升路径

全站最新

新能源车快充接口损坏怎么办？快速补能受阻，慢充能否救急？

张雪回应捐款500万驰援广西有点多

字节跳动公益基金会捐赠2000万元，支援广西、湖北、甘肃灾区

三六零：预计上半年净利润1.8亿元-2.6亿元

热门推荐

GPT-5.6全量上线，Codex融入ChatGPT：高性价比模型开启办公新篇章

papi酱“反向操作”撕掉老板标签，坚守初心成网红圈“常青树”密码

张雪回应捐款500万驰援广西有点多

字节跳动公益基金会捐赠2000万元，支援广西、湖北、甘肃灾区

三六零：预计上半年净利润1.8亿元-2.6亿元

美团回应多业务线集中裁员：实际离职员工不到2000人

「全球首款智能体手机」已备货8万至10万台？知情人士：无备货数万台之说

美媒紧盯诺奖得主赴华：中国许多领域已经领先

三星杀回PC芯片战场：自研AI专用芯片GAIA已送测联想惠普， 2027 年量产

Meta 发布新旗舰模型 Muse Spark 1.1，升级多代理自动化功能

2026中国互联网大会｜探讨智能体的安全发展与新质生产力的提升路径

从大疆离职，被雷军投24亿，哈工大女教授造出百亿独角兽

苹果iPhone Ultra？消息称苹果供应商入网备案4883mAh电池

腾讯火速上线蛇伤救治地图：一键直达周边有血清的医院

小米胡峥楠：澎程N90从内饰设计需求出发，再反过来确定外观