Cursor 实测：在长程自动化编程任务中，GPT-5.2 表现优于 Claude Opus 4.5

IP属地中国·北京 编辑：顾青青 Chinaz 时间：2026-01-15 16:28:20

知名 AI 编程辅助工具Cursor近日分享了一项内部测试发现:在处理超长程、自主性的编程任务时，OpenAI 最新的GPT-5.2模型表现出比 Anthropic 的Claude Opus4.5更高的可靠性。为了验证模型能力，Cursor 团队尝试从零开始构建一个功能完备的Web 浏览器，涵盖了 HTML 解析、CSS 布局及自定义 JavaScript 虚拟机等复杂底层架构。
实测结果显示，GPT-5.2在这种需要数百万行代码、耗时数周的“长跑式”任务中，能够更精准地遵循复杂指令，并保持极高的专注度，有效避免了长程任务中常见的“目标漂移”问题。相比之下，Claude Opus4.5虽然在许多场景表现出色，但在处理此类极大规模工程时，往往更倾向于中途停止或寻找捷径，提前交出控制权。
目前，Cursor已在其平台上同步上线了GPT-5.2模型，旨在探索 AI 代理是否能独立完成通常需要人类团队花费数月才能完成的大型项目。除了浏览器实验，该模型还成功完成了包括 Windows7模拟器及超百万行代码的复杂迁移任务，展现了生成式 AI 在自主工程领域的巨大潜力。
划重点:

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

独家｜阿里将推出千问办公，旗下三款智能体合并

“Scaling Law要把硬件加进来”，京东给物理AI算了另一笔账

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

全站最新

独家｜阿里将推出千问办公，旗下三款智能体合并

“Scaling Law要把硬件加进来”，京东给物理AI算了另一笔账

理想L6超充不伤电池？官方实测：50万公里后容量仍超80%

月之暗面回应马斯克：欢迎掰手腕

热门推荐

我国杂交水稻育种科研取得重要进展

独家｜阿里将推出千问办公，旗下三款智能体合并

“Scaling Law要把硬件加进来”，京东给物理AI算了另一笔账

三星Galaxy Unpacked 2026发布会前瞻：三款折叠屏新机与智能手表齐亮相

Adobe Project Indigo 1.1版上线：AI助力照片编辑，一键清除干扰元素轻松出片

谷歌Gemini三箭齐发，Flash降价提效、网络安全模型直指Anthropic，旗舰3.5 Pro仍难产

马斯克放言将超越Kimi，月之暗面回应：欢迎较量且信心更足

阿里云函数计算云沙箱7月31日起启用新计费模式降本增效满足多元需求

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

口子窖陷渠道重构阵痛，徽酒老三腹背受敌

起底酒店低价早餐券灰产：用差评换“霸王餐”，有商家卖出3万张获利数十万\n

66款AI硬件通过L3认证：华米OV耀全员入围，但没人突破L4天花板

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

首页

新科技

新金融

新零售

智能车

房地产

科技探索

人物资讯

网络游戏

人工智能

Cursor 实测：在长程自动化编程任务中，GPT-5.2 表现优于 Claude Opus 4.5

首页

资讯

财经号

智能车

专题

电商资讯

人物资讯

滚动资讯

​Cursor 实测：在长程自动化编程任务中，GPT-5.2 表现优于 Claude Opus 4.5

同类资讯

Cursor 实测：在长程自动化编程任务中，GPT-5.2 表现优于 Claude Opus 4.5