OpenAI 推出 GPT-5.1-Codex-Max 编程模型：可 “通宵” 处理任务，性能跑分超越谷歌

IP属地中国·北京 环球网资讯 时间：2025-11-20 14:14:37

环球网
11月20日消息，据VentureBeat报道，OpenAI昨日正式发布新一代智能体编程模型GPT-5.1-Codex-Max，该模型在长远推理、工作效率及实时交互能力上实现显著提升，将取代GPT-5.1-Codex成为Codex集成界面的默认模型，为全球开发者带来更高效的编程辅助体验。

作为OpenAI在编程模型领域的重要升级产品，GPT-5.1-Codex-Max在多项关键编程基准测试中表现亮眼。在衡量实际软件问题解决能力的SWE-Bench Verified测试中，其准确率达到77.9%，小幅领先于谷歌Gemini 3 Pro的76.2%；在Terminal-Bench 2.0测试中，以58.1%的准确率优于Gemini 3 Pro的54.2%；而在竞争激烈的LiveCodeBench Pro编码Elo基准测试中，该模型与Gemini 3 Pro的2439分持平，展现出强劲的综合性能。
此次模型升级的核心亮点是引入“压缩”（Compaction）机制。这一创新架构允许模型在接近上下文窗口限制时，智能保留关键信息并丢弃无关细节，实现了跨越数百万token的连续工作而不降低性能。依托该机制，模型在内部测试中成功完成了持续超过24小时的复杂任务，包括多步骤代码重构和自主调试，同时token效率提升约30%，有效降低了开发成本与响应延迟。
目前，GPT-5.1-Codex-Max已集成到OpenAI旗下多个Codex开发环境，涵盖官方命令行工具（Codex CLI）、内部代码审查工具及各类交互式编程环境。开发者可通过这些工具体验强化学习训练可视化、光学定律模拟等实时交互功能。该模型暂未通过公共API开放，官方表示后续将逐步推进，普通用户需订阅ChatGPT Plus、Pro或企业版等付费计划使用。
据OpenAI透露，其内部95%的工程师每周都会使用Codex系列工具，自采用以来，工程师平均拉取请求（Pull Requests）提交量提升约70%，开发效率显著提高。针对模型的自主性应用，OpenAI明确强调其定位为编码“助手”而非人类替代品。为保障开发安全与透明度，模型会生成详细的终端日志和测试引用，方便开发者审查验证代码，且默认运行于严格的沙盒环境，禁用网络访问以防范安全风险。（纯钧）

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

全站最新

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

热门推荐

报道：苹果与美国司法部就反垄断案进行早期和解谈判

WAIC观察｜越疆携手腾讯，让Physical AI走进真实工厂

GameStop CEO：索尼停产实体游戏盘对我们无关紧要

国产大模型Kimi K3自主设计AI芯片：45nm工艺 100Mhz频率

社评：面对人工智能时代之问，世界期待中国方案

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

企业级Agent落地生产困境何解？评估先行成破局关键密码

高德问店上线：AI赋能商户，一站式解决选址经营难题获用户好评

AI产品开箱即用腾讯智能体集中亮相WAIC

阿里云王坚：对AI理解科学的想象，还局限在人类写出来的知识里

英矽智能创始人：中国让人工智能惠及全球更多国家

字节两员离职大将，单挑老东家？

阿维塔07L开启预售：全系标配华为ADS 5与896线激光雷达，24.99万元起

对话|大晓机器人董事长王晓刚：商业化落地路径采取先To B后To C