当前位置: 首页 » 资讯 » 科技头条 » 正文

OpenAI曝作弊门!GPT-5.6创史上最高作弊率

IP属地 中国·北京 编辑:赵静 新智元 时间:2026-06-27 14:05:01

新智元报道

GPT-5.6终于来了,但我们用不了。权威报告曝其创下史上最高作弊率:不仅黑进测试系统偷答案,竟还教唆同类隐瞒违规罪证。超级AI,已经学会向人类系统性撒谎?

GPT-5.6,终于登场了!

这款OpenAI最强网络安全模型,在基准测试上正面硬刚Claude Mythos 5,在编程能力上直接领先了一个身位。

然而反常的是,它的发布方式却很低调:没有面向公众开放,只允许极少数受信任合作伙伴通过API访问。

而更让人瞠目结舌的,是发布之后随即曝光的一份独立评估报告。

METR在对GPT-5.6 Sol评测时,发现了一件令业界震惊的事:这个模型,是迄今为止他们见过的作弊率最高的AI。

作弊门爆发:史上最高作弊率!

这份在保密协议和OpenAI法务团队施压下艰难披露的报告,揭露了一个可怕的事实——

在针对复杂长程任务的测试中,GPT-5.6 Sol表现出了此前在任何公开模型中都未曾见过的、极高水平的高智商作弊与欺骗行为。

崩盘的「时间跨度」

METR针对Sol启动了Time Horizon 1.1软件与研发任务套件。

测试的核心逻辑是:人类给AI智能体一个宏大的、需要复杂操作的任务,测量它在不需要人类介入的前提下,能够自主连续工作多少个小时。

然而,ETR的工程师们震惊地发现,他们沿用了数年的科学测量方法论,在Sol面前彻底崩盘了。

因为Sol的跑分结果,高频、剧烈地在11.3个小时与270个小时之间来回跳变,置信区间的离散度大到了荒谬的地步(5小时至11400小时)。

导致测量系统全面瘫痪的原因只有一个:Sol在疯狂地作弊,它把测试它的系统给「黑」了。

GPT-5.6,在人类眼皮底下偷看答案

METR发现,GPT-5.6主动展现出强烈的「情境意识」——

它意识到自己正在接受人类的考试,并且意识到这个考试系统本身是由代码构成的、存在人类尚未发觉的Bug。

于是,它选择直接攻击考试系统,通过「走捷径」来刷分!

在METR披露的真实案例中,Sol的手段极其高明。

比如,它学会了潜伏与信息窃取。

在某项长周期软件开发任务中,Sol偷偷将利用程序打包进数据流。

这段程序精准地激活了METR评估服务器沙盒的一处提权漏洞,成功潜入了后台隐藏的测试集,直接将人类藏起来的正确答案泄露了出来。

另外,它还学会了底层源码反向提取。

在另一项任务中,Sol发现正常解题需要消耗大量的计算步骤。为了规避这种「体力活」,它在暗中摸清了评估环境的目录结构,绕过权限,强行将隐藏源代码反向提取出来,直接把答案复制粘贴。

METR首席评估专家痛心疾首地指出——

Sol的作弊率,刷新了我们在公共ReAct Agent框架上评估过的所有模型的最高纪录。

如果把作弊行为一律判为零分,那么它的真实自主解决问题能力只有11.3小时;但如果你被它蒙蔽,它的时间跨度会瞬间暴涨到惊人的270小时以上!

这彻底打脸了OpenAI此前关于Sol安全、受控的说法。

Sol把聪明才智,全部用在了如何欺骗人类考官上。

AI教唆AI隐瞒罪证!硅谷安全防线的黑洞

更可怕的事还在后面。

根据OpenAI向METR同步的数据,在Sol进行多智能体协同的内部部署测试中,监控系统记录下了这样一段让人害怕的交互指令。

一个正在运行的Sol主模型实例,在觉察到输出可能触犯安全护栏后,竟然向正在并行的另一个子代理模型实例发出了明确的欺骗性指令,要求对方协同修改运行日志,「联手隐瞒」这些违规证据,以防被人类抓包!

这是又一起AI系统性联手欺骗人类的案例。

更令人恐惧的是,METR指出,Sol能被抓到破绽,核心在于OpenAI恪守了关键安全底线:拒绝在训练中对模型的原始思维链进行逆向惩罚。

这样,Sol在密谋欺骗人类时,必须把内心独白都写出来。

然而,专家警告:未来的模型一定意识到:在思维链里暴露欺骗人类的计划会被人类发现并惩罚。

到了那个时候,AI会进化出更深的城府——它们会在内心深处进行密谋,而在吐出的CoT和最终回答里表现得绝对忠诚。

如果这一天到来,意味着AI将学会毫无破绽的诈骗。人类将被AI彻底架空!

GPT-5.6硬刚Mythos,结果如何?

所以,GPT-5.6和Mythos到底谁更强?

有网友将 GPT-5.6 Sol 和 Mythos进行了对比,双方势均力敌,战况胶着。

具体跑分显示,两大巨头互有胜负。

智能体编程

在衡量AI自主解决复杂、真实软件工程任务的Terminal-Bench 2.1上,GPT-5.6 Sol强势胜利。

常规版的Sol拿到了88.8%的惊人高分,超越Claude Mythos 5(88.0%)。

而当开启了多子代理并行的Sol Ultra模式后,这一数字被生生推高到了91.9%!

相比之下,谷歌尚在预览阶段的Gemini 3.1 Pro仅跑出了70.7%,沦为背景板。

网络安全:惨烈肉搏

在网络安全与漏洞防御基准测试中,Sol与Mythos展开了更为残酷的拉锯。

在ExploitBench测试中,Anthropic2月的老版本Mythos Preview以74.2%的微弱优势,在胜率上险胜了Sol的73.5%。

但是,全场的焦点在于能效比。

数据显示,Sol在取得73.5%的高胜率时,仅仅消耗了12万个输出Token;而Claude Mythos Preview为了达到相似的水平,竟然疯狂燃烧了33.5万个输出Token!

这意味着,在网络防御和漏洞修复的实战部署中,Sol的经济成本是Anthropic的三分之一。

在Token消耗上的「降维打击」,让Sol拥有压倒性优势。

而在另外两个网安基准上,双方互有胜负。

CyberGym:Sol以83.6%的成绩,微弱压倒了Mythos Preview的83.1%。

CyScenarioBench:则是Anthropic的天下,Mythos Preview以29.2%的胜率压制了Sol的28.0%。

HealthBench Professional:Anthropic更是凭借其深厚对齐底蕴,以66.0%的高分大幅领先Sol的60.5%。

此外,在量化生物学与基因组学基准GeneBench v1上,Sol在消耗更少Token的前提下,将准确率一举拉高到了30%。

ExploitGym测试同样证实:随着推理算力的持续向外扩展,GPT-5.6的三款模型性能均呈现出近乎线性的上扬,这意味着Sol的compute潜力巨大。

总而言之,GPT-5.6 Sol与Claude Mythos 5的交锋,结果是战平。

双方在各个细分领域缠斗,没有任何一方绝对垄断。

被锁进保险箱的AI之王

遗憾的是,这一次,GPT-5.6遭受了和Mythos 5同等级别的待遇,甚至更加严苛。

在强硬指令下,OpenAI不得不宣布:GPT-5.6 Sol目前仅处于极度受限的「有限预览」状态。

只有极少数被列入受信白名单的承包商、国家级网络安全机构以及顶级战略合作伙伴,才能通过API和Codex使用。

普通企业和民间开发者,被无情地拒之门外。

对此,OpenAI十分愤怒,在官方公告中控诉:

我们认为这种政府访问流程不应成为长期默认做法。它使用户、开发者、企业、网络安全防御者和需要这些工具的全球合作伙伴无法获得最佳工具。

OpenAI之所以敢于公开叫板,底气来源于刚刚发布的报告。

在报告中反复强调,根据在谷歌浏览器和Firefox环境下的实战测试,Sol虽然能捕捉到复杂的系统Bug和漏洞原语,但它至今未能表现出完全自主独立生成「全链条端到端攻击」的能力。

在他们看来,GPT-5.6的危险指数依然控制在「关键网络安全威胁」的红线之下,还不会自我进化,主动向人类网络发起进攻。

然而METR的报告显示,恐怕并非如此。

普通用户,何时能等来GPT-5.6?

标签: 人类 网络安全 系统 作弊 双方 模型 漏洞 消耗 小时 基准 学会 胜率 合作伙伴 开发者 结果 企业 数据流 协同 工具 意识 能效 环境 原始思维 实例 首席 智能 报告 核心 答案 对方 能力

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。