当前位置: 首页 » 资讯 » 科技头条 » 正文

贴脸嘲讽ChatGPT后,这家公司又发了个最强模型。

IP属地 中国·北京 差评XPIN 时间:2026-02-08 00:16:50


谁能想到呢,本周的硅谷AI圈,已经演变到了大家喜闻乐见的互喷环节。

起因是周三晚上,Anthropic在他们美国人的“春晚”上,放了几条广告,明牌嘲讽OpenAI在ChatGPT里塞广告,直接把讽刺都打到公屏上了:广告在入侵AI,但不会出现在 Claude。


奥特曼当场就坐不住了,凌晨六点在X上敲了一篇长文,说Anthropic的广告"明显不诚实","德州用ChatGPT免费版的人比全美用Claude的人还多"。。

不过插广告这事儿确实不是大伙喜欢的,可以预见的,评论区一边倒地,说他破防了。

哎,光说不解气,不然打一架?

第二天,还真打起来了。不过不是线下真实嗷,是 Anthropic 把 Claude Opus 4.6 摆上了台面。


OpenAI 那边也不甘示弱,在Opus 4.6上线二十多分钟之后,火速掏出了GPT-5.3 Codex应战。


不过,这波对轰虽然热闹,两边的招式其实不太一样。 Anthropic 这次,是拿出了自己最强的通用模型,而 OpenAI 拿出的 Codex,其实是个专精代码的“偏科生”,对大多数人来说用不到。。总感觉气势上就输一头啊。

所以今天世超先撇开那个写代码的,还是来聊聊大家更感兴趣的通用模型, Claude Opus 4.6 吧。

先说结论,在"干活"这件事上,Opus 4.6 应该可以算目前最强的大模型。

跑分图什么的,大伙估计都看腻了,也基本都是分数要比老模型高一点点,当然也有少量不如的,不过对咱来说,看的还是综合体验嘛。


所以我们仔细翻了下 Anthropic 官方的介绍和 System Card,把几个真正有料的升级给各位拎了出来。

首先,上下文窗口终于破百万Tokens了。

之前,Opus系列最让人诟病的,就是20万Token的上下文,而隔壁 Gemini 的百万上下文早用了快两年了。

而 Opus 4.6 在 MRCR v2 这个评测里拿了76分,我们俗称“大海捞针”,也就是在巨长上下文里找到我们想找的东西,而上一代Sonnet 4.5是18.5分,一下提升了四倍,可以说是质变了。


但上下文这玩意,重点不是数字大不大,而是能不能真好用啊,很多模型号称百万上下文,实际上塞到后面就开始记忆错乱,胡言乱语了。

所以这次 Anthropic 是有备而来,他们提了一个叫“上下文衰减”的概念,是指上下文过长时,注意力分配被稀释,导致模型难以精准捕捉一些细小的信息。说白了就是 AI 的脑容量被稀释了,读了后面忘前面,在海量信息里找不着重点。


而Claude现在的解决思路,叫“上下文压缩”,能在对话达到 Token 阈值时,自动将冗长的历史记录压缩成高浓度的摘要,就好比你追了几百集电视剧脑子不够用了,它不仅帮你把前面那些啰嗦的情节删了给大脑腾内存,还能自动生成前情提要让你无缝衔接下一集。

但世超实测了一下,是有点想吐槽的。

我缺的是上下文吗,好像是额度啊!Pro 版订阅根本聊不到上下文顶点就用光光了。


而且我试了一下,一次喂大量上下文的能力,是干不过Gemini的。比如我最近有个研究物理的项目,找到了一份天文学家里希尔的原版著作,在阅读中碰到了疑问,因为他的一个计算结果和牛顿老师完全不同!

然后我把这个200多页的书丢给Gemini,问他到底是谁的问题。

Gemini读完,理解得又快又准,并且精确指出了里希尔原文的页码数,一通操作指出,牛顿是对的。


而 Opus 4.6 这边好像是有 bug,一本书根本喂不进去,显示error。我最后只好给它拆成了两半。


不过拆完就蛮顺利的了,它成功找到了出问题的页码数,还给了精确的推理分析,质量跟Gemini 3 Pro不相上下。


所以能力这块是完全过关的,至于为什么一次喂不进一本书,可能是一种仁慈的防token爆炸机制吧。

当然就这也不够说“干活最强”,Claude现在最强的地方,其实是“实操”的能力。

咋说呢?你就看之前AI圈爆火的干活工具,什么 MCP,Skill,都是Claude先用上,就连不久前爆火的 Clawdbot (现OpenClaw)现在的默认推荐模型都是Opus 4.6。


就是因为 Opus 这玩意,操作电脑的能力,确实太狠了。

比如我问它,我现在用的显示器,二手货最便宜能多少钱。


我就只需要给它说一句话,它就能自己调用MCP,连接我的电脑,查看我的显示器型号,再自己上网去闲鱼搜最低价。


最终搜出来的价格,跟我自己上闲鱼搜的大差不差,而且最骚的是它还知道国补,让我别买二手,考虑直接加钱换新,全程不需要我干预,可以说真的很像真人助理了。


除了这个,Claude Opus的编码能力一直是压着其他家打的,从竞技场排名来看,Opus 4.5已经打遍无敌手了,现在又来了个4.6,真遥遥领先了。


再配合上超模的动手能力,能力据说已经能媲美高级工程师——这评价来自日本乐天公司的AI总经理,说 Opus 4.6 一天之内自己修好并关闭了 13 个 Bug,还看懂了另外 12 个问题是谁负责的,自动把活派给了对应的程序员。


咱也来了点简单的活,让它写个 CS 的 demo 发到我电脑上。


结果确实好用,html文件直接出现在了桌面,点开就能玩,血量、地图、子弹都显示得完全正确。


最后,Opus 4.6 还有个最顶级的能力,搜集信息,而且不是一般的信息,是各种你不确定的,犄角旮旯里的信息,它都能给你找着。AI 界把这叫做 BrowseComp,Opus 4.6 强势登顶。


这一点在世超日常使用时也深有体会,其他模型搜不到的情报,Claude 能直接给你定位来源,然后端上来。

比如,差友都知道咱差评有个内部梗,就是925,不算出圈,基本只有咱差友自己知道。

那可能有些新差友,不知道这个梗,可以去哪搜呢?咱先用Gemini和GPT试试。

结果无一例外,全部败下阵来。



结果去问了下Claude,直接一个精准命中,连今日最佳都知道,原来 Claude 也是差友吧。。


这也是为啥世超最近验证传言、搜集事实都用 Claude Opus,省心的不止一星半点啊。

这一堆子体验下来,Claude Opus 整体给人一种成熟稳重的感觉,如果你让我选择一个“它办事我放心”的AI,我毫不犹豫选的就是Claude。既然这么强,为啥在用户这块老不温不火啊?世超觉得,和 Claude 选择的路线脱不开关系。

Anthropic 从一开始就奔着"最能干的AI同事"去的,你看它的产品线,Claude Code、Cowork、Excel插件,全都一个目的,帮你把活干完。

而这,也是老板最喜欢的特质,所以企业客户占了 Anthropic 收入的 80%,这条路确实它最能打。

Claude 的风格这么偏商务风,我觉得也跟它目标客户有关。(说是这么说,感觉比其他两家好看多了。。)


而其他两家则是各有各的说法。

ChatGPT 这边,奥特曼的野心显然不只在做一个“好员工”了,最近的产品节奏也是真的猛,光 2026 年到现在就发了ChatGPT Health、Codex 桌面 App、Prism(科研工具),以及刚发布的企业平台 Frontier,还想抢块企业市场的蛋糕。 这意思像是,C 端靠用户量和广告,B 端靠平台和生态,两手都要抓,就是不知道抓不抓得住了。

至于Gemini,则想靠生态进行一个降维打击,在Gemini里你能干谷歌生态里的任何事,回邮件,传网盘,甚至看Youtube。再加上几十亿台安卓手机,如果 AI 真像水电一样渗进你每天都在用的 App 里时,单纯卖模型的公司只能拿头打。

至于谁能笑到最后?

有个网友的评论我觉得很到位:"2026年最聪明的做法不是选一个最好的模型,而是知道每个模型最擅长什么,换着用。"

说得非常对啊,我认可,但唯一的缺点是我钱包有点不对了。

撰文:不咕

编辑:江江&面线

美编:不咕

图片、资料来源

Anthropic、X


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。