当前位置: 首页 » 资讯 » 科技头条 » 正文

Claude Sonnet 4.6空降!Office性能干翻旗舰模型,软件股哀嚎一片

IP属地 中国·北京 编辑:孙明 智东西 时间:2026-02-18 14:08:57

编译 | 李水青 程茜

编辑 | 心缘

智东西2月18日报道,今日凌晨,Anthropic推出史上最强Sonnet模型——Claude Sonnet 4.6来了,新模型在编程、计算机使用、长上下文推理、Agent规划、知识工作和设计工作上全面进化。

从Anthropic公布的基准测试结果来看,Claude Sonnet 4.6的智能水平已接近Opus级别,在Agent金融分析、办公任务、视觉推理几项测评中甚至超过在2月6日刚刚发布的Opus 4.6,但成本更亲民。在Claude系列模型中,最小的模型通常称为Haiku,中型模型称为Sonnet,最大、智能水平最高的模型是Opus。

在Sonnet 4.6发布后,美股软件股哀嚎一片。截至美东时间周二收盘,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一位开发者在社交平台X上公布了其试用体验,亮出了Claude Sonnet 4.6与Claude Opus 4.6的游戏生成对比,他称两者效果不相上下,而Claude Sonnet 4.6价格却便宜了近一半

社交平台X上Claude Sonnet 4.6的体验实例

Sonnet 4.6测试版拥有100万token上下文窗口。对于免费和Pro订阅用户,Claude Sonnet 4.6已成为claude.ai和Claude Cowork的默认模型,现已支持文件创建、连接器、专业技能与内容压缩等功能。该模型的价格与Sonnet 4.5一致,每百万token的输入价格为3美元(约合人民币21元),输出价格为15美元(约合人民币104元)。

AWS第一时间宣布Sonnet 4.6已在Amazon Bedrock上架。AWS称,这是Anthropic的最强计算机使用模型,对于正在扩展AI工作流程的企业而言,这意味着在不牺牲质量的前提下获得更高的投资回报率。

这也是Anthropic成为万亿独角兽后,首次亮相新模型。2月13日,Anthropic宣布完成300亿美元(约合人民币2072.61亿元)G轮融资,估值一举跃升至3800亿美元(约合人民币2.63万亿元)。

在Sonnet 4.6发布后,美股软件股哀嚎一片。截至美东时间周二收盘,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

一、效果接近Opus 4.6、成本更低,搜索操作、百万token上下文是亮点

Claude Sonnet 4.6一经发布就在开发者圈引起了关注和讨论。

一位海外开发者称:“Claude Sonnet 4.6以更低的成本实现了接近Opus的智能水平,这意义非凡,适用于预算有限的团队。”另一位网友称:“Anthropic的真正策略已显露:Opus争夺王座,Sonnet蚕食市场。

100万token上下文窗口被多位开发者提及为最大亮点。“100万个token?终于找到一个能读取我整个混乱代码库而不评判我的模型了。”一位网友称。另一位网友也将模型运行了一整天,提到智能编码方面的改进明显:“多文件修改时不再需要过多干预,而且能够记住长时间会话中的上下文。不过,100万个token窗口才是真正的亮点,你可以导出整个代码库,它也不会丢失任何信息。

另一位网友展示了他的试用案例,Claude Sonnet 4.6只用一次调用就重构了他的整个代码库。25次工具调用,新增了3000多行代码,创建了12个全新的文件。它实现了模块化,拆分了单体应用,清理了混乱的代码。“虽然所有功能还没运行,但效果真是太棒了。”

社交平台X上Claude Sonnet 4.6的体验实例

Claude Sonnet 4.6的视觉推理能力有所提升,这一能力之前与Gemini和ChatGPT相比更逊色。一位开发者展示出了Grok 4.20 beta和Claude Sonnet 4.6的SVG生成效果,提示词是“编写SVG代码以创建一个详细的Xbox控制器”。可以看到,Claude Sonnet 4.6生成的图像具有更强的立体感。

在Agent编程方面表现出色”是值得关注的关键点。一位开发者称,Agent编程需要模型一直以来都难以做到的两件事:保持在模型范围内以及不偏离地执行多步骤指令。如果4.6版本确实改进了这两点,那么它就能改变模型的交付方式。

有的开发者则关注“专注于搜索操作”,称这意味着其正在超越自动补全,转而理解代码库之间的连接方式,它将成为复杂系统的导航工具。一位网友称:“搜索功能的改进确实有效,它大大节省了在大型代码库中查找所需函数的时间。

不过也有人担心Copilot Agent模式的代码安全问题。一位网友称,擅长搜索和代码编写的Agent与聊天助手的影响范围截然不同,如果它拥有生产环境提交权限,那么一旦工作流程遭到破坏,就会对供应链构成风险

尽管好评如潮,但也有开发者认为Sonnet 4.6没有达到期待。“我们原本预期Sonnet 4.6在编程方面会胜过Opus 4.5,但结果表明它只是在Cowork方面进行了升级。”有网友甚至称“Sonnet 4.6=Opus 4.5”,也有多位网友提到Sonnet 4.6不仅没有超过GPT-5.2,而且没有对比Codex 5.3的效果,对模型能力天花板表示质疑。

二、多项能力超GPT-5.2,处理复杂表格、填写多步骤网页表单能力接近人类

在整体的基准测试中,Claude Sonnet 4.6的表现在多个项目中表现都超过自家的Opus 4.6,以及Gemini 3 Pro、GPT-5.2。

GDPval-AA是一个独立的评估框架,用于测试模型在具有经济价值的真实世界专业任务上的表现,Claude Sonnet 4.6在Claude Opus 4.6、GPT-5.2等所有比较模型中排名第一。

对于真实世界的软件工程任务测试SWE-bench、衡量Agent交互能力的τ²-bench、多选题测试GPQA Diamond等测试,Claude Sonnet 4.6的表现接近或已超过Claude Opus 4.6。

值得一提的是,OSWorld是衡量AI计算机使用的标准基准,其在模拟计算机环境中,基于真实软件Chrome、LibreOffice、VS Code等设置了数百项任务,不提供任何专用API或定制连接器。在完成任务时,模型就像人类一样看屏幕、操作电脑,如通过点击虚拟鼠标、敲击虚拟键盘完成交互。

2024年10月,Anthropic率先推出一款通用计算机使用模型,但当时,这一模型仍处于实验阶段,容易出错。经过16个月时间,其Sonnet模型在OSWorld基准测试上的成绩逐渐提升。

并且其博客提到,这些进步不仅体现在测试指标上,早期使用Sonnet 4.6的用户还发现,在处理复杂表格、填写多步骤网页表单以及在多个浏览器标签页之间协同操作等任务中,该模型已具备接近人类水平的能力。

在Claude Code中,Anthropic在早期测试中发现,用户大约有70%的时间更喜欢Sonnet 4.6而不是Sonnet 4.5。其原因是,Sonnet 4.6在修改代码之前能更有效地读取上下文,并整合共享逻辑而不是重复它。

此外,更偏爱Sonnet 4.6而非Opus 4.5的用户占到了59%,他们认为Sonnet 4.6不会把问题搞得太复杂,也不会偷懒敷衍,并且在指令遵循方面有显著提升。这些用户报告称,Sonnet 4.6产生的成功假象更少、幻觉更少,在多步任务上的执行也更一致。

三、模拟商业运营盈利能力超对手,深度推理Opus 4.6依然是最强

Claude Sonnet 4.6提供两种模式:一种是“扩展思维模式”,在此模式下,模型会花费更多时间进行推理;另一种是“自适应思维模式”,在此模式下,模型会根据任务的难度,灵活调整在扩展思维模式下花费的时间。开发者可以根据具体任务,自主控制Sonnet 4.6以哪种模式执行任务。

Sonnet 4.6拥有100万token的上下文窗口,研究人员在Vending-Bench Arena评测中看到了这一点,这一基准测试考验的是模型模拟商业运营中的表现,并包含竞争机制,不同AI模型需要相互对抗以获取最大利润。

Sonnet 4.6在这个测试中开发了新策略,它在最初的十个月模拟期间大量投资于能力建设,花费显著高于竞争对手,然后在最后阶段迅速转向专注于盈利。这使得它在最后的盈利结果远远领先于竞争对手。

开发者还发现,Sonnet 4.6在前端代码、财务分析上的改进尤为突出,并且其视觉输出更加精致,布局、动画和设计感均优于之前的模型,仅需要更少的迭代轮次即可达到生产质量的结果。

Anthropic在博客中还公布了其他具体的产品更新:

在Claude开发者平台上,Sonnet 4.6支持自适应思考和扩展思考,以及处于测试阶段的上下文压缩功能。在API中,Claude的网页搜索与内容获取工具可以自动编写并运行代码,对搜索结果进行筛选和处理。

Sonnet 4.6无论思考强度高低,表现都很稳定。相比之下,对于需要深度推理的任务,Opus 4.6依然是最佳选择,例如代码库重构、工作流中多Agent协同,以及精准度至关重要的复杂问题。

在安全评估方面,研究人员评估了Claude Sonnet 4.6在单回合对话场景中提供信息的意愿,并测试了预期Claude会做出无害回应的违规请求,以及涉及敏感话题的良性请求。该评估使用了普通话、阿拉伯语、英语、法语、印地语、韩语和俄语。

结语:高性价比、会用电脑,让AI加速进入真实工作流

Anthropic的模型布局分为Haiku、Sonnet、Opus系列,这些模型对应着不同的价格和智能水平。此次其Sonnet模型的大幅跃升,部分场景可对标甚至超越Opus系列模型,再加上价格亲民、免费版直接可用,都表明大模型高端性能与高成本的强绑定正在被逐步打破。

从具体的性能升级来看,Sonnet 4.6的实际任务执行、幻觉缓解、指令遵循能力上大幅提升,尤其在“像人一样使用电脑”上,其交互更加自然,这也进一步模型深度融入用户在办公、研发、金融、数据分析场景真实工作潜力大幅提升。

标签: 模型 能力 开发者 任务 代码 模式 人类 水平 结果 场景 智能 时间 性能 步骤 方面 基准 花费 计算机 旗舰 编程 效果 风险 网页 表单 编辑 平台 办公 价格 指令 信息 金融 英语 韩语

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。