当前位置: 首页 » 资讯 » 科技头条 » 正文

Anthropic新模型杀疯了!成本直降 2/3、性能直逼GPT-5,用户实测:比“吹”的还强,速度超Sonnet3.5倍

IP属地 中国·北京 编辑:郑浩 AI前线 时间:2025-10-16 14:06:11

整理 | 华卫

刚刚,Anthropic 发布了 Claude Haiku 4.5 版本,现已面向所有用户开放。据悉,这是其最小型模型的最新版本,官方宣传其性能与 Sonnet 4 相近,“成本仅为后者的三分之一,速度却超过两倍”。

Haiku 新版本将立即在 Anthropic 所有免费套餐中上线。该公司认为,新版本对 AI 产品的免费版本而言将具备特殊吸引力,因为它既能提供强大功能,又能将服务器负载降至最低。

Anthropic 发言人表示,“Haiku 4.5 的发布,意味着所有用户都能通过 Claude.ai 免费使用接近前沿水平的智能。同时,它也为我们的企业客户带来显著优势:Sonnet 4.5 可负责前沿规划,Haiku 4.5 则为子智能体提供支持,打造出多智能体系统,从而快速、高质量地处理复杂重构、迁移及大型功能构建任务。”

更快、更便宜,

性能逼近 Sonnet 4 和 GPT-5

“Haiku 的表现远超其自身定位。”Anthropic 首席产品官 Mike Krieger 在接受采访时表示。

Haiku 4.5 是一款混合推理模型,这意味着它能够根据处理请求的需求,灵活调整所使用的计算资源量。默认情况下,该模型的算法会通过一套仅需有限硬件资源的工作流程生成响应。用户可开启 “扩展思考”(extended thinking)模式,让 Haiku 4.5 生成更复杂的响应,不过这类响应的生成耗时会更长。据该公司介绍,Haiku 4.5 能够处理包含多达 20 万个 token 信息的多模态提示词。这一能力使其可以处理大型文件,例如篇幅较长的商业文档。该模型每次响应最多可输出 6.4 万个 token。

Anthropic 表示,这款模型速度更快,性能甚至优于数月前还被视为行业前沿的其他大型模型。例如,在计算机使用能力上,Claude Haiku 4.5 优于该公司 5 月推出的中型模型 Claude Sonnet 4。而在代码生成能力方面,根据用于测试 AI 系统软件编码能力的数据集 SWE-bench Verified 显示,它的表现与 Claude Sonnet 4 以及 OpenAI 最新模型 GPT-5 相近。

并且,Anthropic 引用了一系列新的基准测试结果来支撑这些性能说法。在该公司的测试中,Haiku 在 SWE-Bench 验证基准测试中得分为 73%,在以命令行为核心的 Terminal-Bench 基准测试中得分为 41%。这一成绩低于 Sonnet 4.5,但在两项测试中均与 Sonnet 4、GPT-5 以及 Gemini 2.5 持平。

测试显示,在工具使用、计算机使用和视觉推理类基准测试中,Haiku 也取得了相近结果。在 OSWorld 基准测试中,Haiku 4.5 得分达 50.7%,显著超过 Sonnet 4 的 42.2%。其在模拟人类计算机操作方面的出色能力,为自动化领域开辟了新可能。借助 Python 工具支持时,该模型数学任务得分达 96.3%;即便不使用工具,也保持着 80.7% 的优异表现。在以终端为核心的编码任务中,Haiku 4.5 得分 41.0%,同样优于 Sonnet 4 的 36.4%。

此外,Anthropic 对 Haiku 4.5 开展了一系列详细的安全性与对齐性评估。该模型的风险行为发生率较低,且对齐表现显著优于其前代产品 Haiku 3.5。在自动对齐评估中,Haiku 4.5 的总体未对齐行为率在统计上也显著低于 Sonnet 4.5 和 Opus 4.1。该公司称,“以这一指标衡量,Claude Haiku 4.5 成为了我们目前最安全的模型。”

现在,Haiku 4.5 已在全平台上线。作为开发者,只需在 Claude API 中调用 claude-haiku-4-5 即可使用。其定价为每百万输入 tokens 1 美元,每百万输出 tokens 5 美元。相比之下, Sonnet 4.5 的价格是其三倍,其定价为每百万输入 tokens 3 美元、每百万输出 tokens 15 美元;而 Opus 4.1 的定价更高,为每百万输入 tokens 15 美元、每百万输出 tokens 75 美元。

值得一提的是,有用户测试后反馈,“‘两倍多速度’其实还是低估 Haiku 了,说实话。我搭建了一个能直接对比 Sonnet 和 Haiku 4.5 的方法,发现 Haiku 4.5 速度大概是前者的 3.5 倍。而且用户体验感要好得多,因为 Haiku 能始终保持在‘流畅响应区间’内。”

“解锁了一整套全新应用场景”

Haiku 4.5 的发布,延续了 Anthropic 近期一系列备受关注的产品发布节奏:两周前,该公司刚推出 Sonnet 4.5;两个月前,推出了 Opus 4.1。这两款产品在发布时均被赞誉为 “行业领先水平”。而 Haiku 的上一个版本发布于 2024 年 10 月。

该公司表示,Sonnet 4.5 仍是 Anthropic 性能最强的模型,而 Haiku 4.5 则为用户提供了新选择:当用户希望获得接近前沿的性能,同时又追求更高成本效益时,它便是理想之选。“即便对我个人使用而言,尽管它不如 Sonnet 智能,但我在 Claude 上已开始默认使用它,尤其是在移动应用端 —— 因为它能快得多地给出答案。” Krieger 说道。

此外,该模型的轻量级特性意味着,更易于并行部署多个 Haiku 智能体,或与更复杂的模型搭配使用。

例如,在多模型协同使用方面,Sonnet 4.5 可将复杂问题拆解为多步骤计划,随后协调多个 Haiku 4.5 模型组成 “团队”,并行完成各项子任务。Krieger 指出,让这两款模型协同工作,对希望借助 AI 处理长期项目的企业而言尤为实用。“企业可让 Haiku 监控金融数据流 —— 由于它体型更小、成本更低、速度更快,能处理更大体量的数据 —— 随后将初步洞察结果移交 Sonnet,由后者进行更深入的分析。” 他解释道。

Informa TechTarget 旗下子公司 Omdia 的分析师 Lian Jye Su 表示,Anthropic 设计 Haiku 的初衷显然就是为了辅助 Sonnet,“这样能带来高得多的成本效益比” 。他补充称,若用户选择通过大型模型 Sonnet 运行 AI 项目,会导致 token 消耗量大幅增加,成本也随之升高;相比之下,将任务分配给 Haiku 这类小型模型,性价比会更高。使用 AI 技术的企业应从一开始就明白,AI 工作流十分复杂,需做好准备,通过混合使用大型与小型模型来提升成本效益。

Futurum Group 分析师 David Nicholson 则对于 Sonnet 4.5 与 Haiku 4.5 之间 “分工协作” 的能力提出了一些疑问:“它们如何拆分任务,又如何确保原始目标的完整性不受影响?每个 Haiku 实例都会生成独特的数据,执行子任务的所有 Haiku 实例,是否能知晓其他实例的工作内容?将一项任务拆分为子任务的效率,又存在哪些局限?”

Krieger 表示,Haiku 将首次让全新的生产环境部署模式成为可能。“它为生产环境中的 AI 开辟了全新应用领域 ——Sonnet 负责复杂规划,而由 Haiku 驱动的子智能体则快速执行任务,我们为用户提供了一套完整的智能体工具库,其中每个模型都针对任务的不同环节,具备了智能、速度与成本的最优组合。”

Haiku 4.5 最直接的应用场景还可能出现在软件开发工具领域。Claude Code 已在该领域广泛使用,而延迟往往是该领域的关键影响因素。在 Anthropic 提供的声明中,Zencoder 首席执行官 Andrew Filev 将 Haiku 新版本描述为 “解锁了一整套全新应用场景”。

目前,已有多家企业接入 Haiku 4.5 并反馈了积极效果。代码初创公司 Augment 的联合创始人 Guy Gur-Ari 表示,该模型 “达到了我们此前认为不可能的平衡点:接近前沿水平的代码生成质量,兼具极快的速度与成本效益”。在 Augment 的内部测试中,Haiku 4.5 实现了 Sonnet 4.5 90% 的性能,同时表现与规模大得多的模型相当。

另一家聚焦代码领域的初创公司 Windsurf 首席执行官 Jeff Wang 称,Haiku 4.5 “模糊了” 速度、成本与质量之间传统权衡的界限。“它是一款兼具速度与前沿性能的模型,同时保持了成本效率,也预示了这类模型的发展方向。”演示软件公司 Gamma 的联合创始人 Jon Noronha 表示,Haiku 4.5“在幻灯片文本生成的指令遵循能力上,表现优于我们当前使用的模型:准确率达 65%,而我们付费层级模型的准确率为 44%。 这对我们的单位经济效益而言,是颠覆性的改变”。

5 个月成本暴跌 2/3,

AI 经济逻辑正惊人转变

此次模型发布之际,Anthropic 的业务正呈爆发式增长。据该公司发言人称,其月度年化收入即将突破 70 亿美元,而 8 月公布的这一数据还仅为 50 多亿美元。路透社获取的内部预测显示,Anthropic 设定的 2026 年年化收入目标为 200 亿至 260 亿美元,较当前水平增幅将超过 200%,接近 300%。

目前,Anthropic 服务的企业客户已超 30 万家,企业级产品收入约占总营收的 80%。在其旗下最成功的产品中,代码生成工具 Claude Code 表现尤为突出 —— 自今年早些时候推出以来,该工具的年化收入已接近 10 亿美元。

“我们现在确实是火力全开。” Krieger 表示。据了解,行业的极速发展,让 Anthropic 在每次产品发布后都没有太多时间安于现状。该公司在训练 Sonnet 4.5 的同时,就已启动了 Haiku 4.5 的研发工作。

Krieger 将过去两年描述为 “AI 错失恐惧期”,期间企业纷纷采用 AI 工具,却缺乏清晰的成功衡量标准;而如今,企业开始要求获得可量化的投资回报。在 “Superhuman AI” 播客节目中,他表示:“优秀的产品必须有某种成功指标或评估标准作为支撑。在与部署 AI 的企业交流时,我多次发现了这一点。”对于评估 AI 工具的企业而言,其考量越来越聚焦于具体的生产力提升。

五个月前,Sonnet 4 的能力还需高价获取,且代表行业前沿;如今,Haiku 4.5 能以三分之一的成本提供相近性能。短短五个月内,AI 性能保持稳定,价格降了原先的三分之二 。若这一趋势持续(从 Anthropic 的发布节奏,以及来自 OpenAI、谷歌的竞争压力来看,这种可能性很大),那么如今看似先进的 AI 能力,一年内可能会变得常规且廉价。AI 的基本经济逻辑正以惊人速度发生转变。

当前,Anthropic 估值达 1830 亿美元。Anthropic 正紧追谷歌、OpenAI 等竞争对手 —— 其中 OpenAI 的估值已飙升至 5000 亿美元。自今年 8 月推出 GPT-5 后,OpenAI 已签署多项数十亿美元规模的基础设施协议,并发布了名为 Sora 的短视频应用。

但 Jye Su 认为,“如今所有模型都处于迭代优化中,遗憾的是,即便在所有头部厂商的产品之间,也没有哪项特性真正脱颖而出。”

企业最终会选择 Claude,还是 OpenAI、谷歌及其他不断涌现的竞争对手提供的、能力日益强大的产品,目前仍是未知数。但 Anthropic 正明确押注:AI 的未来不属于那些能打造出单一最强模型的企业,而属于那些能以合适的价格、合适的速度提供合适智能,并让所有人都能获取的企业。

标签: 模型 任务 能力 成本 速度 企业 产品 公司 智能 性能 方面 领域 工具 用户 行业 代码生成 水平 经济效益 步骤 质量 编码 上线 版本 基准 初创 代码 效益 核心 数据 首席 逻辑 压力

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。