![]()
编辑|张倩、Panda
Anthropic 的 Opus 4.6 刚发布,智商确实高到让人头皮发麻,但看着那个价格表,我的钱包也开始发麻了。
这就很尴尬了。Opus 4.6 的出现,直接在开发者圈子里制造了一场「智力焦虑」:模型好用是真好用,贵也是真贵。原版价格纹丝不动就算了,那个号称「极速版」的家伙,每百万输出 Token 的成本居然从 25 美元直接飙到了 150 美元。
整整 6 倍的涨幅!看着 Token 计费表像风一样自由地狂奔,本来想用 AI 释放生产力的我,现在按回车键之前都得先在心里过一遍账单。这哪里是请了个助手,简直是供了个「吞金兽」。
这种「生产力税」的存在,逼得打工人不得不进入一种尴尬的模式:一边渴望顶级智力带来的效率,一边在按回车键时反复权衡账单。难道高智力和高性价比,真的像鱼和熊掌一样不可兼得?难道我们这些普通打工人,就不配拥有「智力自由」?
就在大家捂着钱包叹气的时候,MiniMax 反手甩出了一个王炸:MiniMax M2.5
这个模型相当能打,无论是 coding 还是 agent 能力,都能与 Claude Opus 4.6 掰掰手腕,甚至在某些维度上掰赢了。
数据不会说谎:M2.5 在多语言任务 Multi-SWE-Bench 上拿下了行业第一;而在 SWE-Bench Verified 评测集上,基于 Droid 和 OpenCode 的实战测试中,它的通过率(79.7% / 76.1%)更是双双反超了 Opus 4.6。
![]()
在 BrowseComp、Wide Search 等搜索和工具调用榜单的评测中,M2.5 也达到了行业顶尖的水平。
![]()
更具冲击力的是它在 MiniMax 内部的真实表现:在 MiniMax 内部业务场景中,整体任务的 30% 由 M2.5 自主完成;而在编程场景中,M2.5 生成的代码已占新提交代码的 80%。
它不仅 Coding 和 Agent 能力硬刚 Claude Opus 4.6 不落下风,在专业的办公领域更是「偷偷补过课」。为了让模型真正懂行,MiniMax 拉来了金融、法律、社会科学等领域的资深从业者当「教官」,把行业隐性知识灌进模型。
在内部严苛的 Cowork Agent 评测(GDPval-MM) 中,M2.5 在 Word 排版、Excel 金融建模等高阶场景下,对主流模型拿下了 59.0% 的平均胜率。这意味着它交付的不再是简单的草稿,而是具备专业水准的「半成品」。
![]()
但最离谱的是,这样一个全能选手,居然参数量只有 10B,是第一梯队中参数规模最小的旗舰模型,不需要太昂贵的设备就能私有化部署。
好家伙,这哪是辅助驾驶啊,这分明是抢方向盘来了!
MiniMax M2.5 表现卓越,也为这家刚上市一个多月的公司的股价带来了一波强劲上涨:
![]()
1 美元时薪的顶级打工人
这么小的体积,再加上「思考」链路的深度优化,M2.5 的吞吐量可以达到 100 TPS,推理速度可以达到 Opus 4.6 的 2 倍。在 SWE-Bench Verified 测试中,M2.5 的端到端任务运行耗时从平均 31.3 分钟减少到了 22.8 分钟,这一速度与 Claude Opus 4.6 基本持平。
在需要即时反馈的场景里,这种「跟手」的感觉简直太爽了。更爽的是,你完全不需要有「每按一次回车就少喝一杯奶茶」的心理负担。来看看这个颠覆性的定价:
在每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美元,而在每秒输出 50 个 token 的情况下,只需要 0.3 美元。
1 美元就能雇佣一个顶级专家给你干一小时苦力!换算一下,1 万美金可以让 4 个 Agent 连续工作一年
这就很有意思了。以前我们不敢跑复杂 Agent,是因为怕跑着跑着就破产了;现在有了 M2.5,我们终于实现了 Agent 自由;让 AI 24 小时持续上工,也不再是有余粮的地主家才能有的奢侈。
目前,M2.5 的 Vibe Coding 支持 PC 端、App 端、RN/Flutter 跨端甚至带数据库的前后端全栈开发,用起来非常方便,普通打工人可以随时上手。
为了验证这个「10B 战神」是不是真的能在性能比肩旗舰的同时,把生产力成本打下来,我们准备了几个真实的使用 Case。下面直接进入实测。
一手实测
MiniMax M2.5 真能成为打工人的得力助手吗?
作为苦逼的媒体人,我们最怕的就是在那堆长达几小时的圆桌论坛速记里「淘金」。大佬们聊嗨了往往也是车轱辘话来回说,我们要想提炼点干货,眼睛都得看瞎。
这种脏活累活,我是不敢交给 Opus 的,太贵。但现在既然 M2.5 这么便宜,那就不客气了。
我们决定搞个破坏性测试:直接把一堆巨大的 HTML 格式的速记文件「喂」给它,让它不仅要提炼观点,还要分析趋势、找分歧,甚至还要做横向对比。
你是一个专业的行业圆桌论坛速读分析师。我会逐个上传论坛速记 / 纪要文件,你的任务是:1)提取核心观点,用 bullet points 列出每位发言人的关键论断和论据;2)识别趋势信号(正在形成共识的方向)和分歧点(存在争议的立场或预测);3)标注任何提及的具体数据、产品名或时间节点。每处理完一篇,输出一份结构化摘要。待我告知 "全部结束" 后,综合所有文件,输出一份总览:横向对比各场论坛的重复主题与独特视角,提炼出 3-5 条跨论坛的强趋势,以及 2-3 个值得持续观察的核心分歧。保持简洁,避免泛化总结,优先引用发言人原话或具体案例。
MiniMax M2.5 接到任务后,丝毫没有「消化不良」。面对超大文件,它甚至自作主张地启动了多个 Agent 并行开工(颇有一种「兄弟们一起上」的既视感):
![]()
15 分钟后,几十万 Token 跑完,一份高质量报告出炉:
![]()
搞定了阅读,再来试试写代码。
作为小编,我们每天都要跟排版做斗争。虽然我们的排版规则不复杂(正文 15px、特定颜色加粗、版权信息居中……),但每次手动调也很烦。
既然官方宣称 M2.5 具备「架构师思维」,能原生 Spec 行为。也就是说,不同于普通模型上来就盲目堆代码,M2.5 在动手前会先像资深架构师一样做规划,主动拆解功能、结构和 UI。无论是 Rust、C++ 还是 Python,从 0-1 的系统设计到最后的 Code Review,它都能像老手一样 Hold 住全场。那我们就让它手搓一个「微信公众号 Markdown 编辑器」。
需求很简单:复制进来 →自动格式化 → 支持微调 → 一键复制带样式。
第一步,为了防止它「听不懂人话」,我们先让它把我的需求翻译成更专业的提示词。
![]()
可以看到,MiniMax M2.5 大体上正确地理解了我们的需求,但在版权信息处出现了一点幻觉,轻松修改后,我们只需一句提示词就能实现它:「读取 微信公众号 Markdown 编辑器开发提示词.md 文件并实现它」。
![]()
生成时长 2 分半,接杯水的功夫,M2.5 轻轻松松就实现了这个实用小工具。找篇文章试试效果:
![]()
仔细检查了一下,我们给出的需求都得到了满足。
作为一家专业的 AI 媒体,日常收集 AI 社区名人观点的素材也是工作的一部分,但问题是有时候只顾着收集,并没有真正将这些素材用起来,它们都沉睡在我们的资料库中。借助 MiniMax M2.5 + Claude Code,我们可以轻松地挖掘我们的知识仓库,真正利用起尘封的知识。
首先,打开我们的选题库,发现早期的文件和最近的文件命名格式不统一,而 M2.5 可以轻松解决这个问题,就一句话的事儿:
![]()
接下来,M2.5 还可以为我们将这些 docx 文档转换成兼容 Obsidian 的 Markdown 格式。这里我们可以引入 Obsidian 创始人 Steph Ango 亲自开源的 obsidian-skills,给 M2.5 一个参考手册。我们的提示词也很简单:
基于 Skills,将文件夹中的所有文件都转换成符合 Obsidian 规范的 Markdown 文件。
![]()
接下来我们可以将转换好的文件放入一个 Obsidian 仓库来进行管理,而 MiniMax M2.5 也可以跟随我们一起。比如这里,我们可以让 M2.5 提取选题中所有与 Andrej Karpathy 和吴恩达相关的选题:
![]()
可以看到,M2.5 找到了 5 个与 Andrej Karpathy 相关的选题,找到了 14 个与吴恩达相关的选题,并对选题进行了总结同时还标记了出处,而得益于 M2.5 10B 的轻量级参数规模,整个过程耗时不到 1 分钟。
最后,我们还让 M2.5 基于我们的选题文档总结了近几个月 AI 领域的发展趋势,大家可以看看总结得是否正确:
![]()
M2.5 背后
108 天极速进化的秘密
在前面的测评中,M2.5 已经表现出明显不同于普通模型的智能体能力。但比单次测评成绩更令人细思极恐的,是 MiniMax 展现出的「进化速度」。
在过去短短 108 天里,MiniMax 陆续更新了 M2、M2.1 和 M2.5 三个版本!
![]()
这让 M2 系列模型在编程领域最具代表性的 SWE-Bench Verified 榜单上,相比 Claude、GPT 和 Gemini 等顶级模型系列,保持了行业最快的进步速度 —— 这从上图折线的斜率也能看出。
这种超越预期的迭代效率不是凭空出现的,也不是单纯靠堆算力堆出来的。要理解它为什么能跑得这么快,就得看一眼它背后的训练体系:原生 Agent RL 框架 Forge
![]()
智能体训练的第一道坎,在于「语言模型」和「任务执行者」这两个身份之间的鸿沟。大模型原生是自回归 Token 预测器,它可以模拟很多形式,但并不是为持续交互和工具调用而生。为了解决这一问题,MiniMax 引入了 Forge 原生 Agent RL 框架。
Forge 在设计上通过引入中间层完全解耦了底层训推引擎与 Agent,把「模型只负责处理 Token」这件事做到了极致。模型训练和推理看到的都是同一种 Token 形态,不去理解什么工具调用、环境状态这些复杂结构。而 Agent 那一侧则通过标准的 OpenAI 接口和模型通信,专心处理环境交互和上下文管理。
这种彻底解耦的好处是:模型能力不会被绑定在某一个具体 Agent 产品上,它可以接入不同的工具体系和脚手架,实现更强的泛化。
更大的难题是长链路下的信用分配(Credit Assignment)。任务执行几十步后才知道结果,模型很难回溯究竟是哪一步导致了失败。MiniMax M2.5 引入了过程奖励机制(Process Reward),对生成质量进行全链路监控,而不仅看最终成败。同时,为对齐真实用户体验,他们将任务完成耗时也纳入奖励函数。这套奖励设计让模型在智能度与响应速度之间实现了可量化的最优权衡。
![]()
这些算法创新要真正跑起来,还得过工程这一关。智能体数据天然有大量公共前缀,如果每条样本独立训练,同一段系统提示要反复计算数十遍。M2.5 将多条前缀相同的样本合并为一棵前缀树,通过树状合并训练样本策略,实现了约 40 倍的训练加速。
另一项优化是强化学习的调度策略:智能体任务耗时差异巨大,简单任务秒回,复杂任务需等待。MiniMax 优化了异步调度策略,平衡系统吞吐和样本的 off-policyness,最终在系统吞吐量与训练效率之间达成了平衡。
Intelligence with Everyone
回到开头 Claude Opus 4.6 的定价话题。极速版 Opus 4.6 高达 150 美元的输出价格足以说明,在真正的生产力环境中,值钱的不只是智力本身,速度等影响效率的因素如今也变得举足轻重。打工人真正需要的,是一个智力、速度等各方面都优秀的「六边形战士」。
然而,顶级智力的高昂溢价正在制造一场隐形的技术分层:预算决定了你的 AI 助理是「满血」还是「残血」,是极速还是降速。在这一背景下,MiniMax M2.5 凭借 10B 级的轻巧规模承载了同级别的旗舰智力,不仅是当前市场的性价比标杆,更是将高阶智能从「奢侈品」拉回到了「生产力工具」的范畴。
这更像是一场技术普惠,而非针对少数人的技术特权。此刻,MiniMax 所坚持的「服务普通人的 AI」「Intelligence with Everyone」具像化了。
如果把 M2.5 和 MiniMax 前段时间发布的桌面端 Agent 放在一起看,它的价值就更具像化了:一个是可以本地部署的超强大脑,一个是包含本地文件系统访问、浏览器控制、代码编辑器集成、后台常驻运行等完善功能的脚手架。二者强强联合,有望成为白领与程序员手中那个随时待命、不计成本的「主力机」。
这种顶级智力的全民普惠,才是整个社会生产力提升的最强动力。
文中视频链接:https://mp.weixin.qq.com/s/5zxoNnuxUfQk6dg4VsHFPw




京公网安备 11011402013531号