当前位置: 首页 » 资讯 » 科技头条 » 正文

实测MiniMax M2:与Gemini和Claude正面刚 ,任务拆解与变通能力有所提升

IP属地 中国·北京 蓝鲸新闻 时间:2025-10-28 16:14:51


10月28日讯(记者 武静静)上海的人工智能初创公司 MiniMax 于 2025 年 10 月 27 日发布了其最新大型语言模型 MiniMax M2。该模型基于 MIT 开源许可证,采用 2300 亿参数的混合专家(Mixture-of-Experts)架构,单次推理时激活约 100 亿参数。

目前MiniMax M2 目前已通过 MiniMax API 向全球开发者免费开放,试用期至 2025 年 11 月 7 日,并兼容 Hugging Face 与 vLLM 等主流框架。

据MiniMax公布的技术报告,该模型在全球权威测评榜单Artificial Analysis中总分位列全球前五、开源第一,与OpenAI、Anthropic、Google等国际巨头同台竞技。其在推理与代码生成任务中的表现超过了谷歌的 Gemini 2.5 Pro,API 使用成本约为 Anthropic Claude Sonnet 4.5的 8%。

MiniMax M2究竟表现如何,蓝鲸科技记者进行了一手实测。

在实验中,当记者向 M2 提供一条关于"制作美术爱好者个人网站"的 Agent 指令后,系统迅速理解需求并自动定义目标任务,生成了多阶段的执行计划。整个任务被拆解为近10 个步骤,包括内容生成、前端结构设计、样式渲染、资源调用等环节。右侧窗口实时显示 Agent 的执行进程,从任务分解到页面生成,几乎全程自动化完成。



几分钟后,一个包含图片展示与作品介绍的网页初版便被生成。由于目前的 Agent 运行在云端沙盒环境中,模型无法直接输出可公开访问的链接。当记者于是进一步提出指令:"直接给我生成一个可以打开的网站链接。" M2 的响应逻辑相对完整——它不仅列出了几种主流的免费部署方案,例如 Vercel(自动部署)、Netlify(拖拽部署) 和 GitHub Pages(免费托管),还进一步提供了一种无需联网的替代方案:生成一个可离线打开的单文件版网站,供用户直接下载与预览。这种像人一样灵活应变能力有点惊艳。


不过在第一次打开该文件时,发现页面出现了乱码。向 Agent 反馈后,M2 立即识别出问题可能与编码或浏览器设置有关,自动进入问题排查流程。经过几轮自动修复与重新生成,Agent 最终输出了一个结构清晰、样式统一、视觉审美在线的网页版本。从用户体验角度看,这种问题响应与动态调整的能力,已接近一个轻量级网页开发助手的水平。

以下是网页的部分展示:




除了网页生成,MiniMax M2 的 Agent 系统已覆盖更广泛的任务类型。它可以进行跨领域的多步推理、代码生成、数据分析、文案策划与知识检索等复杂任务。从技术上看,MiniMax 在 M2 阶段已将语言理解、工具调用与执行链控制能力进行深度融合,具备了端到端完成任务的雏形。


这也呼应了 2025 年以来 AI Agent 的快速进化趋势。过去一年里,从 OpenAI 的新工具到 Anthropic 的大规模融资,再到国内外多家推出的多智能体框架,Agent 已成为行业最活跃的创新方向之一——模型从"回答问题"迈向"执行任务"。OpenAI 在其 Demo Day 中推出了名为 AgentKit的 Agent 构建工具,包括可视化 "Agent Builder" 拖拽节点、工具连接器库、服务数据源快速接入等组件,进一步强调其向企业级 Agent 平台转型的意图。

不过,目前 Agent 的端到端执行仍存在差距。以记者此前一次具体测试为例:曾尝试让 Kimi 与 Manus 等 Agent 做"备份一位名人的新浪博客文章"的任务。尽管任务逻辑清晰,但实际执行效果有限。Kimi 的 Agent 仅找到了约 7 篇文章 并成功导出至 Word 文档;Manus 的表现稍优,备份了 29 篇,但仍遗漏若干条目。相比之下,MiniMax M2 的 Agent 能否在执行完整度、上下文理解与任务控制上实现提升,正是其下一步验证的关键。

换句话说,Agent 虽能拆解任务、调用工具、做出执行计划,但在 "全流程闭环" 上仍有短板:可能是数据来源覆盖不全、上下文理解欠缺、执行链中断、后处理不够完善。与大型语言模型仅作问答相比,Agent 承载的是"执行任务"的期望,而这要求更高的模型整合能力、工具生态支撑、运行监控和反馈闭环。

在此背景下评测MiniMax M2模型,不仅要关注其技术参数,更要考察其智能体在复杂任务中的实际表现、工具生态的完善程度以及商业模式的可持续性——这些维度将共同决定其在激烈市场竞争中的真实价值。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。