当前位置: 首页 » 资讯 » 科技头条 » 正文

MiniMax发布新一代模型,AI大模型竞争转向长上下文与智能体能力

IP属地 中国·北京 上观新闻 时间:2026-06-01 16:25:19



今天(1日),MiniMax正式发布了其新一代旗舰大模型MiniMax M3。

M3采用全新的自研稀疏注意力架构MiniMax Sparse Attention(MSA),在编程及智能体能力、超长上下文及原生多模态等多个关键方向,都实现代际突破。

新民晚报记者获悉,M3是国内首个同时具备“前沿Coding能力、1M超长上下文、原生多模态”三项核心能力的大模型,也是目前全球唯一具备完整能力组合的开源选项。


从底层注意力机制重写百万上下文

支撑M3三大能力合一的,是MiniMax自研的稀疏注意力架构 MSA。

相较传统全注意力机制,MSA能够显著降低长上下文下的计算成本,并将上下文窗口提升至100万Token。这意味着模型在处理长文档、复杂代码仓库、多轮任务协作等场景时,能够在一次推理中保留更完整的信息链路。MiniMax披露,在100万上下文规模下,M3单Token计算量仅为上一代模型的约1/20,推理效率显著提升。

除模型架构升级外,MiniMax在底层推理算子层面也做了进一步优化。通过重新设计数据读取与计算路径,相关性能较主流开源方案提升4倍以上。

在业内看来,这也是全球大模型竞赛的重要新变量——随着Agent任务复杂度不断提高,“更长上下文、更稳定记忆、更低成本推理”正在成为决定产品可用性的关键能力。

据了解,M3在智能体编程(Coding&Agentic)能力上明显提升,在涵盖软件工程、终端执行、效率与协议理解等多个维度的国际权威评测中,均达到国际领先水平。



训练数据规模推至100万亿Token量级

MiniMax表示,M3从训练起点便采用文本、图片、视频等多模态混合训练,并在数据规模和训练管线上进一步扩展。模型不仅支持图像与视频理解,也具备桌面操作能力,可在复杂跨应用环境中执行计算机使用(Computer Use)任务。

M3是一个从Step 0开始进行多模态混合训练的模型。MiniMax在报告中强调,交错数据(Interleaved data)——文本和图像等其他模态在序列中交替自然排列的数据——对模型性能带来的提升,比一般认为的更加关键。在为这些数据重构整套数据管线后,MiniMax已可以将训练数据Token规模提升至100万亿的量级。

这意味着模型能力正在从语言理解进一步向真实数字环境延伸。无论是办公自动化、企业软件操作,还是更复杂的生产力场景,AI进入实际执行层的速度正在明显加快。


研发人员丢给M3一篇ICLR 2025杰出论文,让它独立复现。M3连续运行近12小时,全程自主产出18次commit与23张实验图表,成功跑通核心实验

MiniMax Code迎来重磅更新

同日,MiniMax Code也迎来更新:作为专为M3设计、并与M3一起训练的Agent产品,MiniMax Code能够充分发挥M3在长上下文、Coding/Agentic、原生多模态方面的能力,是搭配MiniMax M3的首选Agent。在长程复杂任务上,MiniMax Code的Agent Team可以将大型任务拆解为多阶段、可并发、可动态调整的Workflow,由Agent集群协作推进。

商业化方面,MiniMax同步推出Token Plan订阅方案。Plus版每月49元,提供6亿Token;Max版每月119元,提供18亿Token;Ultra版每月469元,提供55亿Token。

业内人士认为,随着M3发布,MiniMax在全球AI竞赛中的定位正在进一步清晰:以“开源+多能力合一”的前沿模型为差异化定位,填补国内AI生态在这一维度的空白。

值得一提的是,MiniMax已在上周向上海证监局提交了上市辅导备案报告,开启A股上市进程,冲刺A股大模型第一股。

上海大模型企业冲刺A股大模型第一股,其新一代模型即将面世

原标题:《MiniMax发布新一代模型,AI大模型竞争转向长上下文与智能体能力》

栏目编辑:陆梓华

作者:新民晚报 郜阳

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。