当前位置: 首页 » 资讯 » 科技头条 » 正文

"早上ICU,晚上KTV":MiniMax研究员讲述开放模型背后的工程暗战

IP属地 中国·北京 科技行者 时间:2026-02-18 18:24:03

作者|Ya

Turing Post频道最近发布了一期与MiniMax高级研究员Olive Song的深度对话,这也是西方媒体首次对MiniMax研究团队的一对一访谈。对话录制于1月底一个周日晚上九点,当时Olive正在等待新一轮模型实验的结果。两周后,MiniMax在马年春节档投下重磅炸弹。


2月11日深夜,M2.5正式宣布,SWE-Bench Verified得分80.2%,Multi-SWE-Bench拿下51.3%的全球第一,编程与Agent能力直接对标Claude Opus 4.6,而价格只有后者的二十分之一。12日上线MiniMax Agent,13日在Hugging Face全球开源。

这只是2026年春节档国产大模型发布潮的一个缩影。

同一个晚上,智谱GLM-5以“Pony Alpha”的匿名身份在OpenRouter走红数日后正式揭面,744亿参数对标Claude Opus 4.5。除夕当天(2月16日),阿里千问Qwen 3.5-Plus压轴登场,3970亿总参数、170亿激活参数,API价格仅为Gemini 3 Pro的十八分之一。

不过,去年引发春节AI风暴的DeepSeek,V4版本则没有正式露面。虽然2月11日用户发现DeepSeek悄然将上下文窗口从128K升级至1M,但回复风格骤变引发“变冷淡”热搜,被认为只是V4的灰度测试,截至今天官方仍未正式官宣。

即便如此,一周之内,中国AI公司上演的这场“春节军备竞赛”,已经足够震撼。

当然,春节档不仅是国内大模型在卷,国外也在卷,Anthropic发布了sonet4.6,Grok也更新了一个新的版本。

M2.5开源后,迅速被社区明星项目OpenClaw选为推荐模型。OpenClaw早在1月30日就通过OAuth(开放授权协议)插件接入了MiniMax的模型服务,M2.5发布后开发者可以零配置切换,在Telegram、WhatsApp上跑起自己的AI助手,每小时成本仅1美元。

1月9日才以165港元发行价登陆港交所的MiniMax,在M2.5发布前后股价一度大涨超过20%,到春节前最后一个交易日(2月16日)收于847港元,上市仅39天累计涨幅超过413%,市值突破2656亿港元。回头再听这场对话,会发现Olive在访谈中提到的几乎每一个技术难题,都精准预言了M2.5最终要解决的方向:环境适配、长程任务、Agent对齐、推理效率。

她当时把即将发布的版本称为“2.2”,说“大约1个月到1个半月发一个版本”。从2025年10月底的M2到2026年2月中旬的M2.5,108天三个主要版本,MiniMax的迭代速度比她自己的预期还快。


1、早上ICU,晚上KTV

Olive用了一个MiniMax内部流行的段子来形容她的日常。“一天之内不会全是好日子或全是坏日子。我们开玩笑说,早上ICU,晚上KTV——有时候反过来也行。”意思是早上可能还在抢救崩掉的实验(ICU,重症监护室),晚上就拿到好结果开始庆祝了(KTV,卡拉OK);也可能早上结果很好,晚上又塌了。结果在一天之内剧烈摆动,是这个工作的常态。

她做的是强化学习(reinforcement learning,简称RL,一种让模型通过试错和奖励信号来改进自身行为的训练方法)和模型评估,这两个领域是模型开发中最不留情面的环节。她也比大多数美国大型AI实验室面临更多资源约束。

强化学习训练中,模型会想尽一切办法“hack”(黑掉)系统来获取高分。“它会疯狂调用bash命令(操作系统的命令行指令),有时候做出非常不安全的行为。”Olive说。专家开发者对模型行为有自己的预期,但不加约束的模型完全不按套路出牌。

这种发现“新行为”的过程,在她看来反而是最兴奋的时刻。“即使这些行为可能不安全,可能不符合预期,发现它们本身就很刺激。”至于坏消息?“看到糟糕结果的那一瞬间确实不好受,但一旦开始拆解问题、定位原因,又变成了好时光。”

MiniMax的研发节奏要求团队随时在线。有人通宵工作白天睡觉,有人跟着实验周期走。“实验跑一整天,中间可以休息,但如果我们对结果很好奇,根本等不了。我们对结果充满热情。”Olive说。这种弹性制度听起来自由,实际上靠的是对结果的高度投入。2、逐层排查:FP32精度的故事

Olive分享了一个MiniMax M1时期的技术故事,后来在开源社区广为流传。

当时强化学习训练的准确率怎么都上不去。团队逐层检查log probabilities(对数概率,模型对每个词的预测置信度的数学表示),发现理论上应该收敛的算法存在一个隐蔽的偏差,最终定位到问题根源是LM head(语言模型头,模型最后一层,负责将内部表示转换为对每个词的概率预测)的数值精度。把它从低精度切换到FP32(32位浮点数,一种更高精度的数值格式)之后,训练恢复正常。

“理论上算法必须work,那一定是实现层面有什么gap。”Olive说。她的思路是:先确认理论算法的正确性,然后分析理论与实现之间的差距,逐层排查。她把这叫做追求“理论极限”——每一个实现细节都要尽可能逼近理论算法的最优状态。“我们发现精度问题是阻止我们接近那个极限的因素之一,然后我们解决了它。”

这种从第一性原理出发的方法论,在MiniMax几乎每天都在发生。“每一天,每一个小组,都会遇到类似的问题。”

她拒绝透露正在进行的类似发现。“我们希望公开发表的结论是经过深度验证的,不是半成品。如果有突破,我们一定会发表。”后来M2.5发布时,MiniMax在技术博客中写道,M2系列进步的关键驱动力之一正是“强化学习的规模化”,配合自研的RL框架Forge、算法优化、奖励信号设计和基础设施工程。Olive访谈中反复强调的“工程极其重要”,在这里得到了最直接的验证。

3、人类对齐:模型不能为了目标而不择手段

MiniMax的M2系列定位为编程和Agent模型。Olive认为,当前和未来版本面临的最重要课题是人类对齐(human alignment,确保模型的行为符合人类意图和期望)。

“模型必须在高效和安全之间取得平衡。它不能为了达成最终目标就自行生长、做出危险行为。”她说。对齐的核心在于三件事:如何定义人类对齐,如何定义专家的期望,以及如何实际训练模型来满足这些期望。

这里的“专家”是指和研究员坐在一起工作的开发者。MiniMax的组织方式是研究员和不同领域的开发者混合办公,每天分享实验结果。“我们坐在一起看模型的行为,开发者能立刻发现问题,然后我们一起想出修复方案或者构建新的训练数据。”

发布前一到两周,团队会进行大规模评估和对齐调优。内部有多维度的安全基准,涵盖敏感性安全(sensitive safety)和对齐安全(alignment safety)等不同方面。但Olive也坦承,一旦模型以开放权重(open weights,公开模型参数,允许用户自行部署和微调)发布,用户可以做的事情超出了他们的控制范围。“说实话,我不知道我们怎么处理这个问题。法律和法规在那里,人们也认同某些道德标准。”

4. MiniMax Her与Intelligence with Everyone

访谈中,主持人提到了MiniMax Her的发布——这款角色扮演产品在Twitter上引发了广泛讨论。Olive坦言自己不是这方面的专家,MiniMax有一个专门团队负责角色扮演相关工作。

但她补充了团队的共识:“我们确实相信,角色扮演,或者说AI陪伴人类、与人互动,在未来AI融入社会生活的过程中非常重要。这代表了一种非常卓越的能力,因为这是humanlike的——它有情感,它理解你的情感,而不只是解几道考试题。这是AI能力的另一面。”

MiniMax的理念口号是“Intelligence with Everyone”(智能与每个人)。对Olive个人而言,这意味着AI如何切实改变了她的生活。“以前有很多非常专业的问题我无法理解,比如专业的编程问题或优化问题,现在借助AI我能做到了。这样我就能和更多人交流,交换更多想法。”另一方面,AI也帮助了她的日常生活,工作、日常事务、自我管理。“它改变了我的生活,我希望它也能改变每个人的生活——当然是往好的方向。”

5、反馈收集:从内部开发者到外部用户

主持人问到了一个实际问题:有没有在基准测试中没有暴露、但在真实Agent使用中才显现的强化学习失败模式?MiniMax如何收集反馈来改进下一代模型?

Olive描述了一个两阶段的流程。第一阶段是内部,开发者使用模型并指出问题,团队据此修复,但这还不够。第二阶段在模型正式发布之后,来自外部的大量反馈会涌入。“我们系统地收集这些反馈,分析每一个问题。有些是基础性的,有些只是我们遗漏的小问题,可以很快修复。”

MiniMax的团队按能力模块分工。收集到需要改进的问题后,不同的人认领各自负责的部分。“他们会说‘我觉得我能解决这个问题,我会在下一代模型中解决它’,这就是我们收集反馈并改进模型的方式。”

6、开放模型在生产环境中首先在哪里失败?

随后,主持人问了一个尖锐的问题:开放模型在真实生产环境中,最先出问题的地方是什么?推理、工具调用、状态追踪、评估——哪个环节最先崩溃?

Olive给出了一个具体的答案:环境适配。

“比如很多人用Claude在不同的编码环境里工作,他们以为模型在所有环境里都表现一样好。但我不觉得当前的开放模型能达到那种准确度,或者说对不同环境、不同工具定义的理解深度。”

她承认这是一个可以解决的问题,MiniMax正在为此努力。“我们在2.2里改进了这个问题,但还没有达到Opus的水平。2.5的时候可能可以。我们确实有一些系统性的研究正在进行,已经展现了一些成果,但还不是最终结论,所以我不会说出来。”

这段话在M2.5发布后得到了印证。MiniMax在M2.5的技术文档中强调,模型在“完全没见过的环境”甚至“完全超出分布的环境”(out of distribution,训练时从未接触过的场景)中都展现出了比M2.1更高的得分。他们把“数十万个真实复杂环境中的大规模强化学习训练”列为核心技术路径。

被问到是不是算力差距造成的,Olive的回答很有分寸:“算力是一个方面,但我们怎么构建问题、怎么接近问题,是另一个方面。我们对后者更有信心,相信我们能解决这个问题。”

7、为什么强调编码?“用工程可以结构化整个世界”

MiniMax的M2系列主打编码能力,但这并不意味着他们放弃了通用模型的方向。Olive澄清说,他们正在走向通用化,只是在编码上投入了更多精力。“我们的模型也可以放进任何通用Agent scaffold(Agent框架/脚手架,为AI提供工具调用、记忆管理等基础能力的软件架构)里,包括我们自己的Agent产品,那是通用目的的。我们也在做研究、报告写作、PPT之类的通用任务。”

她给出了一个很个人化的理由来解释为什么编码如此重要:“我觉得通过编码,你可以结构化整个世界,用工程的方式建模很多东西。对我来说,它背后是对人类能力的放大(scaled up humanity)。它本身蕴含了大量的智能和大量的工作。”

未来版本会更通用化。“比如我们的模型将来可以处理通用的办公场景,那就不仅仅是编码了。”

8、Agentic RL:定义任务、构建环境、打造基础设施

长程任务(long horizon,指需要模型在很多步骤中持续规划和执行的复杂任务)是Agent模型的核心挑战。Olive把Agentic RL(面向智能体场景的强化学习)与传统RL的区别拆成了三个层面。

第一,定义。“首先你需要定义Agent是什么,定义Agent模型的工作方式。你需要定义任务,定义模型的目标。尤其在长程任务中,目标必须足够困难和多样。”

第二,环境。“你需要出色的工程环境,规模化的、多样化的环境。不仅仅是编码,还有办公场景、不同类型的工具。这是great engineering。”

第三,基础设施。“你需要卓越的RL基础设施,让模型真正能在很长的horizon上rollout(在RL中指模型在环境中执行一系列完整动作的过程),同时保证GPU使用效率、训练与rollout之间的高效衔接、训练稳定性。”

她说,这就是Agentic RL与此前强化学习的不同之处。

MiniMax有一个专门的团队负责计算效率优化。“他们的目标是最小化计算使用量,同时训练更多。”但被问到这是一个独立的团队还是她自己需要参与的工作时,Olive笑了:“我们其实是同一个团队,因为我们就是强化学习团队。我们从不同视角看同一个问题——可以从实现角度看,可以从数据角度看,但目标是一样的。”

她还透露,团队正在做一些”新的Agentic RL工作“,不会随当前版本发布。”这取决于我们的时间,我还不是很有信心,但我们在专注地做这件事。“

9、为什么选择开源?

MiniMax为什么选择开源?Olive从研究员的角度给出了一个直率的回答。

“我们研究团队从第一天就想做开源。开源社区太棒了,我入职第一天就学到了这一点。”但她也坦言公司层面有不同考虑。“作为公司,大家会关心这能不能赚钱,这是不是一门生意。开源权重的话,用API的人可能会减少。”

不过她迅速补充:“作为研究员,那不是我的重点。从技术角度,我们相信可以和开源社区一起构建更好的模型。”

MiniMax自己也大量使用开源工具。推理框架方面,他们和vLLM、SGLang(两个主流的大模型推理和服务框架,专注于高效部署和推理加速)深度合作。Olive说团队会研究各种开源Agent框架的代码和设计逻辑,“看他们的代码,看他们如何设计scaffold和引擎,然后反思我们自己对问题的思考方式,看是不是在同一个方向上。我们互相学习。”

M2.5发布时,MiniMax选择在Hugging Face(全球最大的开源模型托管平台)上以修改版MIT协议开源全部权重。OpenClaw在1月30日的更新中就已经加入了MiniMax OAuth插件,让开发者零配置接入MiniMax模型。此后,OpenClaw社区开始涌现大量基于M2.5的Agent应用,从Telegram机器人到全自动化办公流程。有博主实测,三个M2.5 Agent通过Telegram全天候运行,成本仅为使用闭源前沿模型的5%。

10、开放模型的工程门槛

主持人追问了一个开发者关心的问题:团队是否低估了开放模型相比闭源API所需要的工程投入?毕竟使用开放模型意味着自行部署、管理算力、调试兼容性,这需要完全不同的工程能力。

Olive说她个人没有这个困扰。“如果有其他开源模型发布,我就下载下来部署到我们的机器上使用。”但她理解外部个人开发者的处境:“尤其是当他们没有自己的算力时,通过OpenRouter(一个聚合多个AI模型API的服务平台)之类的服务连接到模型会更容易。”

她自己是各家模型的第一批用户。“如果他们在午夜发布模型,我午夜就在玩了。”

11、模型评估:五个问题不够

主持人请Olive推荐几个评估模型的关键问题。她的回答出人意料地严肃。

“从专业评估的角度,五个问题远远不够。”她说。要做公正的模型对比,需要在每个领域有足够数量的测试题,而且通常需要多次测试,因为“模型本身不够稳定”。

她指出了评估中的多个隐患:有些问题本身不正确,有些问题的答案不唯一,有些测试环境不固定,比如gold pattern(标准答案/参考模式)本身就通不过。“如果做专业评估,必须确保评估集是正确的、多样的、达到一定数量阈值的,这样测试才有置信度。”

不过如果只是为了好玩,她建议用那些你个人感兴趣的问题就好。她自己保持着一套私人测试集。“我从入职以来一直在收集各种问题,涵盖逻辑推理、数学证明、报告写作、Agent任务等等,很多很多。每出一个新模型我就拿这些问题跑一遍,看不同模型怎么接近这些问题,怎么反应。不同的模型有不同的个性。”

12、模型性格:通用模型应该能扮演所有角色

主持人感叹调整不同模型的性格,每个新模型都不一样。Olive给出了她对模型性格的看法。

“一个通用模型应该拥有所有性格,或者说应该能扮演所有角色。它可能有一个默认性格,但如果用户想让它变成不同的角色,它应该做到。如果通过system prompt(系统提示词,预先设定模型行为和身份的指令)注入新角色,它应该能切换。”

她认为不同模型性格差异的原因很可能是“训练数据的不同模式,以及不同团队可能有自己的constitution(行为准则/宪法式规范,定义模型默认行为的内部规则集)”。

13、内部AI研究员:用Agent追踪一切

AI领域的信息洪流让所有人都在问同一个问题:怎么跟上?Olive描述了MiniMax的解决方案。

“每天都有大量新文章、博客、论文发布。我们的处理方式是,我们有一个内部Agent,它追踪所有新的文章、博客和论文,然后按主题分发,做摘要,做分析。”她管它叫“内部研究员”(internal researcher)。这个Agent先做第一轮过滤,把筛选后的结果推送给人类研究员。“如果我们觉得它过滤得不好,我们还可以改进它。”

在这之后,团队会用编程Agent来快速上手新的代码仓库,“这样我们可以更快地理解新东西、更快地实验。我们用Agent和我们自己的模型来加速跟进所有的进展。”

14、从读论文到解决没人见过的问题

Olive回忆了入行前后的落差。在学校里,她以为研究工作就是读论文、提想法、实现想法、跑实验,如果结果好就扩大规模。

“加入公司工作几个月后,你就已经站在这个领域的最前沿了,或者说站在行业的顶端。你必须想出真正新的东西,或者面对根本不知道怎么解决的问题。这不是读一堆论文然后在论文基础上积累思考就行的。你需要从最基础的层面理解问题,从最基础的层面去思考,才能找到正确的解决方案。”

另一个巨大的落差是工程。“Engineering is very, very, very important。我在学校不知道这一点。”学校和实验室里的实验更像是toys(玩具),规模有限。但一旦真正scale up数据、算力和人员,就会遇到必须漂亮地解决的工程问题。“这是和我想象中不同的第二点。基本上就这两点。”

15、公司目标与个人目标

MiniMax在公司层面有一个meta goal(元目标):“比如我们想提升AI在改善生产力方面的能力,因为这是人们看重的价值。”在这个公司使命下,每个研究员设定自己的目标。

Olive的个人目标是什么?“对于下一代模型,我真的想让模型能够和专家优雅地协作,更好地与专家和开发者合作。”她估计这个目标大约需要两个版本的迭代,也就是三个月左右。

16、持续学习与AGI

Olive在AI Engineer峰会上谈到过一个概念:模型不是执行单一动作,而是持续在循环中提问和尝试。主持人问她这是否属于持续学习(continual learning,指模型在部署后仍能从新经验中不断学习和改进)。

“有一些重叠,概念上和技术上都有。但我在峰会上讲的还没有达到完整持续学习的程度,更像是通往那个方向的路径。”

她具体描述了她在峰会上分享的内容:“比如模型在一个新环境中接收到环境反馈,它需要知道该探索什么,该查看哪些环境信息,因为这是一个部分可观测的环境(partially observed environment,指Agent无法一次看到所有信息,需要主动探索才能获取全貌)。它需要知道采取什么行动来获得更好的信息,然后做出更好的反应,然后在环境中执行更困难、更复杂的任务。”这是第一阶段,“基本上现在所有Agent模型在某种程度上都能做到,也许不完美,但能做到一些。”

之后的阶段涉及模型自己定义目标。“那会是一个不同的定义,和我刚才说的不同。模型本身会定义自己的目标。”她说团队在这个方向上已经看到了一些不同形式的模型自我改进,但还没有最终结论。“也许在2.5的时候我们会有。”

被问到是否相信AGI(通用人工智能),Olive讲了一个她面试MiniMax时的故事。CEO问了她同样的问题。

“我说,人们讨论AGI,也讨论ASI(超级人工智能),每天都在讨论。人们有不同的定义,而且定义每天都在变,进展太快了,人们有不同的看法。但我认为更重要的是,我们实际去朝着自己的定义努力。当我们搞清楚的时候,它就成真了。”

她补充:“这是我面试时说的话,也是我今天的观点。AGI的定义会在我们实现它的时候成为真实。”

主持人总结:“当我们看到它的时候,我们就知道那是AGI。”

“是的,没错。但我们还没到那里。AI的智能肯定还能更好。”Olive说。

17、解决问题更像是探索

访谈最后,主持人问Olive:什么书对你影响最大?

她提到了一本关于创造力的书,是她在本科时读的。她记不清确切的书名了,大概叫“The Art of Creativity”之类的。“它打开了我对自己思维的认识,改变了我看待世界和看待问题解决的方式。”

她最后总结:“对我来说,现在解决问题更像是探索(discovery)。”

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。