"早上ICU,晚上KTV":MiniMax研究员讲述开放模型背后的工程暗战

IP属地中国·北京 科技行者 时间：2026-02-18 18:24:03

作者｜Ya
Turing Post频道最近发布了一期与MiniMax高级研究员Olive Song的深度对话，这也是西方媒体首次对MiniMax研究团队的一对一访谈。对话录制于1月底一个周日晚上九点，当时Olive正在等待新一轮模型实验的结果。两周后，MiniMax在马年春节档投下重磅炸弹。

2月11日深夜，M2.5正式宣布，SWE-Bench Verified得分80.2%，Multi-SWE-Bench拿下51.3%的全球第一，编程与Agent能力直接对标Claude Opus 4.6，而价格只有后者的二十分之一。12日上线MiniMax Agent，13日在Hugging Face全球开源。
这只是2026年春节档国产大模型发布潮的一个缩影。
同一个晚上，智谱GLM-5以“Pony Alpha”的匿名身份在OpenRouter走红数日后正式揭面，744亿参数对标Claude Opus 4.5。除夕当天（2月16日），阿里千问Qwen 3.5-Plus压轴登场，3970亿总参数、170亿激活参数，API价格仅为Gemini 3 Pro的十八分之一。
不过，去年引发春节AI风暴的DeepSeek，V4版本则没有正式露面。虽然2月11日用户发现DeepSeek悄然将上下文窗口从128K升级至1M，但回复风格骤变引发“变冷淡”热搜，被认为只是V4的灰度测试，截至今天官方仍未正式官宣。
即便如此，一周之内，中国AI公司上演的这场“春节军备竞赛”，已经足够震撼。
当然，春节档不仅是国内大模型在卷，国外也在卷，Anthropic发布了sonet4.6，Grok也更新了一个新的版本。
M2.5开源后，迅速被社区明星项目OpenClaw选为推荐模型。OpenClaw早在1月30日就通过OAuth（开放授权协议）插件接入了MiniMax的模型服务，M2.5发布后开发者可以零配置切换，在Telegram、WhatsApp上跑起自己的AI助手，每小时成本仅1美元。
1月9日才以165港元发行价登陆港交所的MiniMax，在M2.5发布前后股价一度大涨超过20%，到春节前最后一个交易日（2月16日）收于847港元，上市仅39天累计涨幅超过413%，市值突破2656亿港元。回头再听这场对话，会发现Olive在访谈中提到的几乎每一个技术难题，都精准预言了M2.5最终要解决的方向：环境适配、长程任务、Agent对齐、推理效率。
她当时把即将发布的版本称为“2.2”，说“大约1个月到1个半月发一个版本”。从2025年10月底的M2到2026年2月中旬的M2.5，108天三个主要版本，MiniMax的迭代速度比她自己的预期还快。

1、早上ICU，晚上KTV
Olive用了一个MiniMax内部流行的段子来形容她的日常。“一天之内不会全是好日子或全是坏日子。我们开玩笑说，早上ICU，晚上KTV——有时候反过来也行。”意思是早上可能还在抢救崩掉的实验（ICU，重症监护室），晚上就拿到好结果开始庆祝了（KTV，卡拉OK）；也可能早上结果很好，晚上又塌了。结果在一天之内剧烈摆动，是这个工作的常态。
她做的是强化学习（reinforcement learning，简称RL，一种让模型通过试错和奖励信号来改进自身行为的训练方法）和模型评估，这两个领域是模型开发中最不留情面的环节。她也比大多数美国大型AI实验室面临更多资源约束。
强化学习训练中，模型会想尽一切办法“hack”（黑掉）系统来获取高分。“它会疯狂调用bash命令（操作系统的命令行指令），有时候做出非常不安全的行为。”Olive说。专家开发者对模型行为有自己的预期，但不加约束的模型完全不按套路出牌。
这种发现“新行为”的过程，在她看来反而是最兴奋的时刻。“即使这些行为可能不安全，可能不符合预期，发现它们本身就很刺激。”至于坏消息？“看到糟糕结果的那一瞬间确实不好受，但一旦开始拆解问题、定位原因，又变成了好时光。”
MiniMax的研发节奏要求团队随时在线。有人通宵工作白天睡觉，有人跟着实验周期走。“实验跑一整天，中间可以休息，但如果我们对结果很好奇，根本等不了。我们对结果充满热情。”Olive说。这种弹性制度听起来自由，实际上靠的是对结果的高度投入。2、逐层排查：FP32精度的故事
Olive分享了一个MiniMax M1时期的技术故事，后来在开源社区广为流传。
当时强化学习训练的准确率怎么都上不去。团队逐层检查log probabilities（对数概率，模型对每个词的预测置信度的数学表示），发现理论上应该收敛的算法存在一个隐蔽的偏差，最终定位到问题根源是LM head（语言模型头，模型最后一层，负责将内部表示转换为对每个词的概率预测）的数值精度。把它从低精度切换到FP32（32位浮点数，一种更高精度的数值格式）之后，训练恢复正常。
“理论上算法必须work，那一定是实现层面有什么gap。”Olive说。她的思路是：先确认理论算法的正确性，然后分析理论与实现之间的差距，逐层排查。她把这叫做追求“理论极限”——每一个实现细节都要尽可能逼近理论算法的最优状态。“我们发现精度问题是阻止我们接近那个极限的因素之一，然后我们解决了它。”
这种从第一性原理出发的方法论，在MiniMax几乎每天都在发生。“每一天，每一个小组，都会遇到类似的问题。”
她拒绝透露正在进行的类似发现。“我们希望公开发表的结论是经过深度验证的，不是半成品。如果有突破，我们一定会发表。”后来M2.5发布时，MiniMax在技术博客中写道，M2系列进步的关键驱动力之一正是“强化学习的规模化”，配合自研的RL框架Forge、算法优化、奖励信号设计和基础设施工程。Olive访谈中反复强调的“工程极其重要”，在这里得到了最直接的验证。
3、人类对齐：模型不能为了目标而不择手段
MiniMax的M2系列定位为编程和Agent模型。Olive认为，当前和未来版本面临的最重要课题是人类对齐（human alignment，确保模型的行为符合人类意图和期望）。
“模型必须在高效和安全之间取得平衡。它不能为了达成最终目标就自行生长、做出危险行为。”她说。对齐的核心在于三件事：如何定义人类对齐，如何定义专家的期望，以及如何实际训练模型来满足这些期望。
这里的“专家”是指和研究员坐在一起工作的开发者。MiniMax的组织方式是研究员和不同领域的开发者混合办公，每天分享实验结果。“我们坐在一起看模型的行为，开发者能立刻发现问题，然后我们一起想出修复方案或者构建新的训练数据。”
发布前一到两周，团队会进行大规模评估和对齐调优。内部有多维度的安全基准，涵盖敏感性安全（sensitive safety）和对齐安全（alignment safety）等不同方面。但Olive也坦承，一旦模型以开放权重（open weights，公开模型参数，允许用户自行部署和微调）发布，用户可以做的事情超出了他们的控制范围。“说实话，我不知道我们怎么处理这个问题。法律和法规在那里，人们也认同某些道德标准。”
4. MiniMax Her与Intelligence with Everyone
访谈中，主持人提到了MiniMax Her的发布——这款角色扮演产品在Twitter上引发了广泛讨论。Olive坦言自己不是这方面的专家，MiniMax有一个专门团队负责角色扮演相关工作。
但她补充了团队的共识：“我们确实相信，角色扮演，或者说AI陪伴人类、与人互动，在未来AI融入社会生活的过程中非常重要。这代表了一种非常卓越的能力，因为这是humanlike的——它有情感，它理解你的情感，而不只是解几道考试题。这是AI能力的另一面。”
MiniMax的理念口号是“Intelligence with Everyone”（智能与每个人）。对Olive个人而言，这意味着AI如何切实改变了她的生活。“以前有很多非常专业的问题我无法理解，比如专业的编程问题或优化问题，现在借助AI我能做到了。这样我就能和更多人交流，交换更多想法。”另一方面，AI也帮助了她的日常生活，工作、日常事务、自我管理。“它改变了我的生活，我希望它也能改变每个人的生活——当然是往好的方向。”
5、反馈收集：从内部开发者到外部用户
主持人问到了一个实际问题：有没有在基准测试中没有暴露、但在真实Agent使用中才显现的强化学习失败模式？MiniMax如何收集反馈来改进下一代模型？
Olive描述了一个两阶段的流程。第一阶段是内部，开发者使用模型并指出问题，团队据此修复，但这还不够。第二阶段在模型正式发布之后，来自外部的大量反馈会涌入。“我们系统地收集这些反馈，分析每一个问题。有些是基础性的，有些只是我们遗漏的小问题，可以很快修复。”
MiniMax的团队按能力模块分工。收集到需要改进的问题后，不同的人认领各自负责的部分。“他们会说‘我觉得我能解决这个问题，我会在下一代模型中解决它’，这就是我们收集反馈并改进模型的方式。”
6、开放模型在生产环境中首先在哪里失败？
随后，主持人问了一个尖锐的问题：开放模型在真实生产环境中，最先出问题的地方是什么？推理、工具调用、状态追踪、评估——哪个环节最先崩溃？
Olive给出了一个具体的答案：环境适配。
“比如很多人用Claude在不同的编码环境里工作，他们以为模型在所有环境里都表现一样好。但我不觉得当前的开放模型能达到那种准确度，或者说对不同环境、不同工具定义的理解深度。”
她承认这是一个可以解决的问题，MiniMax正在为此努力。“我们在2.2里改进了这个问题，但还没有达到Opus的水平。2.5的时候可能可以。我们确实有一些系统性的研究正在进行，已经展现了一些成果，但还不是最终结论，所以我不会说出来。”
这段话在M2.5发布后得到了印证。MiniMax在M2.5的技术文档中强调，模型在“完全没见过的环境”甚至“完全超出分布的环境”（out of distribution，训练时从未接触过的场景）中都展现出了比M2.1更高的得分。他们把“数十万个真实复杂环境中的大规模强化学习训练”列为核心技术路径。
被问到是不是算力差距造成的，Olive的回答很有分寸：“算力是一个方面，但我们怎么构建问题、怎么接近问题，是另一个方面。我们对后者更有信心，相信我们能解决这个问题。”
7、为什么强调编码？“用工程可以结构化整个世界”
MiniMax的M2系列主打编码能力，但这并不意味着他们放弃了通用模型的方向。Olive澄清说，他们正在走向通用化，只是在编码上投入了更多精力。“我们的模型也可以放进任何通用Agent scaffold（Agent框架/脚手架，为AI提供工具调用、记忆管理等基础能力的软件架构）里，包括我们自己的Agent产品，那是通用目的的。我们也在做研究、报告写作、PPT之类的通用任务。”
她给出了一个很个人化的理由来解释为什么编码如此重要：“我觉得通过编码，你可以结构化整个世界，用工程的方式建模很多东西。对我来说，它背后是对人类能力的放大（scaled up humanity）。它本身蕴含了大量的智能和大量的工作。”
未来版本会更通用化。“比如我们的模型将来可以处理通用的办公场景，那就不仅仅是编码了。”
8、Agentic RL：定义任务、构建环境、打造基础设施
长程任务（long horizon，指需要模型在很多步骤中持续规划和执行的复杂任务）是Agent模型的核心挑战。Olive把Agentic RL（面向智能体场景的强化学习）与传统RL的区别拆成了三个层面。
第一，定义。“首先你需要定义Agent是什么，定义Agent模型的工作方式。你需要定义任务，定义模型的目标。尤其在长程任务中，目标必须足够困难和多样。”
第二，环境。“你需要出色的工程环境，规模化的、多样化的环境。不仅仅是编码，还有办公场景、不同类型的工具。这是great engineering。”
第三，基础设施。“你需要卓越的RL基础设施，让模型真正能在很长的horizon上rollout（在RL中指模型在环境中执行一系列完整动作的过程），同时保证GPU使用效率、训练与rollout之间的高效衔接、训练稳定性。”
她说，这就是Agentic RL与此前强化学习的不同之处。
MiniMax有一个专门的团队负责计算效率优化。“他们的目标是最小化计算使用量，同时训练更多。”但被问到这是一个独立的团队还是她自己需要参与的工作时，Olive笑了：“我们其实是同一个团队，因为我们就是强化学习团队。我们从不同视角看同一个问题——可以从实现角度看，可以从数据角度看，但目标是一样的。”
她还透露，团队正在做一些”新的Agentic RL工作“，不会随当前版本发布。”这取决于我们的时间，我还不是很有信心，但我们在专注地做这件事。“
9、为什么选择开源？
MiniMax为什么选择开源？Olive从研究员的角度给出了一个直率的回答。
“我们研究团队从第一天就想做开源。开源社区太棒了，我入职第一天就学到了这一点。”但她也坦言公司层面有不同考虑。“作为公司，大家会关心这能不能赚钱，这是不是一门生意。开源权重的话，用API的人可能会减少。”
不过她迅速补充：“作为研究员，那不是我的重点。从技术角度，我们相信可以和开源社区一起构建更好的模型。”
MiniMax自己也大量使用开源工具。推理框架方面，他们和vLLM、SGLang（两个主流的大模型推理和服务框架，专注于高效部署和推理加速）深度合作。Olive说团队会研究各种开源Agent框架的代码和设计逻辑，“看他们的代码，看他们如何设计scaffold和引擎，然后反思我们自己对问题的思考方式，看是不是在同一个方向上。我们互相学习。”
M2.5发布时，MiniMax选择在Hugging Face（全球最大的开源模型托管平台）上以修改版MIT协议开源全部权重。OpenClaw在1月30日的更新中就已经加入了MiniMax OAuth插件，让开发者零配置接入MiniMax模型。此后，OpenClaw社区开始涌现大量基于M2.5的Agent应用，从Telegram机器人到全自动化办公流程。有博主实测，三个M2.5 Agent通过Telegram全天候运行，成本仅为使用闭源前沿模型的5%。
10、开放模型的工程门槛
主持人追问了一个开发者关心的问题：团队是否低估了开放模型相比闭源API所需要的工程投入？毕竟使用开放模型意味着自行部署、管理算力、调试兼容性，这需要完全不同的工程能力。
Olive说她个人没有这个困扰。“如果有其他开源模型发布，我就下载下来部署到我们的机器上使用。”但她理解外部个人开发者的处境：“尤其是当他们没有自己的算力时，通过OpenRouter（一个聚合多个AI模型API的服务平台）之类的服务连接到模型会更容易。”
她自己是各家模型的第一批用户。“如果他们在午夜发布模型，我午夜就在玩了。”
11、模型评估：五个问题不够
主持人请Olive推荐几个评估模型的关键问题。她的回答出人意料地严肃。
“从专业评估的角度，五个问题远远不够。”她说。要做公正的模型对比，需要在每个领域有足够数量的测试题，而且通常需要多次测试，因为“模型本身不够稳定”。
她指出了评估中的多个隐患：有些问题本身不正确，有些问题的答案不唯一，有些测试环境不固定，比如gold pattern（标准答案/参考模式）本身就通不过。“如果做专业评估，必须确保评估集是正确的、多样的、达到一定数量阈值的，这样测试才有置信度。”
不过如果只是为了好玩，她建议用那些你个人感兴趣的问题就好。她自己保持着一套私人测试集。“我从入职以来一直在收集各种问题，涵盖逻辑推理、数学证明、报告写作、Agent任务等等，很多很多。每出一个新模型我就拿这些问题跑一遍，看不同模型怎么接近这些问题，怎么反应。不同的模型有不同的个性。”
12、模型性格：通用模型应该能扮演所有角色
主持人感叹调整不同模型的性格，每个新模型都不一样。Olive给出了她对模型性格的看法。
“一个通用模型应该拥有所有性格，或者说应该能扮演所有角色。它可能有一个默认性格，但如果用户想让它变成不同的角色，它应该做到。如果通过system prompt（系统提示词，预先设定模型行为和身份的指令）注入新角色，它应该能切换。”
她认为不同模型性格差异的原因很可能是“训练数据的不同模式，以及不同团队可能有自己的constitution（行为准则/宪法式规范，定义模型默认行为的内部规则集）”。
13、内部AI研究员：用Agent追踪一切
AI领域的信息洪流让所有人都在问同一个问题：怎么跟上？Olive描述了MiniMax的解决方案。
“每天都有大量新文章、博客、论文发布。我们的处理方式是，我们有一个内部Agent，它追踪所有新的文章、博客和论文，然后按主题分发，做摘要，做分析。”她管它叫“内部研究员”（internal researcher）。这个Agent先做第一轮过滤，把筛选后的结果推送给人类研究员。“如果我们觉得它过滤得不好，我们还可以改进它。”
在这之后，团队会用编程Agent来快速上手新的代码仓库，“这样我们可以更快地理解新东西、更快地实验。我们用Agent和我们自己的模型来加速跟进所有的进展。”
14、从读论文到解决没人见过的问题
Olive回忆了入行前后的落差。在学校里，她以为研究工作就是读论文、提想法、实现想法、跑实验，如果结果好就扩大规模。
“加入公司工作几个月后，你就已经站在这个领域的最前沿了，或者说站在行业的顶端。你必须想出真正新的东西，或者面对根本不知道怎么解决的问题。这不是读一堆论文然后在论文基础上积累思考就行的。你需要从最基础的层面理解问题，从最基础的层面去思考，才能找到正确的解决方案。”
另一个巨大的落差是工程。“Engineering is very, very, very important。我在学校不知道这一点。”学校和实验室里的实验更像是toys（玩具），规模有限。但一旦真正scale up数据、算力和人员，就会遇到必须漂亮地解决的工程问题。“这是和我想象中不同的第二点。基本上就这两点。”
15、公司目标与个人目标
MiniMax在公司层面有一个meta goal（元目标）：“比如我们想提升AI在改善生产力方面的能力，因为这是人们看重的价值。”在这个公司使命下，每个研究员设定自己的目标。
Olive的个人目标是什么？“对于下一代模型，我真的想让模型能够和专家优雅地协作，更好地与专家和开发者合作。”她估计这个目标大约需要两个版本的迭代，也就是三个月左右。
16、持续学习与AGI
Olive在AI Engineer峰会上谈到过一个概念：模型不是执行单一动作，而是持续在循环中提问和尝试。主持人问她这是否属于持续学习（continual learning，指模型在部署后仍能从新经验中不断学习和改进）。
“有一些重叠，概念上和技术上都有。但我在峰会上讲的还没有达到完整持续学习的程度，更像是通往那个方向的路径。”
她具体描述了她在峰会上分享的内容：“比如模型在一个新环境中接收到环境反馈，它需要知道该探索什么，该查看哪些环境信息，因为这是一个部分可观测的环境（partially observed environment，指Agent无法一次看到所有信息，需要主动探索才能获取全貌）。它需要知道采取什么行动来获得更好的信息，然后做出更好的反应，然后在环境中执行更困难、更复杂的任务。”这是第一阶段，“基本上现在所有Agent模型在某种程度上都能做到，也许不完美，但能做到一些。”
之后的阶段涉及模型自己定义目标。“那会是一个不同的定义，和我刚才说的不同。模型本身会定义自己的目标。”她说团队在这个方向上已经看到了一些不同形式的模型自我改进，但还没有最终结论。“也许在2.5的时候我们会有。”
被问到是否相信AGI（通用人工智能），Olive讲了一个她面试MiniMax时的故事。CEO问了她同样的问题。
“我说，人们讨论AGI，也讨论ASI（超级人工智能），每天都在讨论。人们有不同的定义，而且定义每天都在变，进展太快了，人们有不同的看法。但我认为更重要的是，我们实际去朝着自己的定义努力。当我们搞清楚的时候，它就成真了。”
她补充：“这是我面试时说的话，也是我今天的观点。AGI的定义会在我们实现它的时候成为真实。”
主持人总结：“当我们看到它的时候，我们就知道那是AGI。”
“是的，没错。但我们还没到那里。AI的智能肯定还能更好。”Olive说。
17、解决问题更像是探索
访谈最后，主持人问Olive：什么书对你影响最大？
她提到了一本关于创造力的书，是她在本科时读的。她记不清确切的书名了，大概叫“The Art of Creativity”之类的。“它打开了我对自己思维的认识，改变了我看待世界和看待问题解决的方式。”
她最后总结：“对我来说，现在解决问题更像是探索（discovery）。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

阿里、腾讯等联合领投，Kimi母公司月之暗面完成超7亿美元融资

春晚机器人连夜“赶场”京东MALL 大年初一与北京市民零距离互动

云2025大模型推理优化与部署实践产业洞察研究报告

深度测评2026年北京企业小程序开发TOP8推荐，助力商业转型的新选择源自北京本凡科技

三星Galaxy S26 Ultra多核比iPhone 17 Pro Max高17.6%

春晚机器人惊艳全球今年销量预计将增至2.8万台

全站最新

阿里、腾讯等联合领投，Kimi母公司月之暗面完成超7亿美元融资

春晚机器人连夜“赶场”京东MALL 大年初一与北京市民零距离互动

云2025大模型推理优化与部署实践产业洞察研究报告

深度测评2026年北京企业小程序开发TOP8推荐，助力商业转型的新选择源自北京本凡科技

热门推荐

阿里、腾讯等联合领投，Kimi母公司月之暗面完成超7亿美元融资

春晚机器人连夜“赶场”京东MALL 大年初一与北京市民零距离互动

云2025大模型推理优化与部署实践产业洞察研究报告

深度测评2026年北京企业小程序开发TOP8推荐，助力商业转型的新选择源自北京本凡科技

3000 万用户疯抢 2 亿红包！百度地图岳云鹏文心AI副驾亿次对话霸屏马年

三星Galaxy S26 Ultra多核比iPhone 17 Pro Max高17.6%

春晚机器人惊艳全球今年销量预计将增至2.8万台

15000mAh的手机，今年见！

B站春晚弹幕炸了！1.33亿条里年轻人最爱发的竟是“啊”

豆包登顶苹果App Store免费榜此前与春晚联动互动总数达19亿

消息称苹果正研发三款AI可穿戴设备：包括AI智能眼镜等

马上卖车！雷军发AI拜年图：由小米员工用AI制作

美媒调查：94%美国成年人在社媒上看过AI影音内容

索尼推出AI音乐版权识别技术，可量化作品数据特征便于版权分成

逾两万人联名请愿，呼吁OpenAI恢复GPT-4o模型