作者:周源/华尔街见闻
9月1日,美团正式对外发布并开源了自研大模型LongCat-Flash-Chat。这是美团首次将大模型作为完整产品开放给行业与开发者。
模型采用业界流行的MoE(Mixture-of-Experts)架构,总参数规模高达5600亿(560B),但每次推理仅激活186亿-313亿参数,平均约270亿,平均激活率仅4.8%。
尽管激活率如此之低,但据美团官方称,“在多项智能体相关测试中,该模型展现出明显优势,同时在推理速度上可超过100 tokens/s”。
目前,该模型代码与权重全部开源,并采用MIT((MIT License:全球最流行、最宽松的开源软件许可证之一)许可证。
这一动作除了技术意义,主要折射了美团在人工智能战略上的深层考量。
从参数堆叠到工程均衡
在当下的大模型竞争中,单纯的参数规模早已不是新鲜话题。
业界已经经历过“谁的模型更大”的阶段,如今更重要的是在算力约束和部署效率中找到平衡。
美团的LongCat-Flash选择MoE路线,即在极大总参数量的基础上,通过专家路由实现按需激活。
这样做的结果是:模型保留庞大潜在表征能力,但实际推理开销被控制在与常见中大型模型相当的水平。
在落地应用的过程中,工程化细节非常关键。
传统MoE模型容易遇到路由不稳定与通信成本高的问题,美团通过在路由机制中引入“零计算专家”,让一部分token快速跳过计算,从而保证整体效率;同时通过ScMoE方式增加计算与通信的重叠度,缓解了多节点部署时的瓶颈。
这些改造并不花哨,却触及了MoE落地的真正痛点:在真实硬件和调度条件下,如何保证模型既能跑得快,又能稳定复现。
与近来部分大模型强调链式推理、长链逻辑不同,LongCat-Flash被美团官方定义成“non-thinking foundation model”,即“非思考型基础模型”。
这一定位背后隐含着美团对应用场景的重新理解。
美团并不试图在学术测试层面证明模型能实现多步推理,而把重点放在智能体任务:工具调用、任务编排、环境交互以及多轮信息加工等实际应用层。
这种导向与美团的业务逻辑高度契合。
美团的本地生活服务是一套复杂系统,涉及到商户信息、配送时效、地理位置、库存状态和支付规则等环节。
用户一次请求往往要经过多个子系统的协同与决策。
如果模型在每个环节都能以工具的形式完成调用和交互,就能把AI从单纯的对话助手转变为真正的流程引擎。
故而,相比展示模型的“思维深度”,美团更重视的模型稳定执行力,显然对业务更具价值。
在美团官方描述中,LongCat-Flash推理速度超过100 tokens/s,这指标被强调成“显著优势”。
对行业人士来说,速度从来不是孤立的数字,而是直接映射到部署成本和用户体验的关键变量。
MoE架构本身对吞吐有天然挑战:专家路由的不稳定,会导致不同请求的耗时,存在明显差异,多卡通信则可能拖累整体效率。
美团之所以能在高总参数规模下仍然宣称高吞吐,正是依赖于路由和通信的优化。更重要的是,这模型能适配主流推理框架,包括SGLang与vLLM。
这意味着企业用户无需大幅改造部署栈,就能较为直接地复现实测结果。
但从商业角度看,企业更关注的其实是单位token成本和大规模并发时的稳定性。
一个模型在单机环境下表现亮眼,但如果在真实流量下延迟不稳定,或在批量请求中,错误率有明显提升,那么就难以真正成为生产力工具。
美团的选择是在架构层面先解决可扩展性与吞吐问题,再通过开放部署框架,由开发者自行评估成本曲线。
这是“先给出可跑通的基线,再交给市场验证”的思路,很可能比空洞的性能对比,在现实应用层面,更具实际意义。
开源与许可的隐性指向
与国内不少厂商只开放部分权重或附带“非商用限制”不同,美团这次采取更为彻底的开源策略:权重与代码同时发布,并且使用MIT许可。
这样的选择,在法律与生态两个维度上都有不可忽视的含义。
就法律角度看,MIT许可的限制最少,允许自由修改、分发和商用,几乎不给企业应用设置额外障碍;这对那些希望在自有产品中集成模型的公司而言,无疑是个友好信号。
站在生态角度,MIT许可意味着美团愿把模型当作公共资产,让更多开发者基于此,做二次开发与实验。这不仅能加快模型的迭代速度,也能帮助美团在激烈的开源竞争中发出更大声量。
若是落脚在具体操作层,美团选择同时发布于GitHub与Hugging Face,这俩平台分别代表开发者社群与模型分发的主流渠道,能确保模型快速被接触与使用。
因此在开源动作背后,实际上是美团发起的一次对开发者生态的争夺战役:谁能在早期吸引更多开发者在自己的模型上试水,就更可能在后续形成应用链路与工具生态。
在公开的模型卡中,美团展示了LongCat-Flash在多项基准维度的测试结果:在TerminalBench、τ²-Bench、AceBench和VitaBench等以智能体为核心的评测中表现突出,而在通用问答、数学和代码等常见维度,则与一线大模型基本处于同一水平。
这说明LongCat-Flash并非为了全面超越现有主流模型,而是选择差异化的竞争路径:这个模型的强项在于多工具协作、环境交互和流程编排,这与美团强调的应用场景高度一致。
如果开发者希望构建的是一个问答型助手,它或许并不比其他开源模型更优;但如果要构建涉及多工具调用、信息整合与链路执行的智能体,LongCat-Flash的定位恰好击中市场需求。
对于美团来说,开源不仅仅是对外展示的手段,更是与内部业务实践结合的结果。
美团本地生活场景天然是智能体的最佳试验田:配送链路、商户信息、实时库存和用户交互构成了一个复杂的生态系统。
若模型能在这一生态中稳定地承担起工具调用和流程编排的角色,那么美团的运营效率、用户体验乃至整体平台竞争力都会得到提升。
这也是为何美团没有把重点放在能否解出更复杂的逻辑推理题,而是集中在能否更稳健地调用工具完成任务。
美团要的是一个能稳定完成上百万次工具调用、降低系统出错率的模型;显然,美团认为,这比一个在学术测试中领先几个百分点的模型更有现实价值。
LongCat-Flash的开源并不仅仅是美团内部的事。
就整个行业的价值,美团这次给出的是一个可供直接使用的高性能MoE模型,尤其在智能体应用逐渐成为产业关注重点的当下,一个强调工具调用与流程编排能力的开源底座,能加速行业内的应用探索。
这种外溢效应可能体现在两个方面:一方面,中小团队可基于模型快速验证自己的智能体产品,而无需从零搭建底层模型;另一方面,更多行业场景(如物流调度、客服系统、知识管理)也可能借助该模型进行实验。
这些场景与美团的本地生活或许并不完全相同,但在流程复杂性和工具依赖度上有相通之处。
通过MIT开源许可,美团等于为这些场景提供了一个低门槛的基础设施。
对开发者而言,LongCat-Flash的价值是提供了一个在智能体维度上经过训练和优化的开放模型,可直接应用于需要工具协作的任务链路;对企业用户的价值,真正的考验是,如何把模型嵌入现有的系统中,并处理由此带来的合规、监控和成本问题。
在这哥过程其中,最值得关注的不是模型本身的准确度,而是在流程中的稳定性与可控性:当调用失败时是否能及时降级,当外部环境变化时是否能快速适配,当面对高并发时是否能保持性能一致。
只有解决这些问题,美团推出的这个开源模型,才能真正成为商业系统的一部分,而不仅仅是技术展示。
美团如此重视模型的现实价值,那么就很显然,开源LongCat-Flash并非单纯的技术炫技,而是一次明确的战略表态:美团选择了一条与强调“思考”不同的路线,把重心置于工具调用与流程执行的智能体能力层面,并通过工程化优化解决MoE的落地难题。
MIT许可的特征是彻底开源,因此美团的这一选择不仅服务于其内部业务,也开放给整个行业生态。
未来,LongCat-Flash的真正价值不在于参数规模有多大,而在于否在复杂的业务链路中稳定运转,推动智能体应用从试验走向大规模落地。