5600 亿参数震撼开源！美团 LongCat 登顶：数学证明领域迎来新“天花板”

IP属地中国·北京 编辑：柳晴雪 Chinaz 时间：2026-03-23 10:34:59

在大模型向垂直专业领域进军的征途中，美团刚刚交出了一份令学术界与工业界瞩目的答卷。
3月21日，美团正式开源了名为 LongCat-Flash-Prover 的超大规模数学证明模型。这款拥有 5677亿参数的巨兽，采用了先进的 MoE（混合专家模型）架构，专门针对极其复杂的数学形式化证明问题进行了深度优化。
在衡量模型逻辑推理能力的顶级基准测试中，LongCat-Flash-Prover 展现出了统治级的实力:
刷新纪录: 在 MiniF2F-Test 测试中取得了 97.1% 的惊人成绩，仅需72次推理尝试。
攻克难题: 在 PutnamBench 任务中成功解决了41.5% 的问题，上述两项数据均刷新了全球 SOTA（当前最佳）水平。
为了让大模型真正拥有“数学家”般的严谨，美团在技术路径上实现了多项关键突破:
消除幻觉: 引入了基于 AST（抽象语法树）的多阶段严格验证流程，并整合 Lean4形式化语言，从根源上杜绝了 AI 在逻辑推演中的“胡言乱语”。
训练算法进化: 针对 MoE 模型长程任务训练不稳的顽疾，美团引入了自研的 HisPO 算法，并配合定理一致性检测机制，有效防止了模型在强化学习阶段出现“投机取巧”的奖励黑客行为。
高效架构:5600亿的总参数量确保了模型深厚的知识底蕴，而MoE架构则保证了推理时的灵活性与高效性。
目前，美团已将该模型及其代码在 GitHub 和 Hugging Face 平台全面开源。
随着 LongCat-Flash-Prover 的亮相，国产大模型在数学逻辑、代码验证等高阶推理领域的竞争力得到了有力证明。当复杂的定理证明不再仅仅依赖人类头脑，而是能通过百亿级激活参数的专家模型精准破解，AI 距离实现真正的“通用人工智能”又迈出了扎实的一步。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

孙正义的新万亿“赌局”

从奥斯卡奖到口袋电影机，大疆过去12年在做什么

华为MatePad Edge获HarmonyOS 6.1.0.125 SP54升级

构建家庭安防体系，中兴智慧家庭发布消费类摄像头技术白皮书

丰田/大众/长安全线砍车，全球车企「大逃杀」，开始了

腾讯或退出对多家日本工作室的投资，《牧场物语》开发商在列

全站最新

孙正义的新万亿“赌局”

从奥斯卡奖到口袋电影机，大疆过去12年在做什么

华为MatePad Edge获HarmonyOS 6.1.0.125 SP54升级

构建家庭安防体系，中兴智慧家庭发布消费类摄像头技术白皮书

热门推荐

孙正义的新万亿“赌局”

转让底价1元，人保寿险挂牌出清旗下保险销售公司全部股权，公司回应：战略性资产优化

转让底价1元，人保寿险挂牌出清旗下保险销售公司全部股权，公司回应：战略性资产优化

转让底价1元，人保寿险挂牌出清旗下保险销售公司全部股权，公司回应：战略性资产优化

转让底价1元，人保寿险挂牌出清旗下保险销售公司全部股权，公司回应：战略性资产优化

从奥斯卡奖到口袋电影机，大疆过去12年在做什么

华为MatePad Edge获HarmonyOS 6.1.0.125 SP54升级

启境GT7下线！广汽联合华为引望改造启境生产线，耗资超五亿

构建家庭安防体系，中兴智慧家庭发布消费类摄像头技术白皮书

丰田/大众/长安全线砍车，全球车企「大逃杀」，开始了

腾讯或退出对多家日本工作室的投资，《牧场物语》开发商在列

对标英伟达和谷歌！博通携手OpenAI推出自研定制AI芯片，股价盘前拉升一度涨超3%

商汤科技贾安亚：AI行业正从“能用”走向“好用”，从“可用”走向“敢用”

OpenAI、博通联手打造的AI芯片Jalapeño首秀，号称媲美英伟达

比亚迪官宣其他车型将陆续搭载螺纹生态接口，支持固定+供电功能