Mistral开源两大编程模型！大参数模型性能超Kimi、Qwen，小参数模型PC可跑

IP属地中国·北京 智东西 时间：2025-12-10 20:15:05

智东西
编译王欣逸
编辑程茜
智东西12月10日消息，昨晚，法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2，该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外，Mistral还同时推出了原生CLI工具Mistral Vibe，能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。

Devstral 2参数为123B，支持256K上下文窗口，可以探索代码库，并能在保持架构层面上下文理解的同时，进行跨文件协调更改；Devstral Small 2参数为24B，同样具备256K上下文窗口，支持快速推理和反馈，可以定制和本地部署，同时还支持图像输入，可应用于多模态Agents。
在SWE-bench Verified编程基准测试中，Devstral 2取得了72.2%的成绩，优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型，仅次于DeepSeek V3.2；Devstral Small 2取得了68.8%的成绩，超过GPT-OOS-120B，和GLM 4.6持平；在针对实际编程任务进行的人工测试中，Devstral 2表现优于DeepSeek V3.2。基准测试结果如下：

此外，在部署上，Devstral 2至少需要四块H100级GPU，更轻量化的Devstral Small 2可以在消费级硬件上本地运行。
Mistral Vibe是一个由Devstral驱动的开源命令行编程助手，集成了文件操作、代码搜索、版本控制及命令执行等工具。
Mistral AI是一家法国创企，成立于2023年，由前DeepMind和Meta研究人员成立，专注于开源模型开发。今年9月，该公司宣布获得17亿欧元（约合人民币139.9亿元）C轮融资，估值达到117亿欧元（约合人民币962.6亿元），英伟达曾三次投资这家公司。
一、基准测试位列开源第二，和顶尖闭源还有性能差距
据Mistral官网，Devstral 2 123B支持探索代码库，能跨多个文件协调修改，还能保持上下文理解。它可以跟踪框架依赖、检测故障，并能通过修正后重试，从而解决如修复错误、改造遗留系统等复杂挑战。
该模型支持微调，可针对特定编程语言进行优化，适配大型企业代码库的需求。
不过，Devstral 2以修改版的MIT协议发布，这一协议对大企业进行了限制：月收入超过2000万美元（约合人民币1.41亿元）的公司，在未获得Mistral单独商业许可的情况下，无法使用该模型。
更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制，可本地部署，同时还支持图像输入，可应用于多模态Agents。
从基准测试来看，Devstral 2模型位列开源模型的第二名，并正赶超顶尖闭源模型。
Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分，Devstral Small 2取得了68%的得分，在开源模型中已经达到了领先水平，Devstral 2的得分仅次于DeepSeek V3.2。

Devstral 2系列模型的亮点在于小参数设计，其模型在关键基准测试中展现出和顶尖开源模型齐平的性能，却仅需后者几分之一的参数量。
得分只比Devstral 2高0.9%的DeepSeek V3.2，其参数大小是Devstral 2的5倍，是Devstral Small 2的28倍，而表现次于Devstral 2的Kimi K2 Thinking，其参数大小是Devstral 2的8倍，是Devstral Small 2的41倍。

不过，Devstral 2系列模型与顶尖闭源模型之间还存在差距。
人工评测结果显示，在Cline构建的任务场景中，Devstral 2相对DeepSeek V3.2优势明显，胜率为42.8%，败率为28.6%。然而，Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来，胜率仅为21.4%，败率为53.1%。

二、端到端代码自动化，能进行架构级推理
Mistral Vibe是基于Devstral模型构建的开源命令行编程助手，能通过自然语言交互，接入IDE，实现对代码库的探索、修改与变更执行。

Mistral Vibe提供了一个交互式对话界面，集成了文件操作、代码搜索、版本控制及命令执行等工具。
它能自动扫描用户文件结构及Git状态，提供相关上下文信息，能理解整个代码库的架构，并进行架构级推理，此外，它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。
开发者可以通过脚本编程方式运行Mistral Vibe，启用工具执行的自动批准功能，通过简洁的config.toml配置文件管理本地模型与供应商设置，灵活控制工具权限。
结语：平衡高性能与小参数，为企业提供了低门槛解决方案
从Mistral 3到Devstral 2系列、Mistral Vibe，Mistral AI正以相当快的进击速度参与AI竞争，并在模型的高性能与轻量化间实现了平衡，从测试结果看，Devstral Small 2模型在参数仅为24B的情况下，依然优于不少开源模型，和GLM 4.6打平。
Mistral AI在公告中提到，Devstral 2系列模型专为生产级工作流打造，并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距，不过，对大多数企业而言，Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案，尤其是在和Mistral Vibe的搭配使用上，Devstral 2系列模型或将在特定的生产环节发挥作用。
Mistral AI

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

全站最新

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

热门推荐

联想YOGA Air 14新增英特尔酷睿Ultra 5 228V版本，7999元

科技周报｜阿里平头哥上线自研AI芯片；亚马逊开启新一轮裁员

布米普特拉北京投资基金管理有限公司：亚马逊或重注OpenAI 人工智能竞赛格局生变

从加挂牌子到单列机构，长三角AI治理为何需要“专属管家”？

雷军回应小米汽车交付量环比下降：Q1是传统淡季，以YU7交付为主

说法丨规范二手交易打通流通堵点

说法丨规范二手交易打通流通堵点

雷军：下一辆车要买新一代小米SU7，目前常开影青色YU7

NVIDIA发福利：突袭发售原价RTX 50公版卡！几分钟即被秒光

腾讯元宝10亿红包刷爆朋友圈，已有19人抽到万元小马卡

1月新势力销冠之争：问界千辆优势险胜小米

直播电商常态化监管需紧抓重点

AI数据中心致美国天然气发电大增，全球温室气体排放或破纪录

H200松绑无人在意，国产芯片接棒主力

国内首个！东南大学发布混凝土材料垂类大模型，南京北站已应用