DeepSeek-Math-V2数学模型开源，成绩碾压OpenAI和谷歌同类模型

IP属地中国·北京 编辑：江紫萱 TechWeb 时间：2025-12-01 16:11:20

12月1日消息，近日， DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型，这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。
DeepSeek-Math-V2模型在国际数学奥林匹克IMO 2025模拟赛中解出5道题（共6题），在中国数学奥林匹克CMO 2024中获得金牌级评价，更在被誉为“地狱难度”的普特南(Putnam)数学竞赛2024中取得了118/120的接近满分成绩，远超人类最高分90分。
“鲸鱼回来了！” 这是AI开源社区在DeepSeek发布新模型后的热烈反应。
两大创新，成绩碾压GPT-5-Thinking-High和Gemini 2.5-Pro
根据DeepSeek团队发布的论文，DeepSeekMath-V2的核心突破在于成功实现了“自我验证”的数学推理机制。
传统的AI数学推理训练存在根本性局限——模型奖励基于最终答案的正确性，但这并不能保证推理过程的正确性或逻辑的严谨性。
DeepSeek研究人员在论文中明确指出：“正确答案并不保证推理过程正确”。
这种结果导向的训练方式，导致模型可能通过错误的逻辑得出正确答案，成为“自信的骗子”。
DeepSeekMath-V2彻底改变了这一模式，转向过程导向的训练方法。它不依赖大量的数学题答案数据，而是教会AI如何像数学家一样严谨地审查证明过程。
这种方法模拟了人类数学家的思考方式：写几步之后，停下来反思，发现漏洞就推翻重写，直到自己挑不出毛病为止。
另一个大核心创新则是DeepSeekMath-V2构建了一个多层次自我验证系统。
该系统由三个关键角色组成，形成了一个相互协作又相互制约的架构。
“做题家”（证明生成器）负责解题和撰写证明过程。与以往不同，它被训练成不仅要写答案，还要进行“自我评价”，诚实指出自己可能出错的地方。
“铁面判官”（证明验证器）是专门训练的评分模型，它不看答案对错，而是专门盯着证明过程挑刺。它将证明分为三个等级：1分（完全正确）、0.5分（有小瑕疵）、0分（有致命错误）。
“判官的审计员”（元验证器）是最绝的一步，它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误，它会被元验证器纠正。
通过这种精巧的架构，DeepSeekMath-V2实现了真正的自我反思能力。
模型不再盲目相信自己的第一直觉，而是学会了怀疑、审视和批判性思维。
根据论文公开的数据，DeepSeekMath-V2在多项数学基准测试中展现出统治级的实力。
在IMO-ProofBench基准测试中，DeepSeekMath-V2在Basic子集上获得了接近99%的惊人高分，显著高于Gemini Deep Think的89%。
在更高级的Advanced子集上，DeepSeekMath-V2得分为61.9%，略低于Gemini Deep Think的65.7%，但仍展现出强大的竞争力。
在与顶级模型的直接对比中，DeepSeekMath-V2在所有CNML级别问题类别上，包括代数、几何、数论、组合学和不等式均持续优于GPT-5-Thinking-High和Gemini 2.5-Pro。
在代数领域，DeepSeekMath-V2远超GPT-5-Thinking-High和Gemini 2.5-Pro；在几何领域，其得分几乎是Gemini 2.5-Pro的三倍。
更令人印象深刻的是，当允许模型进行“自我验证”，即生成答案后，自己挑毛病，然后带着问题重新生成，证明的质量分数从初始的0.15（迭代1次）飙升到了0.27（迭代8次）。
开源社区沸腾
DeepSeekMath-V2的开源发布，在AI社区引发了强烈反响。
海外社区有评论称“鲸鱼终于回来了”，并指出DeepSeek以约10个百分点优势超越谷歌同类模型，超出预期。
在技术社区，用户用更通俗的语言解读这一突破：“DeepSeek换了个教法，死磕过程。结果对了，也必须看解题步骤，过程中只要有一步没整明白，也不给糖吃。这就逼着AI必须要真懂，不能当混子。”
还有用户指出这一发布的时间点堪称完美：“就在昨天，AI教父Ilya在访谈中提到，现在的AI就是个只会死记硬背的做题机器。仅仅不到24小时，DeepSeek就把新模型开源了。”
这一巧合被形容为“一次穿越时空的击掌”，是DeepSeek对AI发展路径的实质性回应。
不过，也有用户提出了理性的担忧：“自我纠错这套路，说得轻松其实难度不小啊，验证器要是本身就有问题呢？左手批右手的感觉。”
无论如何，大家都认为DeepSeekMath-V2的开源具有重要的行业意义。
DeepSeekMath-V2采用Apache 2.0许可证，允许修改、重新用途和本地部署，为学术研究和商业应用提供了极大便利。
这一开源降低了全球研究者的门槛，特别是在当前谷歌和OpenAI都将他们的高分数学模型严格限制在付费或实验性访问。
DeepSeekMath-V2的开源发布标志着AI数学推理能力不再是大公司的专属领域，而是成为全球研究者可以共同探索和推进的开放领域。
Hugging Face联合创始人兼Clement Delangue表示：这一发布是迈向AI真正民主化的一步。
用户现在可以免费使用“世界上最好的数学家之一的大脑”，而不必担心公司或政府将其收回。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

2.8万亿、全球最大、马斯克第二次点赞：Kimi K3凭什么刷屏海内外

银河通用机器人王鹤：具身智能的ChatGPT时刻2028年有望到来

退换货被拒！iPhone17刚到手屏幕就失灵售后：等系统更新

中国气象局发布“妈祖”风云卫星AI工具箱

中科天塔星载激光通信终端智能产线投产，一期年产能规划600套

消息称三星暂缓High-NA EUV技术量产，因财务考量而非技术瓶颈

全站最新

上海港高端制造出口“加速跑” 新能源汽车出海日均超3000辆驶向全球

2.8万亿、全球最大、马斯克第二次点赞：Kimi K3凭什么刷屏海内外

银河通用机器人王鹤：具身智能的ChatGPT时刻2028年有望到来

退换货被拒！iPhone17刚到手屏幕就失灵售后：等系统更新

热门推荐

国产大模型Kimi K3展现硬实力：48小时自主设计AI芯片 45nm工艺解码高效

飞猪辟谣大面积裁员传闻：人员流动正常招聘离职人数大致相当

蚂蚁集团、宁德时代等入股自然意志科技公司

得物App联合千觉机器人发布AI鉴别机器人，亮相WAIC 2026

NVIDIA 发布 Nemotron 3 Embed 系列，8B 版本登顶 RTEB 检索基准

中国移动、中国东航、中国商飞、中兴通讯签署5G-ATG四方合作协议

2.8万亿、全球最大、马斯克第二次点赞：Kimi K3凭什么刷屏海内外

银河通用机器人王鹤：具身智能的ChatGPT时刻2028年有望到来

阶跃与支付宝达成合作，可通过自然语言调用AI版支付宝

退换货被拒！iPhone17刚到手屏幕就失灵售后：等系统更新

中国气象局发布“妈祖”风云卫星AI工具箱

中科天塔星载激光通信终端智能产线投产，一期年产能规划600套

消息称三星暂缓High-NA EUV技术量产，因财务考量而非技术瓶颈

加码出海，小米汽车在马来西亚开启招聘

国标修改电车试验里程：和油车一样要满3万公里，不再减半