当前位置: 首页 » 资讯 » 科技头条 » 正文

DeepSeek-Math-V2数学模型开源,成绩碾压OpenAI和谷歌同类模型

IP属地 中国·北京 编辑:江紫萱 TechWeb 时间:2025-12-01 16:11:20

12月1日消息,近日, DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型,这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。

DeepSeek-Math-V2模型在国际数学奥林匹克IMO 2025模拟赛中解出5道题(共6题),在中国数学奥林匹克CMO 2024中获得金牌级评价,更在被誉为“地狱难度”的普特南(Putnam)数学竞赛2024中取得了118/120的接近满分成绩,远超人类最高分90分。

“鲸鱼回来了!” 这是AI开源社区在DeepSeek发布新模型后的热烈反应。

两大创新,成绩碾压GPT-5-Thinking-High和Gemini 2.5-Pro

根据DeepSeek团队发布的论文,DeepSeekMath-V2的核心突破在于成功实现了“自我验证”的数学推理机制。

传统的AI数学推理训练存在根本性局限——模型奖励基于最终答案的正确性,但这并不能保证推理过程的正确性或逻辑的严谨性。

DeepSeek研究人员在论文中明确指出:“正确答案并不保证推理过程正确”。

这种结果导向的训练方式,导致模型可能通过错误的逻辑得出正确答案,成为“自信的骗子”。

DeepSeekMath-V2彻底改变了这一模式,转向过程导向的训练方法。它不依赖大量的数学题答案数据,而是教会AI如何像数学家一样严谨地审查证明过程。

这种方法模拟了人类数学家的思考方式:写几步之后,停下来反思,发现漏洞就推翻重写,直到自己挑不出毛病为止。

另一个大核心创新则是DeepSeekMath-V2构建了一个多层次自我验证系统。

该系统由三个关键角色组成,形成了一个相互协作又相互制约的架构。

“做题家”(证明生成器) 负责解题和撰写证明过程。与以往不同,它被训练成不仅要写答案,还要进行“自我评价”,诚实指出自己可能出错的地方。

“铁面判官”(证明验证器) 是专门训练的评分模型,它不看答案对错,而是专门盯着证明过程挑刺。它将证明分为三个等级:1分(完全正确)、0.5分(有小瑕疵)、0分(有致命错误)。

“判官的审计员”(元验证器) 是最绝的一步,它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误,它会被元验证器纠正。

通过这种精巧的架构,DeepSeekMath-V2实现了真正的自我反思能力。

模型不再盲目相信自己的第一直觉,而是学会了怀疑、审视和批判性思维。

根据论文公开的数据,DeepSeekMath-V2在多项数学基准测试中展现出统治级的实力。

在IMO-ProofBench基准测试中,DeepSeekMath-V2在Basic子集上获得了接近99%的惊人高分,显著高于Gemini Deep Think的89%。

在更高级的Advanced子集上,DeepSeekMath-V2得分为61.9%,略低于Gemini Deep Think的65.7%,但仍展现出强大的竞争力。

在与顶级模型的直接对比中,DeepSeekMath-V2在所有CNML级别问题类别上,包括代数、几何、数论、组合学和不等式均持续优于GPT-5-Thinking-High和Gemini 2.5-Pro。

在代数领域,DeepSeekMath-V2远超GPT-5-Thinking-High和Gemini 2.5-Pro;在几何领域,其得分几乎是Gemini 2.5-Pro的三倍。

更令人印象深刻的是,当允许模型进行“自我验证”,即生成答案后,自己挑毛病,然后带着问题重新生成,证明的质量分数从初始的0.15(迭代1次)飙升到了0.27(迭代8次)。

开源社区沸腾

DeepSeekMath-V2的开源发布,在AI社区引发了强烈反响。

海外社区有评论称“鲸鱼终于回来了”,并指出DeepSeek以约10个百分点优势超越谷歌同类模型,超出预期。

在技术社区,用户用更通俗的语言解读这一突破:“DeepSeek换了个教法,死磕过程。结果对了,也必须看解题步骤,过程中只要有一步没整明白,也不给糖吃。这就逼着AI必须要真懂,不能当混子。”

还有用户指出这一发布的时间点堪称完美:“就在昨天,AI教父Ilya在访谈中提到,现在的AI就是个只会死记硬背的做题机器。仅仅不到24小时,DeepSeek就把新模型开源了。”

这一巧合被形容为“一次穿越时空的击掌”,是DeepSeek对AI发展路径的实质性回应。

不过,也有用户提出了理性的担忧:“自我纠错这套路,说得轻松其实难度不小啊,验证器要是本身就有问题呢?左手批右手的感觉。”

无论如何,大家都认为DeepSeekMath-V2的开源具有重要的行业意义。

DeepSeekMath-V2采用Apache 2.0许可证,允许修改、重新用途和本地部署,为学术研究和商业应用提供了极大便利。

这一开源降低了全球研究者的门槛,特别是在当前谷歌和OpenAI都将他们的高分数学模型严格限制在付费或实验性访问。

DeepSeekMath-V2的开源发布标志着AI数学推理能力不再是大公司的专属领域,而是成为全球研究者可以共同探索和推进的开放领域。

Hugging Face联合创始人兼Clement Delangue表示:这一发布是迈向AI真正民主化的一步。

用户现在可以免费使用“世界上最好的数学家之一的大脑”,而不必担心公司或政府将其收回。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。