当前位置: 首页 » 资讯 » 科技头条 » 正文

第1个获得数学奥赛金牌的开源模型!DeepSeek新模型获网友盛赞:公开技术文件,了不起!

IP属地 中国·北京 华尔街见闻官方 时间:2025-11-28 10:19:54

DeepSeek最新发布的开源数学模型,正将其推向与OpenAI和谷歌等科技巨头同场竞技的舞台DeepSeekMath-V2的模型,在被誉为全球最难的高中数学竞赛中达到了金牌水平,成为首个实现这一成就的开源模型,标志着开源人工智能在复杂推理能力上的一次重大突破。

昨日DeepSeek宣布推出其最新的数学推理模型DeepSeekMath-V2,该模型在模拟的2025年国际数学奥林匹克竞赛(IMO)中解决了6个问题中的5个,达到了金牌水平。这一成就使其成为第一个在IMO级别竞赛中获得金牌的开源模型,引发了AI研究和开发者社区的高度关注。

这一表现直接对标了行业巨头。就在今年7月,谷歌DeepMind的Gemini高级版本和一个来自OpenAI的实验性推理模型也达到了IMO 2025的金牌标准,同样解决了5个问题,它们是首批达到该水平的人工智能模型。然而,与谷歌和OpenAI的闭源实验模型不同,DeepSeekMath-V2的模型权重根据Apache 2.0许可证公开发布,可供公众下载。

值得一提的是,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。而且为了防止模型过度拟合其自身的检查机制,DeepSeek通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

此举被视为人工智能民主化的重要一步。该模型的发布不仅证明了开源社区有能力在尖端AI研究领域追赶甚至比肩顶级闭源实验室,也可能再次引发了市场对于开源模型是否会侵蚀闭源产品商业护城河的讨论——这一话题曾一度动摇投资者对英伟达等AI巨头的信心。

跻身顶尖行列:与OpenAI和谷歌同台竞技

DeepSeekMath-V2的卓越表现,标志着其在复杂的数学推理领域,与全球领先的AI实验室站在了同一起跑线上。国际数学奥林匹克竞赛(IMO)通常被认为是全球难度最高的高中生数学竞赛,在2025年的竞赛中,630名人类参赛者中仅有72人获得金牌。

除了在IMO 2025取得的成就,该模型还在其他高难度数学竞赛中展现了顶级水平。据DeepSeek称,它在中国最顶尖的全国性竞赛——中国数学奥林匹克(CMO)中也达到了金牌水平。

在面向大学本科生的普特南数学竞赛(Putnam 2024)中,该模型在12道题中完全解决了11道,另一道题也仅有微小错误,最终得分118/120,超过了人类参赛者90分的最高分记录。

开源的里程碑:社区盛赞“了不起的发布”

与谷歌和OpenAI尚未公开的实验模型相比,DeepSeekMath-V2的核心吸引力在于其彻底的开放性。该模型的权重已在开源社区Hugging Face上发布,允许研究人员和开发者自由下载。

Hugging Face的联合创始人兼首席执行官Clement Delangue在社交平台X上盛赞道:“想象一下,你可以免费拥有世界上最优秀数学家之一的大脑。”

他补充说,“据我所知,此前没有任何聊天机器人或API能让你接触到一个IMO 2025金牌水平的模型。”他强调,用户可以不受限制地探索、微调、优化模型,并运行在自己的硬件上,“没有任何公司或政府可以收回它。这是人工智能和知识民主化的最佳体现。”


另一位网友elie也评论称:“DeepSeek Math V2是第一个在IMO上达到金牌水平的开源模型吗?而且我们还得到了技术报告,这真是一次了不起的发布。”


还有网友评论称,他们喜欢 5-7 个想法,每个想法都相对简单,不断堆叠,结果出乎意料地越来越好,看起来更像工程而不是研究。


自我验证框架:超越答案,关注推理过程

DeepSeek在技术报告中指出,近期的人工智能模型虽然擅长在数学基准测试中获得正确答案,但往往缺乏严谨的推理过程。报告写道:“许多像定理证明这样的数学任务,需要严谨的逐步推导,而非仅仅一个数值答案。”

为了解决这一问题,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。随后,这个验证器被用作奖励模型,来引导一个独立的“证明生成器”(proof-generator)。只有当生成器成功识别并修复自身证明中的错误时,它才会获得奖励。

这种机制激励模型在最终确定答案之前,尽可能多地发现和解决自身推理链条中的问题。DeepSeek强调,“对于没有已知解决方案的开放性问题,自我验证在扩展测试时计算(test-time compute)方面尤为重要。”测试时计算指的是在推理阶段分配大量计算资源,让模型有更长时间进行推理、探索多种解决方案并完善答案。

动态进化系统:破解“自我过度拟合”难题

为了防止模型过度拟合其自身的检查机制——即只学会欺骗自己的验证器——DeepSeek采用了一种动态进化的策略。该团队通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

DeepSeek在技术文件中解释,这种方法允许他们“扩展验证计算,以自动标记新的、难以验证的证明,从而创造新的训练数据来进一步改进验证器。”通过这种验证-生成闭环和元验证机制,模型能够实现全自动化的数据标注和持续的性能优化,验证了自驱动学习系统在解决复杂数学推理任务上的可行性。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。