GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌

IP属地中国·北京 新智元 时间：2025-11-28 02:09:17

新智元报道
编辑：编辑部
沉寂许久的DeepSeek又回来了！今天，DeepSeekMath-V2重磅登场，一举夺下IMO 2025金牌，实力媲美甚至超越了谷歌的IMO金牌模型，开源AI再次扳回一局。
DeepSeek再次归来！
刚刚，DeepSeek重磅发布DeepSeekMath-V2新模型，一举夺下IMO 2025金牌。
最关键的是，这是首款「开源的IMO金牌模型」。

基于DeepSeek V3.2 Exp Base构建
当前，已官宣拿下金牌的两大模型，一款来自谷歌Gemini Deep Think，另一款便来自OpenAI的内部模型。
在IMO-ProofBench中，DeepSeekMath-V2展现出强大的定理证明能力：
IMO 2025：破解5题（共6题），达到了金牌水平；
CMO 2024（中国数学奥林匹克）：达到金牌水平；
Putnam 2024：得分118接近满分（120分），超越人类参赛者最高分（90分）。

不仅如此，在ProofBench-Basic上，DeepSeekMath-V2的实力碾压谷歌金牌模型——Gemini Deep Think；在ProofBench-Advanced上直追谷歌。

论文中，团队训练了一个基于LLM验证器（Verifier）作为奖励函数，并以此训练模型以自主解决问题。
而且，他们还Scaling了验证器算力，来标注更复杂的证明，进一步优化了验证器本身。
这种方法非常巧妙，能有效弥合生成与验证之间的差距。

结果实证「可验证的数学推理」，是未来一条可行的研究方向。

DeepSeekMath-V2
让「自验证」成最强武器
DeepSeekMath-V2的论文也于GitHub同步放出了。

DeepSeek最新发布的DeepSeekMath-V2带来的核心突破就是：自验证（Self-Verification）。
这不仅让它在最难的数学竞赛中横扫人类顶尖选手，更重要的是，它揭示了通往更高级AI的一条必经之路——学会自我反思。
为什么只看结果是不够的
在过去，训练AI做数学题的方法很简单：给它一道题，如果它算出的答案和标准答案一致，就给它奖励。
这在简单的计算题（如AIME竞赛）中很有效。
但到了数学皇冠上的明珠——国际数学奥林匹克（IMO）这个级别，这种方法就彻底失效了。
因为IMO的题目往往没有简单的数值答案，而是要求你写出一段逻辑无懈可击的证明过程。
以前的AI在这里经常是个「大忽悠」，它能胡编乱造一通看起来很专业的数学黑话，最后强行得出一个结论。虽然它可能蒙对了结果，但过程全是漏洞。
DeepSeekMath-V2决定从根本上改变规则，不仅要奖励正确的答案，更要奖励严谨的「自我找茬」过程。
秘密武器：左右互搏的三位一体
为了实现这种「自我反思」，DeepSeek设计了一套精妙的「左右互搏」系统，就像在AI的大脑里住了三个人：
1.「做题家」（Generator，证明生成器）：
负责解题和写证明。
但与以往不同，它被训练成不仅要写答案，还要写一段「自我评价」。它必须诚实地说：「这步我有点不确定，可能是错的。」
研究团队巧妙设计了奖励，带来了下列激励效果：
诚实面对错误，比「硬说自己是对的」更有利。
写出真正正确的证明，并准确识别其严谨程度，可以获得最高奖励。
对生成器来说，最优策略是：在最终回答前，发现并修正尽可能多的问题。
2.「铁面判官」（Verifier，证明验证器）：
这是DeepSeek专门训练的一个评分模型。它不看答案对不对，而是专门盯着证明过程挑刺。它会像阅卷老师一样，给证明打分（0分、0.5分、1分），并指出具体的逻辑漏洞。
1分：证明完整且严谨，所有关键推理步骤都有清晰、充分的论证；
0.5分：整体思路正确，但在细节上存在轻微错误或略去部分论证；
0分：存在致命逻辑错误或关键缺口，导致证明在本质上不成立。
3.「判官的审计员」（Meta-Verifier，元验证器）：
这是最绝的一步。因为「判官」也可能犯错，或者为了省事偷懒瞎判。
于是DeepSeek又引入了一个「元验证」机制，专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误，它会被「审计员」打手板。
「元验证器」来检查验证器给出的分析，包括：
1. 验证器指出的问题是否真实存在于原证明中；
2. 这些问题是否足以合理支撑它给出的得分，且符合原有的评分细则。
用元验证器来评估验证器输出分析的平均质量分数，从0.85提升到了0.96，同时保持了原有的打分准确率。
在这三者的配合下，DeepSeekMath-V2甚至能做到在没有标准答案的情况下，自己给自己出题、自己做、自己批改、自己重做。
首先，证明验证器与证明生成器之间形成了良性的「闭环」：
验证器为生成器提供奖励信号，从而不断提高生成器的证明能力；
随着生成器水平提升，它会产生越来越「刁钻」的新证明，这些证明反过来又会暴露出验证器尚未覆盖的薄弱点。
尤其是那些「验证器第一次尝试没能抓出问题」的证明样本，对进一步训练验证器来说价值极高。
为了高效获取新证明的正确性标签，研究团队设计了自动化标签生成流程：

在最后两轮训练迭代中，这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明，自动生成的标签与人类专家的判断高度一致。
巅峰对决：DeepSeek vs Gemini
在这个领域，DeepSeek并不孤单。
谷歌DeepMind的Gemini Deep Think也是刚达到IMO金牌水平的顶尖选手。
两者的对比非常有意思：
DeepMind像是拥有无尽资源的贵族，其实力毋庸置疑，在某些高级基准测试（如IMO-ProofBench Advanced）上依然保持领先。
DeepSeek则像是半路杀出的天才少年。根据DeepSeek的论文，他们的V2模型在基础测试集（ProofBench Basic）上已经反超了Gemini Deep Think，并且在公开的竞赛题目上展现出了惊人的统治力。

更重要的是，DeepSeek将这一技术路径开源并详细披露了训练方法。
这为全世界的AI研究者提了个醒：通往AGI的路上，自验证可能比单纯堆算力更重要。
直追谷歌OpenAI，开源IMO模型赢了
这一令人惊叹的成绩背后，是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。
「一次做对」的能力：全方位碾压GPT-5和Gemini
如果剥离掉所有复杂的反复思考和验证过程，只看模型的「第一直觉」——也就是所谓的One-Shot能力，DeepSeekMath-V2依然表现出了统治级的实力。
研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML（难度对标中国高中数学联赛）。
在这个竞技场上，DeepSeekMath-V2与目前市面上最强的两大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro进行了正面硬刚。
结果如图所示：

DeepSeekMath-V2并不是险胜，而是完全胜利：
代数：远超GPT-5和Gemini；
几何：得分几乎是Gemini 2.5-Pro的三倍；
数论与组合：同样稳稳占据第一梯队。
这说明，即使不给模型「多想一会儿」的机会，它的底座能力已经极其强悍。
进化的关键：让模型「多想几次」
真正让DeepSeekMath-V2与众不同的，是它在连续修正实验中的表现。
在面对IMO候选题（Shortlist）这种级别的难题时，模型往往无法一次性写出完美的证明。
实验显示，如果允许模型进行「自我验证」——即生成答案后，自己挑毛病，然后带着问题重新生成，奇迹就发生了：
初始状态（迭代1次）：模型的平均得分为0.15。
反复思考（迭代8次）：当允许模型最多进行8次「自我修正」后，证明的质量分数飙升到了0.27。

更有趣的是，如果让模型从自己生成的32个解法中挑一个最好的（Best@32），它的评分准确度极高，得分直接跃升至0.42。
这证实了一个关键点：模型不仅能改错，而且非常有自知之明，它清楚地知道自己哪个答案是最好的。
暴力美学与智慧的结晶：高算力搜索
前文提到的普特南数学竞赛118分（接近满分）的「神迹」，并非仅靠运气，而是得益于一种「高算力搜索」（High-Compute Search）策略。
DeepSeek团队在实验中采用了一种极端严苛的测试方式：
1.海量候选：对每道题初始生成64个候选证明。
2.地狱级验证：为每一个证明生成64个独立的验证分析。
3.优胜劣汰：只有那些能通过所有64次验证的证明，才会被认为是「完全可信」的。
正是这种「千锤百炼」的策略，让模型解决了IMO 2025中6道题里的5道，以及在CMO 2024中拿下金牌水平。
实验数据还揭示了一个有趣的现象：对于那些它没做出来的题，模型通常能准确地找出自己证明中的漏洞；而对于做出来的题，则是真真切切地通过了所有考验。
这是「LLM可以被训练成可靠的数学验证者」这一假设的有力实证。
DeepSeekMath-V2意味着什么
DeepSeekMath-V2的成功告诉我们，AI正在从「模仿人类说话」进化到「模仿人类思考」。
真正的思考，往往伴随着自我怀疑。
当我们看到AI开始在输出最终结果前，懂得停下来，对自己说一句「这看起来不太对，我再算一遍」时，那才是它真正超越工具属性的时刻。
真正的智慧，不仅在于瞬间给出答案，更在于拥有推翻自己的勇气与能力。
参考资料：
https://github.com/deepseek-ai/DeepSeek-Math-V2
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标，锁定新智元极速推送！

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

无人驾驶航空器飞行均需提前审批！横琴迎来最严无人机管理

从4年到4周：罕见病诊疗提速背后的AI与政策双轮驱动

海外市场首个规模化应用“中国方案”，吉利辅助驾驶今年将出海

国家发改委价格监测中心：存储芯片价格持续上涨并向下游传导

北京人形机器人创新中心发布的RoboMIND数据集下载量已超过200万次

爱奇艺步子迈大了

全站最新

无人驾驶航空器飞行均需提前审批！横琴迎来最严无人机管理

从4年到4周：罕见病诊疗提速背后的AI与政策双轮驱动

海外市场首个规模化应用“中国方案”，吉利辅助驾驶今年将出海

国家发改委价格监测中心：存储芯片价格持续上涨并向下游传导

热门推荐

无人驾驶航空器飞行均需提前审批！横琴迎来最严无人机管理

从4年到4周：罕见病诊疗提速背后的AI与政策双轮驱动

海外市场首个规模化应用“中国方案”，吉利辅助驾驶今年将出海

国家发改委价格监测中心：存储芯片价格持续上涨并向下游传导

北京人形机器人创新中心发布的RoboMIND数据集下载量已超过200万次

爱奇艺步子迈大了

神州鲲泰发布KunTai A989 I3超节点服务器与KunTai W916 AI推理工作站

解锁“点石成丝”的科技密码

三星宣布与欧美日运营商深化合作，Galaxy S26等将用上卫星通信

阿里开源桌面智能体工具CoPaw

快手春节报告：红包“换一换”人均超10次，“摇红包”用户增长超60%

京东外卖披露多项数据称外卖市场份额超过15%

京东外卖披露多项数据称外卖市场份额超过15%

人形机器人开始在餐饮店“打工”，跨维智能机器人落地“鸿小饭堂”

华为、微软、亚马逊等八家公司为创始成员，React进入基金会时代