顶级AI撞上低级乌龙：连写几十页推导，结果发现题干错了？

IP属地中国·北京 新智元 时间：2026-05-07 04:00:34

　　新智元报道
　　编辑：倾倾
　　Google DeepMind再次血洗数学圈！700个地狱级难题被丢进Gemini的熔炉，结果让数学家集体破防：这哪是证明，这分明是「逻辑拆迁」。DeepMind这一波不仅贴脸爆杀了OpenAI，还砸烂了人类所有的优越感。
　　几百美金的悬赏，跨越半个世纪的死局。
　　20世纪最伟大的「题目魔术师」保罗·埃尔德什（PaulErdős）生前留下了几百个悬赏令，金额从50刀涨到5000刀。
　　50年里，无数数学天才熬秃了头，也没能拿走一分钱。
　　结果，Google DeepMind带着名为Aletheia（真理女神）的怪兽进场了。
　　上线仅7天，13道难题应声而碎。
　　
　　论文链接：https://arxiv.org/abs/2601.22401
　　但最扎心的真相是：AI并不是比你更聪明，它只是比你更懂「洗稿」。
　　13/700的真相：AI真的在加速科学吗？
　　「AI攻克百年数学难题」看起来很像爽文标题，听听就行，别被带了节奏。
　　数学这行只看硬指标。DeepMind这次祭出的Aletheia，底色根本不是什么「天才数学家」，而是一个冷酷的「顶级逻辑洗煤厂」
　　这套逻辑极其残酷，带着一股子硅谷大厂KPI导向的血腥味：
　　
　　初始的流量层里，装着700个埃尔德什猜想。
　　随后，Gemini开启Deep Think模式，像不要钱一样大规模灌入算力，得出200个候选方案。
　　然后，这200个候选人经过自然语言验证器，剔除逻辑不通的部分，最后只剩下63个。
　　最后，经过专家级别的数学推演，得到13个真正具有数学原创意义的答案。
　　
　　成功证明问题：Erdős problem#1051
　　700个问题里只解答出13个，转化率还不到2%。
　　其中，最具代表性的是对「Erdős-1051」猜想中关于无理数分布的证明。
　　听着很牛X，但DeepMind自己也承认，剩下的68.5%都是学术垃圾。
　　
　　有些AI给出的证明过程长达几百页，读起来像是东拼西凑的论文。
　　在整个过程中，Aletheia像一个「自动审稿员」。Gemini负责狂暴输出，而验证器负责冷酷拒绝。
　　
　　Gemini DeepThink处理数学猜想具体过程：https://www.youtube.com/watch?v=Nmv4YxpbhU8
　　更讽刺的是，人类数学家复核后发现，这13个所谓的「突破」，很大一部分属于数学界的「低垂果实」——太繁琐所以没人想做。
　　一位参与评审的组合数学专家曾私下感叹：
　　AI目前的强项不是创造，而是清扫。
　　只要算力管够，这种靠暴力逻辑搜集、整理、强行出结果的路径，AI基本无敌。
　　潜意识剽窃：AI数学家的「洗稿」艺术
　　在这次DeepMind的成果展示中，出现了一个让学术界集体炸锅的新名词：潜意识剽窃。
　　简单说，就是AI利用自己几乎无限的硬盘，从某个犄角旮旯翻出一篇冷门论文，然后用现代的逻辑语言把它重新包装了一遍。
　　最典型的翻车现场是关于Erdős-1089猜想的证明。
　　
　　当时Aletheia给出了一个极其精妙的推导，精妙到连几个顶尖数学家都差点想给它颁奖。
　　但随后，有人在数据库的深层挖掘中发现，这个所谓的「原创灵感」，与1981年一篇东欧冷门数学期刊上的论文高度重合。
　　这就是AI作为一个「黑盒」最让人绝望的本能。
　　对AI来说，它并没有原创和抄袭的概念。它只是在概率的指引下，把权重最高的Token组合在一起。
　　AI记住了所有你忘了的东西。当它从千亿级参数中提取出那个冷门关联时，它自己都不知道是在致敬还是在白嫖。
　　
　　GoogleDeepMind-Aletheia项目详情，在此页面可以找到更多具体输出案例：https://github.com/google-deepmind/superhuman
　　只要喂的数据够多，AI就能通过变换符号系统、调整推导步长，把一篇旧论文洗得像刚出炉的SCI。
　　菲尔兹奖得主陶哲轩一语道破：
　　AI并不是在做数学，它是在对人类过往的智慧进行大规模的归纳整合。
　　细思极恐。如果连数学这种硬核真理领域，AI都能靠「洗稿」蒙混过关，那我们写的行业报告、架构方案、市场分析，在它眼里算什么？
　　大师也翻车：被诅咒的Erdős-75号
　　接下来这个「Erdős-75号灵异事件」，暴露出AI的智商硬伤。
　　
　　这道题在数学圈臭名昭著，因为它被「诅咒」了。
　　1995年，埃尔德什在写下这个猜想时，犯了一个低级逻辑错误，这道题题干就是错的，是个伪命题。
　　魔幻的一幕发生了：Aletheia接手后，不仅没发现题目有问题，反而凭借其狂暴的算力和自我博弈机制，硬生生地输出了一份长达几十页、逻辑闭环的「完美证明」。
　　这种「逻辑狂奔」暴露了当前AI的致命缺陷：
　　首先，AI缺乏审美与常识。它只会在符号框架内找最优解，却根本分不清这个框架本身是不是一张废纸。
　　
　　其次，奖励函数具有盲目性。AI的目标是让验证器闭嘴。只要推导过程符合规则，结论哪怕再荒谬，它也敢一路狂飙到底。
　　最后发现Bug的，还得是那帮数学家。他们翻出1995年的手稿，一行行对完后得出结论：「这题出错了，AI证的是个寂寞。」
　　而这一点，恰恰是我们和AI竞争时的最后防线。AI能在几毫秒内跑完几千公里的逻辑马拉松，但它不知道终点线是不是画在悬崖外面。
　　DeepMind贴脸开大：OpenAI的「数学公关战」破产题
　　前阵子，OpenAI靠着o1在数学AIME考试里刷屏，宣称AI已经有了类似人类的「慢思考」能力。
　　但在DeepMind看来，那顶多算是一场极其成功的文献开盒。
　　为了打脸OpenAI，Google专门在Aletheia的输出分类里设立了一个很损的标签：「已知文献关联」。
　　它明摆着在讽刺OpenAI：你以为你解决了问题，其实你只是从训练集里翻出了标准答案。
　　而DeepMind表示，我不仅能证出来，我还能告诉你哪些是人类证过的、哪些是我洗稿洗出来的、哪些才是真正的原创。
　　这场「数学公关战」撕开了大厂竞争的遮羞布。
　　OpenAI的数学能力很大程度上依赖于「题海战术」，一旦遇到训练集之外的真命题就容易抓瞎。
　　而DeepMind走的是「AlphaGo路线」——自我博弈+形式化验证（Lean），宁可转化率只有2%，也要确保这13个成果是硬通货。
　　
　　DeepMind官方技术文档：Aletheia用于数学的自我对弈与形式化证明
　　数学界的「扫地僧」陶哲轩一直关注着这场博弈。
　　他在自己的他在博客里含蓄地表示：相比于追求「看起来正确」的概率模型，他更看好那种能生成「可由计算机验证证明」的系统。
　　这等于是给DeepMind站了台。
　　瓶颈位移：从「解题机器」到「审美法官」
　　折腾了半天，这场13/700的战役到底告诉了我们什么？
　　是——数学发现的瓶颈，正在从「解题能力」位移到「价值判定」。
　　这种范式转移，预示了未来所有硬核从业者的两种求生路径：
　　一种是从「操作员」变成「审美法官」。
　　既然AI能以极低成本生成海量逻辑证明，人类的价值就不再是去复核每一个符号，而是运用直觉和审美，去判断哪个方向才有真正的科学突破。
　　另一种形态是逻辑审计员。
　　面对潜意识剽窃和大师Bug，人类需要利用对历史的精通，去甄别AI到底是真天才，还是个洗稿高手。
　　AI能在几毫秒内重走完人类几千年的逻辑之路，但它依然读不懂人类在深夜推演失败时，那份撕掉草稿纸的无奈。
　　逻辑可以代工，但灵魂和审美，AI暂时还没学会怎么洗。
　　参考资料：
　　https://x.com/quocleix/status/2018402933193539735?s=20
　　https://arxiv.org/abs/2601.22401

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果再失大将！报道：Vision Pro与智能眼镜掌舵人转投OpenAI

B站17周年庆，陈睿：社区是优质内容最好的土壤

大模型要全面进入收费时代了吗？

微软年度AI职场报告：员工已经准备好了，公司还没有

索尼继续押注实时服务游戏，视PS5和PC为主要发行平台

谷歌Gemini助手新功能：直接帮用户安装Play商店内的应用

全站最新

苹果再失大将！报道：Vision Pro与智能眼镜掌舵人转投OpenAI

B站17周年庆，陈睿：社区是优质内容最好的土壤

大模型要全面进入收费时代了吗？

微软年度AI职场报告：员工已经准备好了，公司还没有

热门推荐

苹果再失大将！报道：Vision Pro与智能眼镜掌舵人转投OpenAI

B站17周年庆，陈睿：社区是优质内容最好的土壤

大模型要全面进入收费时代了吗？

京东在欧洲推出机器人维修服务，未来5年培养10万名维修工程师

微软年度AI职场报告：员工已经准备好了，公司还没有

索尼继续押注实时服务游戏，视PS5和PC为主要发行平台

谷歌Gemini助手新功能：直接帮用户安装Play商店内的应用

Anthropic测试手机端Claude Cowork，支持远程管理长任务

马斯克质疑IBM“0.7纳米芯片”命名误导

阿里千问输入法上线macOS版：最快300字/分，AI自动润色

三星10月调整SmartThings智能家居平台：个人API调用收取5美元月费

京东在欧洲推出机器人维修服务，“救护车”上门服务覆盖英国、德国等地

阿维塔07L内饰6月29日亮相：华为鸿蒙座舱，新车7月发布

14亿人的微信，不想让AI变成“好友”

对标30万级开发标准小鹏Mona L03座舱公布：腿部也有按摩了