谷歌模型重大升级！清华系姚顺宇参与，从业者称是“外星智能”

IP属地中国·北京 第一财经资讯 时间：2026-02-13 18:12:18

北京时间2月13日，谷歌发布了Gemini3DeepThink的重大升级，作为专门用于复杂任务的推理模式，DeepThink旨在解决科学、工程领域的诸多挑战。
值得一提的是，去年9月加入谷歌DeepMind的清华物理系知名研究者姚顺宇（ShunyuYao）也是这次DeepThink新模型的核心参与者，他在今天发帖号召大家体验新模型。

谷歌CEO桑达尔·皮查伊（SundarPichai）发帖表示，“我们与科学家和研究人员紧密合作，对DeepThink进行了改进，以应对棘手的现实挑战。”这些挑战往往缺乏明确的指导原则或唯一的正确答案，数据也常常杂乱无章或不完整。DeepThink将科学知识与日常工程实践相结合，推动实际应用。
从数据来看，这一模型在多项基准测试中创下新纪录，超越了头部独角兽旗下的ClaudeOpus4.6和GPT-5.2，也超越了自家的Gemini3ProPreview。
具体来说，在“人类最后的考试”测试中DeepThink取得了48.4%的成绩（不使用工具的情况下），刷新该测试的最佳纪录。而ClaudeOpus4.6的成绩为40%，OpenAI的GPT-5.2成绩为34.5%。
在ARC-AGI-2测试中，DeepThink取得了前所未有的84.6%的成绩，之前最强模型的得分在60%-70%之间，ClaudeOpus4.6的成绩是68.8%。在竞技编程基准测试平台Codeforces中，DeepThink的Elo评分3455分，这一分数相当于在全球编程能力上能排进前8。
此外，Gemini3DeepThink在化学和物理等科学领域表现出色。谷歌提到，在2025年国际物理和化学奥林匹克竞赛的笔试部分这一模型取得了金牌级别的成绩。
去年，谷歌已证实DeepThink模式的定制版本能攻克诸多高难度推理难题，在国际数学和编程锦标赛中达到金牌水准。而这次升级则让DeepThink模式更进一步支持研发人员开展研究级（research-level）的数学探索工作。
在博客中，谷歌展示了一些早期测试用户使用最新版DeepThink的成果。
罗格斯大学的数学家LisaCarbone致力于研究高能物理学界所需的数学结构，以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据，她利用DeepThink技术审阅了一篇高度专业的数学论文。DeepThink成功地识别出了一个细微的逻辑缺陷，而这个缺陷此前在人工同行评审中均未被发现。
DeepThink还可以用来优化复杂晶体生长的制备方法，用来探索新的半导体材料，在杜克大学的案例中，其设计的方案培育出了尺寸超过100微米的薄膜，技术指标超过此前所有方法。
除了其最先进的性能外，DeepThink还旨在推动实际应用，使研究人员能够解释复杂的数据，使工程师能够通过代码对物理系统进行建模。例如，DeepThink对图纸进行分析，对复杂的形状进行建模，并生成文件，通过3D打印创建物理对象。
在谷歌官宣评论区中，不少从业者震惊于ARC-AGI-2测试得分能达到84.6%。作为参考，大多数人在这类抽象推理题上都很难达到80%的正确率。
“如果这个模型在识别新模式（而不仅仅是记忆）方面真的达到了这样超人的水平，我们就应该停止称它为聊天机器人，而应该称它为外星智能。”一位AI从业者感慨，Codeforces上的Elo等级是3455也简直就是“传奇大师”级别了。
“真正让人惊讶的是，DeepThink竟然发现了一篇经过同行评审的数学论文中，人类审稿人都忽略的逻辑缺陷。那不是工具，那是合作者。我们已经跨越了人工智能辅助研究人员和人工智能验证研究人员工作的界限。”一位谷歌前工程师评论道。
谷歌表示，DeepThink现已在Gemini应用中上线，目前GoogleAIUltra订阅用户可以使用。此外，谷歌首次通过GeminiAPI向部分研究人员、工程师和企业开放DeepThink的使用权限。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”

全站最新

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

奥迪Q9霍希版路试谍照流出，2026年首发欲与迈巴赫GLS一较高下

热门推荐

一加16参数提前揭晓：骁龙8E6 Pro+2亿主摄一加最强旗舰

华为与西部机场集团共创民航“数智解”

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

虐待学员戒网瘾机构成立仅1年

长城汽车代理要返点90%？博主和品牌被同一个中间商耍了？

《燕云十六声》与《逃离塔科夫》跨界联动，7月10日“渡尘墟”玩法全新上线

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”

VS Code 的冷面孔与微软的暖钱包：别被硅谷的噪音骗了

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

韩国存储扩产、Meta出租算力--野村谈“存储两大利空”

都美竹品牌因发布虚假广告被罚

2026京东方投资者日：三大创新业务亮相开启产业与资本价值双升新篇

传统豪车“内涵”营销引热议，国产新能源崛起下豪车何去何从？