谷歌的深度思考模型Gemini 3 Deep Think迎来重大升级,将其专业推理能力从抽象理论推进至实际应用场景。这一升级聚焦于解决现代科学研究与工程领域的复杂挑战,标志着谷歌在企业级AI市场的战略性押注。
美东时间12日周四,谷歌官宣Gemini 3 Deep Think升级,称升级后的模型在多项行业基准测试中取得突破性成绩,包括在“人类的最后考试”Humanity's Last Exam(HLE)基准测试、ARC-AGI-2测试中获得84.6%的成绩,经ARC Prize基金会验证;在竞技编程平台Codeforces上,Gemini 3 Deep Think获得3455的Elo评分。
![]()
升级后的深度思考模式即日起面向Google AI Ultra订阅用户开放,同时通过Gemini API向部分研究人员、工程师及企业用户提供早期访问权限。谷歌表示,该模型已在实际研究中展现应用价值,从发现研究论文中的逻辑漏洞到优化半导体材料生长工艺。
这一发布使谷歌在AI推理模型竞争中与OpenAI的o1系列和Anthropic的Claude正面交锋。随着通用AI能力日趋商品化,专业推理能力成为企业级市场的新战场,而深度思考模式的推出显示谷歌不愿在这一高价值领域让步。
从基准测试到金牌表现
谷歌在其官方博客中强调了深度思考模式在严格学术基准测试中的表现。除前述成绩外,Gemini 3深度思考模型在2025年国际物理奥林匹克和化学奥林匹克的笔试部分均达到金牌水平,并在CMT-Benchmark高级理论物理测试中取得50.5%的分数。
谷歌提供的成绩对比可见,本月Gemini 3深度思考模型的多种测试结果均超过Anthropic和OpenAI各自的最强模型思维模式,也强于Gemini 3 Pro预览版的思考模式。
例如,在ARC-AGI-2测试中,Gemini 3深度思考的准确率为84.6%,Anthropic的Claude Opus 4.6 Thinking Max测试成绩为68.8%,OpenAI的GPT-5.2 Thinking xhigh为52.9%。
![]()
谷歌团队称,这次升级是与科学家和研究人员密切合作完成的,目标是应对“缺乏明确边界或单一正确答案,且数据往往杂乱或不完整”的研究挑战。该模型通过将深厚的科学知识与实用工程能力结合,实现了从抽象理论到实际应用的跨越。
在数学和编程能力的突破之外,深度思考模式的表现范围已扩展至化学、物理(包括理论物理)等多个科学领域。这种广度意味着该模型不再局限于特定学科,而是成为跨领域研究工具。
实际应用案例验证价值
早期测试用户的使用场景展示了该模型的实际应用潜力。罗格斯大学数学家Lisa Carbone在研究高能物理所需数学结构时,利用深度思考模式审阅一篇高度专业的数学论文。该模型成功识别出一处此前通过人类同行评审但未被发现的细微逻辑缺陷。
在杜克大学,Wang实验室利用深度思考模式优化复杂晶体生长的制造方法,用于潜在半导体材料的发现。该模型成功设计出一套配方,生长出超过100微米的薄膜,达到了先前方法难以实现的精确目标。
谷歌平台与设备部门的研发负责人、Liftware前CEOAnupam Pathak测试了新版深度思考模式,以加速物理组件的设计。
谷歌展示的另一应用场景显示,借助升级后的Gemini 3 Deep Think,用户可以将草图转化为可3D打印的实体模型。该模型能分析图纸,对复杂形状进行建模,并生成用于3D打印的实体模型文件。
![]()
企业级市场的战略布局
这次升级体现了AI行业的转向趋势——从通用聊天机器人转向能够处理专业级问题的专业推理引擎。对于企业客户而言,评估标准正在改变,不再仅关注哪个AI能最快编写代码或总结文档,而是聚焦推理能力——模型能否处理复杂财务模型、分析实验数据并识别方法论缺陷、协助专利研究或药物发现。
谷歌的优势在于整合能力。深度思考模式不是孤立存在,而是更广泛的Gemini生态系统的一部分,这意味着它可能利用谷歌庞大的知识图谱、科学数据集和研究合作伙伴关系。通过Google Cloud使用深度思考模式的研究人员,理论上可以访问独立AI服务无法匹敌的计算能力和数据源。
该公司周四在X平台发文称:“升级后的深度思考模式已经在推动发现并帮助研究人员解决'不可解'的问题——从发现研究论文中的缺陷到优化半导体(晶体)生长。” 这一表述强调了模型从测试基准到实际应用的转化能力。
从产品策略看,谷歌同时面向消费者和企业用户开放访问权限。Google AI Ultra订阅用户可通过Gemini应用程序立即使用,而科学家、工程师和企业用户则可通过早期访问计划申请使用Gemini API。这种分层策略反映出谷歌既要保持消费市场存在感,又要争夺高价值企业客户的双重目标。
推理模型竞赛升温
深度思考模式的推出使谷歌在AI推理竞赛中正面对抗OpenAI和Anthropic。OpenAI的o1模型据报道在生成响应前花费更多时间“思考”,使用强化学习改进推理链。Anthropic的Claude 3则在研究和分析任务中占据了一席之地。现在谷歌在同一领域插旗,背后是集成到Workspace和Cloud Platform带来的基础设施和分销优势。
对于专业用户而言,这意味着在快速通用响应与较慢的深度推理之间做出选择,成为新的架构决策。应用程序可能将简单查询路由到标准模型,同时将复杂问题上报到推理模式,创建分层AI推理方法。
谷歌周四在X平台发文称:"Gemini 3深度思考模式在推动智能前沿的基准测试中表现突出。具体数据:在'人类最后的考试'中达到48.4%(无工具),在ARC-AGI-2中达到84.6%(经ARC Prize基金会验证),在Codeforces竞技编程中获得3455 Elo评分。"
谷歌同时指出,模型现在在化学和物理等科学领域表现出色。
这场竞争的真正考验不在于发布声明,而在于实际采用率。如果研究机构和工程公司开始通过深度思考模式处理复杂工作,将验证谷歌的判断——企业AI的未来在于深度而非速度。目前,该公司已明确表态:它正在争夺AI市场的高端领域,在那里思考比对话更重要。





京公网安备 11011402013531号