Gemini 3 Flash 倒反天罡了：关键性能居然超过了 Pro!

IP属地中国·北京 硅星人 时间：2025-12-18 00:11:40

作者｜周一笑
邮箱｜ zhouyixiao@pingwest.com
12 月 17 日，Google 正式发布 Gemini 3 Flash。一个定价只有 Claude 1/5、GPT 1/4 的“轻量模型”，在编码上超过 Claude Sonnet 4.5，在推理和多模态上全面碾压，和 GPT-5.2 也互有胜负。

MMMU-Pro，多模态的评估效果：

更夸张的是，它甚至超过了自家旗舰：在 SWE-bench 上，Gemini 3 Flash 78%，Gemini 3 Pro 76.2%，这也是 Flash 系列诞生以来超过同代 Pro 模型的第一次。

数据可能还是有点抽象，直接看它能干什么：
Gemini 3 Flash 单次生成完整动画 3D 程序化房间

用Gemini 3 Flash 一句话生成可玩游戏

Resemble AI 用Gemini 3 Flash 实时分析 deepfake 视频：他们的产品需要把复杂的音视频取证数据即时转化为普通人能理解的分析结果。在测试中，他们发现 3 Flash 的多模态分析速度比 2.5 Pro 快了 4 倍，能够在不拖慢关键工作流的情况下处理原始的技术输出数据
一个月前，Gemini 3 Pro 和 Deep Think 的发布让 Google 重新站回 AI 第一梯队，Gemini 3 Pro 登顶 LMArena，Deep Think 在 ARC-AGI 上打出其他模型三倍的成绩。发布以来，Gemini API 日均处理量突破 1 万亿 tokens。现在，Flash 的到来补齐了 Gemini 3 家族的最后一块拼图。
但这次的 Gemini 3 Flash 和以往不一样。过去我们对 Flash 的认知很清晰，快、便宜、但能力打折。想要速度，就得接受智能上的妥协。然而Gemini 3 Flash 打破了这个惯例，它用轻量模型的价格，打出了旗舰级的能力。
1
1/5 的价格，凭什么打旗舰？
先说和其他家的对比。
在博士级科学推理基准 GPQA Diamond 上，Gemini 3 Flash 拿到 90.4%，大幅领先 Claude Sonnet 4.5 的 83.4%，接近 GPT-5.2 的 92.4%。在多模态理解基准 MMMU-Pro 上，Flash 81.2%，超过 GPT-5.2 的 79.5%，更是甩开 Claude Sonnet 4.5 十几个百分点。
在人类最后考试 Humanity's Last Exam 上（无工具），Gemini 3 Flash 33.7%，Claude Sonnet 4.5 只有 13.7%——差距接近 20 个百分点。

编码能力同样亮眼。在 SWE-bench Verified 上，Gemini 3 Flash 78%，超过了 Claude Sonnet 4.5 的 77.2%，头一次超过了自家 3 Pro 的 76.2%。
把价格因素放进来看就更夸张了，Flash 的价格大约是 Claude 的 1/5、GPT 的 1/4，但在多项指标上打平甚至领先。如果说以前选 Flash 是快、省钱但有所妥协，现在选 Flash 是省钱还省心。
那么一个问题自然出现，Gemini 3 Pro 还有什么用？
极限推理场景。GPQA Diamond 上 Pro 91.9% vs Flash 90.4%，Humanity's Last Exam 上 Pro 37.5% vs Flash 33.7%，加上只有Gemini 3 Pro才有的 Deep Think 模式。Pro 适合极限推理，Flash 适合高频 agent 任务，这是 Google 给出的新分工。
但对大多数场景来说，Flash 不仅够用，而且性价比炸裂。
效率层面同样显著。根据 Artificial Analysis 测试，Gemini 3 Flash 比 2.5 Pro 快 3 倍，处理日常任务平均节省 30% token 消耗。定价方面，输入 $0.50/百万 tokens，输出 $3/百万 tokens，只有 3 Pro 的四分之一。

Gemini 3 Flash 在性能、成本与速度的权衡关系上推进了最优边界
Google 的官方说法是：“速度和规模，不必以牺牲智能为代价。” 放在以前的 Flash 上可能是句口号，但这次数据确实撑得起来。
1
免费用户，旗舰体验
Gemini 3 Flash 的发布不只是 API 层面的事，它会直接改变普通用户的日常体验。
在 Gemini App 里，Gemini 3 Flash 会替代原来的 2.5 Flash，成为新的默认模型。这意味全球所有的 Gemini 用户，包括免费用户，都将自动升级到 Gemini 3 级别的体验，不需要付费，不需要做任何设置。
升级后的 App 会提供三种模式供用户选择：
Fast（极速）：默认由Gemini 3 Flash 驱动，秒回日常问题。
Thinking（思考）：同样由 Flash 3 驱动，但激活了它的“深度思考”能力，专门处理复杂逻辑。
Pro（专业）：继续保留 Gemini 3 Pro，作为处理高难度数学和代码问题的首选。
在 Google Search 里，AI Mode 的默认模型也会在全球范围内升级到 3 Flash。Google 表示，得益于 3 Flash 强大的推理和多模态能力，AI Mode 现在能更精准地理解用户意图，处理更复杂、更有多重约束条件的问题，同时生成结构清晰、易于消化的回答。
对于美国用户，Google 还开放了更多选项，可以在 AI Mode 里选择"Thinking with 3 Pro"来获得更深度的帮助，图像生成模型 Nano Banana Pro 也向更多美国用户开放了。
对于普通用户来说，这可能是感知最明显的一次升级。你打开 Gemini，它已经是前沿级别的模型了；你在 Google 搜索里问复杂问题，背后跑的是一个融入了顶级大模型能力的引擎。换句话说，免费用户现在用的默认模型，能力已经不输其他家的付费旗舰。
1
开发者：省钱还赚到
以前做 agentic 应用，想用旗舰级模型就得付旗舰级价格。Gemini 3 Flash 改变了这个局面。
过去开发者面临一个两难选择，要么用快但笨的小模型，牺牲任务完成质量；要么用聪明但慢且贵的大模型，面对延迟和成本的双重压力。尤其是在需要多轮调用、高频迭代的 agent 场景里，这个取舍几乎是绑死的。Gemini 3 Flash 提供了一个新选项，足够快、足够聪明、成本可控。在 SWE-bench 上 78% 的成绩说明它完全有能力处理复杂的编码任务，同时 3 倍于 2.5 Pro 的速度让它能胜任对延迟敏感的实时场景，而 1/5 于竞品的价格让大规模部署成为可能。
目前，Gemini 3 Flash 已经在以下平台上线（preview）：
Google AI Studio 和 Gemini API
Gemini CLI
Android Studio
Vertex AI（面向企业）
Google Antigravity：这是 Google 新推出的 agentic 开发平台，专门为 AI 主导的软件开发流程设计，让 AI Agent 可以直接操作编辑器、终端和浏览器
在高频调用场景，Google 还提供了配套的成本优化方案。Context Caching 功能可以在重复 token 使用达到一定阈值时降低 90% 的成本；Batch API 支持异步批量处理，成本可以再降 50%，同时提供更高的调用配额。对那些需要在生产环境里大规模跑 agent 任务的团队，这套组合拳相当有吸引力。
1
Flash 的含义变了
Gemini 3 Flash 的发布，某种程度上重新定义了“Flash”这个品类的含义。
Flash，终于不只是快速和效率了。
过去，Flash 或者说轻量级模型的定位非常明确：用能力换取速度和成本优势。你选择 Flash，就意味着接受它在智能上的折扣。但 Gemini 3 Flash 证明了另一种可能，当底层的基础模型足够强大时，轻量版本不一定要做太多能力阉割，它可以只是“更高效的满配版”。
Google 在博客里提到，Gemini 3 Flash 的核心模型能力已经强到一个程度：在很多任务上，关掉思考模式的 3 Flash，比开着思考模式的 2.5 版本表现还好。以前你需要牺牲速度来换准确，现在不用了。
这次发布也让 Gemini 3 家族阵容正式成型：Gemini 3 Pro、Gemini 3 Deep Think、Gemini 3 Flash 三个版本，覆盖了从轻度用户到硬核开发者的完整需求谱系。想要极致推理深度，用 Deep Think；想要最强综合能力，用 Pro；想要又快又好还便宜，用 Flash。各取所需，不再是单选题。
从数据来看，Google 在 AI 产品化这条路上跑得相当稳。Gemini App 的月活已经突破 6.5 亿，开发者数量达到 1300 万，API 调用量同比增长 3 倍。上季度到这季度，用户数从 4.5 亿猛增到 6.5 亿。
目前，普通用户可以直接在 Gemini App 和 Google Search 的 AI Mode 中体验新模型；开发者可以通过 Google AI Studio 和 Gemini API 开始构建应用。
当 Google 用 Flash 模型 1/5 的价格打出旗舰级能力，Flash 这个品类的想象空间被彻底打开了。

点个“爱心”，再走吧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

产教融合创新发展论坛暨华为院校人才培养论坛在吉林建科举办

B站举办17周年庆，5分钟以上视频观看时长占比达65%

全站最新

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

热门推荐

华为首次系统拆解途灵平台：汽车底盘竞争，为何开始拼算力和通信架构？

岚图追光S首秀：四激光雷达+475kW双电机，零百加速进3秒级

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

京东创始人：机器人将取代70万快递员，公司已启动再培训计划

谷歌前CEO感叹中国人聪明：不如美国硬件做出媲美AI模型但不受美国控制我憎恨

OpenAI推出GPT-5.6系列：天体命名新体系，Sol登顶编程测试榜首

中国为何坚定奔月？资源、战略、技术、合作四大驱动力引领未来

小牛自动化拥有超400项专利

阿里推出CosyVoice输入法：支持全场景口述！一键成稿

1999元！vivo Y6a悄悄上市：LCD真护眼屏+7200mAh长寿大电池

2026链博会 | 通用技术健康管理院院长闫焱：数字化技术大幅提升服务效率与管理精度

产教融合创新发展论坛暨华为院校人才培养论坛在吉林建科举办

B站举办17周年庆，5分钟以上视频观看时长占比达65%

超盒算NB加速全国布局：首进华北北京连开6店，自有品牌占比近60%

优派TD2465-CN触控显示器开售，23.8英寸VA屏配10点触控，售价2699元