谷歌杀疯了！Gemini 3 Flash 突袭：这个跑腿小弟差点打败了GPT-5.2

IP属地中国·北京 编辑：吴婷爱范儿 时间：2025-12-18 08:09:54

一个月前，谷歌发布了最新的 Gemini，从此我们进入了 Gemini 3 的时代。
那以后， Gemini 3 Pro 就成了我干活的主力。
但说实话，它反应是真慢，而且很多时候我只是问些简单问题，完全没必要深度思考。
所以，一直期待速度飞快的 Flash 系列重新回来。
终于，在今天，Gemini 3 Flash 来了！
图：谷歌 CEO 宣布 Gemini 3 Flash 发布
谷歌这一波操作属实把我惊到了。
官方号称它“比快更快”，而且智商不减反增。
本来是一个“小弟”人设，但你看看它排名，居然仅次于OpenAI 最新的模型 GPT 5.2了。（就差 2 分
）
真让人情何以堪呐？
图：第三方机构评测 Gemini 3 Flash 的综合指标
废话不多说，咱们赶紧来扒一扒，这个新出的 Flash 到底香不香。
01 到底是个啥？
简单来说：把 Pro 的脑子，装进了 Flash 的身体里。
以前我们对“Flash（轻量级）”模型的印象是什么？
跑得快，便宜，但是……有点“笨”。处理复杂任务时经常翻车。
但这次 Gemini 3 Flash 彻底打破了这个刻板印象。
遇到闲聊、简单查询：它就轻装上阵，秒回，省流又省钱；
遇到烧脑难题：它能立马调动深层算力，像老教授一样深思熟虑。
它大脑似乎有个变速箱。
它甚至在性能、成本和速度方面突破了帕累托极限。（AI 界的性价比极限）
图：Gemini 3 Flash 在性能、成本和速度方面突破了帕累托极限
官方数据显示，它的 Token 消耗比 Gemini 2.5 Pro 少了 30%，但智商却在线。
说人话就是：多快好省！
图：Token 消耗率对比
这种“该省省，该花花”的 AI，谁不爱？
02 凭数据说话：这波“以下犯上”有点狠
咱们不整那些虚头巴脑的形容词，直接看跑分数据，谷歌这次是真的下了血本。
我看了一眼实测数据，甚至有点不敢相信：它在很多任务上接近自家最强的模型 3 Pro，甚至有些指标还干掉了Pro 版。（这样礼貌吗？
）
特别是那个让无数 AI 汗流浃背的 ARC-AGI-2 测试……
还让人意想不到的是：Gemini 3 Flash 全面碾压了上一代的旗舰版本 2.5 Pro。（前浪死在沙滩上
）
图： Gemini 3 Flash 的各项指标
先说说这个 ARC-AGI-2。
之前 GPT 5.2 发布让大家印象深刻，其中有一个原因就是这个指标碾压所有模型。
老粉都知道，ARC 评测集是 AI 圈最难啃的骨头，甚至没有之一，主要测试模型到底有没有脑子。
它是由 Keras 之父 François Chollet 搞出来的，专门用来反死记硬背的。
比如这种题目：
图：ARC-AGI 2 题目
以前的模型，MMLU 这种考试能拿 90 分，一碰到 ARC 这种需要“举一反三”的智力题，立马现原形，得分低得可怜。
这项指标 Flash 竟然超过了自己的 Pro 大哥，仅次于 GPT-5.2！
这个小弟，要造反了有点脑子！
在另一项指标： GPQA Diamond（研究生级别的专家推理测试）里，它拿了 90.4 分。
意思就是智商堪比博士。
看这个数字，它的推理能力已经和那些大块头的前沿模型（Pro 版）平起平坐了。
在著名的“Humanity's Last Exam（人类最后一场考试）”这种地狱级难度的测试里，Gemini 3 Flash 居然考出了 43.5% 的高分（Tools on 模式）。
图：HLE 分数对比
它跟 GPT-5.2（45.5%）这种超级旗舰模型，只差了不到 2 分！
朋友们，别忘了，这可是一个 Flash 模型啊！
它的定位本来是“跑腿小弟”，结果一不小心把“业界大佬”们的饭碗给砸了。（面子？不存在的。
）
这哪里是“轻量版”，这分明是“披着闪电侠外衣的超人”。
在多模态测试（MMMU Pro）中得分 81.2%，看图、看视频的能力基本和 Gemini 3 Pro 五五开。
也就是，眼神儿更好使。
图：MMMU-Pro 指标对比
最让我意外的是这个——在 SWE-bench Verified（代码智能体测试）中，它得分 78%。
直接超越了 Gemini 2.5 全系，甚至在某些这就需要改代码的任务上，比 Gemini 3 Pro 还要好用！
本来以为它动动嘴还行，没想到写代码更溜！
一句话总结：它不是“丐版”，它是“精简版战神”。
03 为什么我建议你立马换用 Flash？
作为这一年多几乎天天都在用 AI 的人，我觉得 Gemini 3 Flash 带来的改变是肉眼可见的：
1. 真的太快了！⚡️
根据第三方测评（Artificial Analysis），它的速度是 2.5 Pro 的 3 倍。
自动播放
以前问 AI 一个问题，你可能还得切出去回个消息等它写完。
现在？你字刚打完，它答案就怼到你脸上了。
这种“跟手”的感觉，对于我们需要快速写文案、改代码的人来说，简直是救命。
2. 价格那是相当感人

标签：模型碾压视频立马代码跑腿小弟成本 深思熟虑 数据速度指标省钱 好消息 印象 开发者 智力题 智商算力博士旗舰有点大佬大脑助手性能差点基本级别 闪电侠 战士真

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

iQOO 15/15 Ultra手机新一轮涨价，最高涨700元

马云名下云锋基金入股峥研软件

Omdia：2026年智能手机平均售价将涨21%至565美元

软银CEO孙正义回应AI泡沫论：这是对AI的侮辱

微信鸿蒙版App获8.0.19.16版本邀测升级，新增朋友圈好友状态显示等功能

即梦AI上线Seedance 2.0 VIP原生4K版本

全站最新

iQOO 15/15 Ultra手机新一轮涨价，最高涨700元

马云名下云锋基金入股峥研软件

Omdia：2026年智能手机平均售价将涨21%至565美元

软银CEO孙正义回应AI泡沫论：这是对AI的侮辱

热门推荐

英伟达突然不香了？GPU租赁价格持续回落……

胖东来转线上VS鲜啤店猛扩张，精酿步入岔路口

万亿智谱阴影下，中国互联网巨头们的“身份危机”

补税14亿，北大荒一年白干

美国AI狂飙，亚洲抢先吃饱

7亿收入、万亿市值，智谱值吗？

香水柠檬的“半生”：红了几年，还没真正长大

谁把智谱推上了万亿神坛？

单票价连涨3个月，顺丰不想送难挣钱的快递了

大疆影石打了一年，谁更焦虑？

2026年最大Biotech神话：一款II期药，261名员工，卖了109亿美元

从“工具人”到“悦己者”，中男消费的转折时刻

艺人独立风潮下，太合音乐赴港募资押宝AI：版权摊销侵蚀利润，16亿优先股悬顶

iQOO 15/15 Ultra手机新一轮涨价，最高涨700元

马云名下云锋基金入股峥研软件