谷歌Gemini 3把GPT-5.1打成计量单位！马斯克奥特曼都服了

IP属地中国·北京 量子位 时间：2025-11-19 10:12:44

梦晨闻乐发自凹非寺
量子位 | 公众号 QbitAI
不得了。
谷歌Gemini 3 Pro进步太大了，与上一代2.5 Pro之间差出一个GPT-5.1（狗头）。
新模型在几乎所有基准测试中超过GPT-5.1和Claude4.5，包括人类最后的考试、ARC-AGI-2这些专为AGI准备的测试，数学的AIME 2025带工具拿满分，还刷新了之前让大模型全员得0分的LiveCodeBench Pro纪录。

用户投票的大模型竞技场也是一样，马斯克的Grok4.1昨天才刷完榜，今天就被反超了。

这下奥特曼和马斯克也不得不佩服了，前后脚出来点赞祝贺。

测试期间看Gemini 3模拟Windows、Mac、Linux三大操作系统界面，还以为它只擅长设计前端呢，原来设计出的程序他真能用啊。
设计一个乐高编辑器，一次尝试就完成了界面+负责空间逻辑和所有编辑器功能。

谷歌官方用Gemini 3 Pro设计的游戏更是发布在了油管上可以直接玩，纯靠AI都能搭起一个4399小游戏网了你敢信？
在智能体任务上，Gemini 3 Pro不光擅长编程，还强化了现实生活任务的长期规划能力，模拟管理自动售货机一年赚了5000美元，取得所有模型中最高的收入。

从今天起，谷歌宣布“以整个公司的体量”发布Gemini 3系列模型，包括首次在发布当天就将Gemini整合进搜索，上线独立APP，还推出全新的智能体开发平台。
还有一个更强Gemini 3 Deep Think深度思考模式，正在路上。
至于这么大的能力飞跃如何实现的，只有研究VP Oriol Vinyals透露了一点：预训练还没结束，后训练也还有很大改进空间。

Gemini系列的集大成者
回看Gemini系列这几年的演进，有点像打怪升级了，每一代都在补上一代的短板，然后在下一代里又把所有能力都打磨一遍。
1代奠定根基，把多模态能力和超长上下文打通，Gemini成为第一个能够处理百万级tokens上下文的大模型。
2代就开始变得有行动力，在1代的基础上记住大量信息后，它就整合海量信息进行决策和规划，这也为智能体能力铺了路。
到了Gemini 2.5，谷歌则开始认真搞思考和推理，给它加了思考引擎，让它能做更深入的推理、链式思考，甚至模仿人类分步解决问题。
现在的3代更是能力的集大成者，不是简单堆料，而是深度融合，多模态、推理、Agent能力这些特性一起进化，主打“你敢想，我实现”。
而且，Gemini 3更明显的变化是更懂人话了。

不用纠结提示词是否写得“有水平”，只要把需求一丢，再长的提示词它也能抓住语境、明白意图，然后回你一句更简洁又直接的答案，没有彩虹屁的那种（doge）。

多模态方面更是开挂，文本、图像、视频、音频和代码一股脑地无缝理解。
比如说，给它看一段球赛的长视频，它就能总结打法，把球员技巧整理出来，然后顺便教你复现动作。
怎么感觉，上传自己的训练视频，就可以直接让Gemini 3当教练了……

在搜索场景里，Gemini 3也不是直接扔给你一堆链接，而是把即时查询的信息组织成你真正能用的东西，生成可交互式的内容。

反重力开发平台，杀入AI编程战场
这次与旗舰模型Gemini 3 Pro同步推出的，还有Google Antigravity（反重力）实验性智能体开发平台。
其核心理念是构建一个“智能体优先”（agent-first）的开发环境，将开发者从繁琐的编码工作中解放出来，转向更高层次、面向任务的架构师角色。
官方展示了如何用1分钟开发一个航班追踪程序。

与Cursor为代表的AI IDE相比，Google Antigravity的智能体已被提升到一个独立的界面，并可直接访问编辑器、终端和浏览器。智能体可以代表用户自主规划和执行复杂的端到端软件任务，同时验证自身的代码。
全新的管理器视图旨在同时控制多个智能体，使每个智能体都能更加自主地工作。

谷歌对这款开发工具的野心很大，他不仅支持Gemini系列模型，也允许使用GPT-OSS、Claude第三方模型。
Antigravity目前以公共预览版的形式免费提供，并承诺为Gemini 3 Pro的使用提供“慷慨的速率限制”，一发布就吸引了大量开发者来“薅羊毛”。
目前Claude Code收入占Anthropic总营收约21%，OpenAI也在不断围绕Codex做文章。
AI编程工具，看来是下一个必争之地了。

[1]https://blog.google/products/gemini/gemini-3/#learn-anything
— 完 —

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

66款AI硬件通过L3认证：华米OV耀全员入围，但没人突破L4天花板

AI产业链的卡位战，海信为何成了重要玩家？

全站最新

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

热门推荐

马斯克放言将超越Kimi，月之暗面回应：欢迎较量且信心更足

阿里云函数计算云沙箱7月31日起启用新计费模式降本增效满足多元需求

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

口子窖陷渠道重构阵痛，徽酒老三腹背受敌

起底酒店低价早餐券灰产：用差评换“霸王餐”，有商家卖出3万张获利数十万\n

66款AI硬件通过L3认证：华米OV耀全员入围，但没人突破L4天花板

AI产业链的卡位战，海信为何成了重要玩家？

长鑫科技IPO网上投资者放弃认购658.62万股，弃购率0.17%

满仓AI的投资者，几天回撤50%，重新理解长期主义

荣耀官宣：与阿莱ARRI达成全球影像战略合作

美国FAA推进监管改革，推动电动空中出租车与超音速飞机商业化落地

iPhone 18 Pro系列9月见：10项升级全面解析