当前位置: 首页 » 资讯 » 科技头条 » 正文

美国AI内战,谁焦虑了?

IP属地 中国·北京 编辑:胡颖 凤凰网科技 时间:2025-11-19 16:08:22

摘要:

奥特曼罕见发文称“看起来很不错”,马斯克也跟着评论称“做的不错”。

科技 出品

作者|Dale、姜凡

编辑|董雨晴

2025年只剩最后42天,一个被行业统称为物理世界最强的AI发布了。北京时间昨夜凌晨,Gemini 3 Pro 预览版正式发布,API 同步开放。

被称为最强,是因为它不仅在所有主要 Arena 排行榜中几乎全部排名第一,且评分断层,就连最大竞争对手OpenAI CEO 奥特曼也罕见地发文称“看起来很不错”,马斯克跟着评论称“做的不错”。

当天,还是微软的Ignite 2025大会开幕,微软发布了 Edge for Business 浏览器的一系列重大更新,似有隔空对垒之意。

也有人评价称,这是谷歌对OpenAI最猛烈的一场打击,业内声音认为,Gemini3直击了GPT5的性能高地,甚至是实现了GPT5.1没能实现的效果。

业内感叹:跑分“断层领先”?

在 AI 圈子里,大家习惯了模型之间你追我赶的微弱优势,但 Gemini 3 Pro 抛出的这份成绩单,可以说一定程度上拉开了性能差距。

如果只看跑分,Gemini 3 Pro几乎实现了“断层领先”。除了在软件工程能力上略逊于GPT-5.1和Claude Sonnet 4.5,其他指标,尤其是推理、多模态和Agent工具使用等关键基准上,都实现了全方位的霸榜。

在代表人类智力“天花板”的Humanity's Last Exam中,当GPT-5.1还在26.5%徘徊时,Gemini 3 Pro直接跑出了37.5%的高分。更令人震惊的是,其“深度思考模式”(Deep Think)在不使用任何工具的情况下,得分进一步飙升至41.0%。

在数理方面,Gemini 3 Pro更是展现了统治力。AIME 2025(美国数学邀请赛)配合代码执行,准确率达到惊人的100%。而在代表数学极限的 MathArena Apex 测试里,当其他顶尖模型还在个位数或者 10% 左右挣扎时,Gemini 3 Pro 直接跑出了 23.4% 的分数。这意味着在许多AI曾“看不懂题”的领域,它已经开始攻城略地。

但这些数据,并不是这一夜最让科技圈震动的理由。Gemini 3 Pro 展现出了一种前所未有的体验,它不仅仅是在写代码,它是在搞创作。

在此之前,我们评价一个 AI 的编程能力,看的是它逻辑对不对、Bug 多不多。但 Gemini 3 Pro 突破了这个维度。当用户扔给它一个极其抽象的 Prompt,比如“设计一个很温馨的场景,里面要有哆啦A梦,还有大熊,他们在一起憧憬着未来,并且我需要在浏览器里跑出来。”

它不再像以前那样给用户堆砌一堆还需要调试的半成品,短则十几秒后,它可以直接交给用户一个代码 ,并且是一个可以流畅运行的代码。

不仅如此,AI博主数字生命卡兹克还直接让它生成了一个类似window的web os,生造一个系统。结果是,它真的生成出来了,并且还有模有样。

图|来源于AI博主数字生命卡兹克

这一刻,很多前端工程师可能感到了一丝寒意。Gemini 3 Pro 证明了,从今天起,前端开发中“手写”的那部分价值正在极速归零。技术门槛被夷为平地,取而代之的是“想象力门槛”。只要人们的 Prompt 描述得足够有画面感、足够有“人味”,这个模型就能把人们的脑洞像素级地还原出来。

不过,它对于程序员来说,目前也不是万能的。

关于之前网络上传的“彻底颠覆程序员”的说法,实际上,Gemini 3 Pro在AI领域处于顶尖水平,但并未实现“颠覆编程”的目标。在软件工程能力的SWE-Bench Verified测试中,Gemini 3 Pro获得了76.2%的成绩,虽然表现出色,但仍落后于Claude Sonnet 4.5的77.2%(SOTA水平)。这表明,在处理超长、非常复杂的后端逻辑时,它依然存在一定的局限性。

当前,有不少模型都在着重比拼竞争编程能力,从海外的Claude到国内的Kimi都在主打编程。目前,Gemini更偏向于辅助设计,它不能完全实现重构整个后端架构,但如果用户想设计一个符合现代审美的网站、或生成复杂的SVG交互动画,它都可以通过简单提示,提供令人惊艳、可立即运行的成果。

另一个例子也证明了,现在的AI还不足以让我们完全信任。今天中午,据科技博主@纯银V发文称,Gemini3 的第一个大型受害者出现了。

中招的是他一位朋友,在使用 Cursor 进行 AI 编程时,Gemini3 不知抽了什么风,直接删掉了用户 800G 的文件!更绝的是,连 Cursor 自己都没能幸免,一并被“清理”出门。

目前无法手动恢复,只能找专门的数据恢复公司。

竞争还在升级

谷歌这次连开发环境都给重构了。

伴随模型发布的,还有一个名为 Google Antigravity 的新平台。这可能是目前市面上最接近“自动驾驶编程”的形态。它不再是一个让人们一行行敲代码的编辑器,而是一个“智能体优先”(Agent-first)的指挥中心。

在 Antigravity 里,用户不是一个人在战斗。Gemini 3 Pro 是大脑,负责顶层架构,Gemini 2.5 Computer Use 模型是手眼,负责操控浏览器验证效果,Nano 模型负责打杂。用户下达指令,它们开始分工协作:写代码的写代码,跑测试的跑测试,甚至 AI 会自己打开浏览器看着界面说“这里歪了”,然后自己切回终端进行修正。

这种“端到端”的工程能力,才是谷歌真正的护城河。

这也是为什么谷歌能在这个时间点炸场。当全世界的 AI 公司都在苦苦等待英伟达的 GPU 发货时,谷歌依然坐在自家庞大的 TPU 算力矿山上。这种底层的算力冗余,加上谷歌搜索独有的、涵盖全网数据的知识图谱,让 Gemini 3 Pro 拥有了别人难以复制的“厚度”。

比如在最新的搜索模式中,当你问一个复杂的物理或生物问题,它不再是给你扔一堆链接,而是直接生成一个可交互的动态模拟器。这种即时生成工具的能力,是算力和数据积累到极致后的溢出表现。

目前,Gemini 月活跃用户已超 6.5 亿。在今年8月,OpenAI也宣布ChatGPT周活用户达到了8亿。

在争夺普通消费者的赛道上,OpenAI与谷歌的厮杀还在升级。巴克莱银行分析师罗斯桑德勒曾依据两大巨头的token消耗量估算,在原生消费级AI应用方面,OpenAI的Token消耗量仍是Gemini的两倍以上。

同在谷歌旗下,DeepMind 的CEO官德米斯・哈萨比斯(Demis Hassabis)在一份声明中表示,由 Gemini 3 驱动的人工智能响应 “将摒弃陈词滥调和刻意讨好,提供真正有价值的见解 —— 告诉你需要知道的事,而非你想听的话”。行业批评人士指出,当前的人工智能聊天机器人往往过于 “谄媚”。

而就在一周前,OpenAI更新GPT5.1时称,GPT-5.1的答案让人感觉更聪明,语气更自然。优秀的人工智能不仅应该是聪明的,而且应该提供令人愉快的交谈。

不过,在商业模式上,二者存在显著差异,可能使其面临的压力不同。

多家媒体近期报道称,一份据称来自OpenAI内部的文件称,OpenAI的实际运营成本可能远超外界想象,而其收入则被显著夸大,这使得其高昂的运营成本与收入之间存在一条惊人的鸿沟。数据显示,从2024年第一季度到2025年第三季度的七个季度里,OpenAI仅在Azure上的推理计算支出就超过了124亿美元。仅在2025年的前九个月,其推理成本就已高达86.7亿美元。

10 月 29 日,谷歌母公司 Alphabet 发布截至 2025 年 9 月 30 日的第三季度财报。数据显示,Alphabet 第三季度总营收达 1023.46 亿美元,较去年同期的 882.68 亿美元增长 16%,五年前,这一数字是500亿美元。Alphabet CEO桑达尔・皮查伊称,人工智能正为其创造切实价值。值得一提的是,在巴菲特发出最后一封股东信之际,伯克希尔哈撒韦公司发布持仓报告显示,截至今年第三季度末,该公司已建仓价值43亿美元的谷歌股票,并继续减持苹果。这将是巴菲特在退休前的最后一场关键战役,在人工智能领域,股神已做出选择。

这意味着,摆在OpenAI面前的仍旧是一道艰难的生死题,如果不能显著超越Gemini,ChatGPT拉开的用户规模差距仍旧可能被追上,那对于烧钱换规模的OpenAI而言,将是毁灭性的打击。

标签: 谷歌 数据 能力 模型 用户 人工智能 人们 代码 编程 工具 算力 成本 科技 博主 物理 领域 公司 罗斯 门槛 消耗量 断层 例子 感觉 二者 架构 代表 性能 美国 时间 价值 关键 行业

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。