当前位置: 首页 » 资讯 » 科技头条 » 正文

Gemini 3 来了,AI 应用创业公司谁兴奋,谁冷静,谁觉得它不太行?

IP属地 中国·北京 硅星人 时间:2025-11-22 12:13:23


作者 |Yoky 、黄小艺、董道力

Gemini 3 的发布,不仅仅是一次参数的迭代,更是一次对模型边界的暴力拓展。

它像一个巨大的多面体,同时覆盖了 VibeCoding通用 Agent前端设计乃至游戏引擎等当下最滚烫的赛道。这种全方位的“能力溢出”,给身处其中的创业者带来了一个残酷而迷人的命题:这究竟是为他们打开了新的可能性,还是预示着垂直应用将逐渐消融在模型“无边界”的扩张之中?

带着这个疑问,硅星人找了 7家不同赛道的 AI 公司,聊了聊他们的感受与变化。

我们发现,创业者们的悲欢并不相通,有人兴奋得彻夜未眠,在凌晨的测试中看到了“吉卜力时刻”和 Agent 的新未来;也有人十分冷静,对通用模型的狂欢不以为然,坚信数据壁垒与实时性才是护城河。

1

Flowith:Gemini3的更新点,都是Agent的刚需


画布交互式内容创作Agent平台,10月底推出了一款独立的为 Agent 原生设计的操作系统Flowith OS。

1、硅星人:Gemini3对你们有什么影响,未来通用型Agent还有价值吗?我感觉这么强的模型,加workflow或者产品设计等等,有点像给皇帝穿乞丐衣服。

Flowith创始人Derek:Gemini 3 Pro 我们在试用的时候发现它补足了很多上代模型的不足,比如有更强大的视觉理解能力(这对 compute use 场景有很大提高)、代码生成能力、长任务生成能力等等。这些对很多 AI 应用层公司、以及 Agent 公司,都是刚需的功能点。

在 3 出来前,2.5 Pro 已经是这些方面的 SOTA 了,而随着 3 Pro 的推出,与很多之前应用层的局限都可以得到突破,更何况 Gemini 的性价比和速度也一直都很有优势,我们正在把新模型在 flowith Neo Agent 和 flowithOS 上进行集成和调试,对此也非常期待,因为过去有很多应用层产品的真正走向大众,也是配合着模型升级一起发生的,比如 Cursor、Perplexity 等。

1

逗逗AI:帮模型找场景,就是创业公司的机会


逗逗AI 是你的AI游戏伙伴,在实时语音开黑中提供AI攻略指引和陪伴。

1、硅星人:我们看到您在硅星人「GenAI」那篇Gemini3的文章下面评论,感受到很兴奋于Gemini3在游戏中的应用,值得兴奋的点是什么呢?

逗逗AI联合创始人王碧豪:首先是看到Benchmark上有很好的体现:MMMU Pro和Screen Sport Pro提升非常明显。Screen Sport Pro从17.4提升到了72,提升比例极其恐怖!这代表它现在是真正能够实时看懂屏幕的。这个和我们之前做的模型其实类似,只不过我们专注于游戏屏幕的识别。

我们尝试了把之前一些比赛的视频发给它,让它去做比赛的解说,除了它的语气没有那么激动外,专业方面可以媲美人类解说了。


所以我们今天一直在尝试能用 Gemini3 做点什么,目前它的实时响应性还比较弱,因为它是大参数的推理模型。你在对话时,需要等它十秒二十秒去做推理,可用户等不了那么久,但我们还是找到了一些视频的场景:赛后复盘。

有点像咱们开会,飞书会议会把会议总结出来,形成 to do 或者建议。游戏的过程和这个很类似:你打完一局游戏后,它会告诉你这局表现怎么样,数据是什么样的,高光点在哪,操作不好的点在哪。它能够提供一个很好的数据报告。而这个是用户已经打完游戏了,他没有实时性要求,可以容忍20秒30秒的等待时间。

我们现在准备在海外重点推这个能力:包括英雄联盟等等国外比较火的游戏,重点做这些case。

2、硅星人:我有一个疑惑,Gemini3多模态理解能力增强,你们也自研了VLM模型,自研模型和Gemini 3在产品中的关系,在模型上的差异是什么

王碧豪: 这是个好问题。我最近也在写这个文章。我们提供给了用户可以选择用我们还是Gemini3,但我猜测大概率用户尝试完还是会切回我们。

第一,游戏场景的专业性。Google训练的是通用模型,数据来自互联网全部的,可以识别大部分应用软件。但我们的训练专注于游戏场景。所以我现在还不确定,我们还没做具体的评估,但我觉得我们还是在游戏的识别上、对游戏的理解上有独特之处

第二,响应速度的权衡。游戏陪伴场景需要兼顾响应速度、对游戏的理解以及准确性,这是兼顾不了的。就算Gemini 3的Flash模型(2.5有Flash,3.0还没出Flash),响应时间也要8秒到15秒之间,不可能实现端到端的快速对话。

第三,情绪价值。我们的模型除了对游戏理解和建议能力之外,还做情绪方面的价值。识别到你的高光时刻后,我们怎么通过一个人物设定来给你反馈情绪价值。

3、硅星人:之所以我们在谈通用和垂直,是因为模型的能力边界还没有覆盖到你们,一年前也不会有人认为Coding是一个通用场景,如果Gemini4就可以做“通用的游戏助手”了,到那时候你们的壁垒是什么?

王碧豪:我把这个模型的能力分成上限和下限。

上限能力:我们针对这个场景特地去做了很多工程化优化,包括模型上的优化、数据上的优化。下限能力:这个模型提供的能力就是这样,我们也不去做优化。我们在找这个模型到底在什么场景用得好,然后包装出来让用户去用。

上限能力是针对性的工程优化问题,Google本质上是一个研究型公司,它们只专注于模型本身能力的提升,而不是模型之外的,比如我们现在做的金铲铲、王者荣耀模型的特定模型。下限能力是和用户贴近之后产生的usecase,帮模型去找好的场景和包装,这一块模型公司也不会去做。

不停的拓展上限和下限,就是创业公司的机会。

1

Seede AI:该恐慌的不是我们,是大厂


Seede AI 不是“文生图”路线,而是“代码生图”——直接让大模型写代码来搞定排版和设计。

1、硅星人:昨天晚上是不是很兴奋?我看你12:30还在群里发消息,你几点睡的?

Seede AI创始人杨沐锦: 三四点吧。所有群里都没人说话了,我估计大家全睡了我才睡的。我们好多个人,包括我们的用户一起测到凌晨。

2、硅星人:为什么会这么兴奋?你认为Gemini3是一个什么时刻?是R1还是GPT3.5?

杨沐锦:我感觉像是“吉卜力”时刻,我们自己测下来,Gemini3的一个很大的提升是审美能力。以下是我们用同一个Prompt做的一个对比图:


对比下来你会发现有几个比较大的改变:

从“排版”进化到“设计”:Gemini 2.5 只能做到基础的排版(哪里大、哪里小),也就是“300块设计师”的水平;而 Gemini 3.0 拥有了高级审美,能处理纹理、光影、烟雾效果和复杂的图层叠加,达到了“3000块设计师”的水平。审美与一致性:相比 GPT 生成的拥挤布局和国内模型混乱的配色,Gemini 3 能输出统一的“设计系统”(Design System)。它能自动匹配字体样式(阴影、加粗)和色调,不仅是把字放上去,而是构建整体的视觉质感。代码控制力:Gemini 3 的 Coding 能力极强,它不是生成一张死图,而是生成可编辑的代码布局。这使得用户可以进行二次编辑(挪动位置、修改文字),保留了人的“掌控感”。

其实Claude的编程能力是高于Gemini2.5 pro,但是依然有大量用户选择后者,是因为它的审美在线,审美是无法Benchmark的,而这一点在Gemini3上提升到了更强。

3、硅星人: 我昨天也挺兴奋的,我觉得可能以后就不用人去生产图像和文字了,所有东西全部是AI生成的...你会不会觉得未来Agent或者垂类AI应用会被模型吞噬?会恐慌么?

杨沐锦:对于创业公司而言,Cursor是个成功的案例,先去圈用户,然后最近才发了自己的小模型,以更快的速度,更便宜的成本。我们会是一样的路子。

相反,我认为更应该恐慌的是大厂,Google现在呈现出非常全面的状态,而国内的一些大厂,比如说字节,原本我们的代码生图模型他们也想接,但后面我们拒绝了,因为他们的要求是生图的模型要换成即梦不能用外面厂商的。他们一定是想建立壁垒,那就必须要把自己模型做好才有话语权。

而创业公司不同,Gemini3输入2美元/100万token,输出12美元,加起来14美元;Claude Sonnet 4.5输入3美元,输出16.5美元,加起来快20美元,现在性能提升了,价格也便宜了四分之一,所有的模型资源我们都能用,我们现在提供Gemini3给用户免费使用一周,去找更好的场景。

1

GameSkill:无论模型能力怎么增强,数据都是核心


GameSkill是媲美专业选手的端侧AI教练,全程陪玩,赛后指导复盘。

1、硅星人:有了Gemini3,逗逗AI开始尝试用它给选手进行赛后复盘,这好像功能跟你们有重合了?之前你们在做一个少数人能做的事,如果未来模型的能力进步到多数人都能做,怎么办?

GameSkill创始人陈迪:首先我会觉得Gemini3本身不如我们特训出来的教练模型,我们通过大量的高质量的标注游戏,用特定的单一数据集来训练模型,对游戏的画面进行深度标注和深度理解,在这个过程中,还是数据是核心。当然如果以后游戏内置AI教练成为常态,GameSkill的办法是提供官方功能无法覆盖的深度、个性化和有温度的增值服务

极致的个性化与深度适应:游戏官方AI教练可能更侧重于通用技巧。而GameSkill作为玩家的“私人订制教练”,通过长期在端侧学习玩家的操作习惯、反应速度和决策模式,提供独一无二的训练方案。例如,针对玩家特定的“预瞄弱点”或“道具投掷习惯”进行强化训练,这种深度适配是通用模型难以做到的。跨游戏的身份与数据连续性:对于深度游戏爱好者来说,GameSkill可以成为其跨游戏的通用AI伙伴。我们在不同游戏中学习玩家的风格,帮助玩家将在一款游戏中磨练出的意识应用到另一款游戏中。这种跨游戏的、持续成长的“数字教练”身份,是单一游戏内嵌AI无法提供的。

2、硅星人:你们用端侧模型的解决方案,明显要损失一些云端模型的先进性,如何弥补与云端模型的“代差”?

陈迪:我们承认云端大模型在通用多模态推理上的强大,但在“特定游戏内的实时陪练”这个场景下,端侧模型通过精巧的技术设计,不仅能弥补差距,甚至能实现超越。

模型裁剪与场景特化:我们的8B特训模型采用结构化剪枝、量化剔除了与游戏无关的冗余参数,让模型的所有“精力”都集中在理解游戏画面。硬件协同与实时性:我们的模型直接运行在PC的NPU和GPU上,这意味着数据无需上传云端、处理后再返回。保证零延迟,在需要闪电般反应的电竞游戏中,指导提示能否即时出现至关重要;以及100%的隐私保护,玩家的游戏数据永远不会离开玩家的设备。这是云端模型无法逾越的物理鸿沟。与硬件适配:我们通过与职业战队的合作获取高质量的数据,持续对模型进行增量学习和微调,让它能紧跟游戏版本和战术演变的步伐。同时,我们会为不同性能的PC提供不同精度的模型版本,通过动态调度技术确保在各种硬件上都能流畅运行,实现资源的最优利用。

1

Hyper3D.AI:模型虽牛,但调一个API的任务,还需很长时间


3D生成大模型公司,用户可用一句话/一张图生成 3D 模型。

1、硅星人:Gemini 3的3D能力对你们有直接的影响么?会对3D生成带来什么根本性的改变吗?

Hyper3D.AI CTO 张启煊:Gemini3所展现出来的,其实用“3D生成能力”去描述是有一些问题的。目前大家看到的Gemini3的“3D生成案例”,其实无非是从网上下载一个3D模型、用代码生成参数化的简单3D模型、用代码描述体素这三类。

但是这样的能力其实意义也很大,它意味着Gemini3对3D有很好的能理解能力,即通过自己撰写的代码,能够很好的联想到它所能呈现的3D状态----以往这一块主要局限于2D,这也是LLM对网页生成很在行的原因。具备这一能力后,Gemini3能够很好的结合真正的3D生成模型,完成一些场景的搭建等更复杂的事儿----我们也正在结合Gemini3尝试这些方向

2、硅星人:我们本来以为有人兴奋有人恐慌,但其实是有人兴奋有人冷静,你们是哪一种?为什么?

张启煊:我们第一时间就用上了,其实感觉没有媒体渲染的那么厉害。对于非功能性的页面,能做得很好,有设计感,说明它对代码和最终渲染图形页面的联想是很准确的。但是对于功能性的方面,比如学着调用一个API,能力没有很大的提升,还是需要多轮调试。

比如我自己让它调用我们API,就花了快半小时才给他教明白(当然也有可能是我们文档写太烂了)。


1

Soon:Gemini3对游戏行业并无实质提升


游戏专精模型,以“无需传统抽卡、直接商业化落地” 的优势破局——依托行业专属训练基础,实现从创意概念到落地的全流程赋能。

1、硅星人:Gemini 3 对“游戏Agent开发”最直接的影响是什么?你们最看重的是哪项能力(如推理、多模态、长上下文、工具调用稳定性),各自能落到哪些具体场景?

Soon创始人谭凯:影响有限,偏效率增量而非商业化跃迁。我们最看重“推理与规划”“工具调用稳定性”,与 SoonFX 数值引擎协同强化数值生成/修改,进一步加强我们在 AI 数值方面的能力。目前美术素材依赖自研垂类模型,Gemini 用于脚本、配置与 CI/CD。

主要落地的场景代码生成与自调试;稳定驱动工具与资产管线;长上下文(百万 token)持续记忆;Deep Think 做关卡/剧情/经济与动态难度;更强安全与合规;结构化、可编辑输出(JSON/YAML/DSL)适配管线规范。

2、硅星人:soon团队是否已评估/试接入 Gemini 3?与现有模型相比,你们希望Gemini3能解决哪方面的问题。

谭凯目前正在评估与能力测试中,重点验证数值推理、多模态、长上下文与工具调用稳定性,暂不生产接入。期望提升数值生成/平衡与约束满足;长链任务稳定收敛;降低工具调用失败并断链自愈;结构化输出更稳定、解析更少失败。

3、硅星人:你们觉得Gemini3的能力,如果真的像发布会说的那样“强”,会对游戏开发带来什么根本性的改变吗?

谭凯不会带来根本性改变,对行业并无实质提升。当前模型更多复刻既有产物,难形成生产闭环。

AI 仍处于“能生成贪吃蛇、但不可能生成王者荣耀”的阶段,半成品普遍不可二次编辑/不可回归入库,工程与统筹的“最后 10%”最难。

我们路径是Soon 工具链打通“最后一公里”,我们生成的骨骼动画与素材可以进行二次编辑与调整并回写入库,直接落地商用;以可编辑资产管线+质量标准+流程,支撑从生成到入库的闭环。

模型评价标准:可编辑、可回归、可观测与度量、稳定的工具编排与 CI;堆 demo 无意义。

1

Gambo:用实测结果说话,不行就是不行


世界上第一个游戏编程Agent,用户只需通过简单的文字描述,能快速生成完整的游戏,包括场景、角色、音效和交互逻辑。

1、硅星人:Gemini 3 的发布,对“游戏Agent开发”最直接的影响是什么?您最看重的是哪三项能力(如推理、多模态、长上下文、工具调用稳定性),各自能落到哪些具体场景?

Gambo周卓泉:Gemini 3 的核心提升,第一是视觉理解能力的提升,可以更好的理解参考图片,能大幅提升 Gambo 通过游戏截图复刻一个游戏的还原度;第二大提升是图形绘制能力的提升,虽然还远远无法满足游戏的需求,但在教育等场景已经足够,能帮助这些场景快速落地。

我们第一时间做了测试,分别用 Gemini 3 和 Claude 4.5 生成一个街霸游戏,可以看到,两个模型生成的角色都由简单的形状拼凑,Claude 的角色是一个圆形加一个矩形,Gemini 的角色复杂一些,但也是由多个圆形、矩形构成。无法达到游戏对游戏资产的要求。

Claude

Gemini3

而真正的游戏依赖复杂的游戏资产,比如角色、动作、特效、地图、音乐等等,可以参考我们的用户在 Gambo 里复刻《丝之歌》游戏的真实录屏,AI 会根据用户的对话内容,生成全类型的游戏资产。

点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。