当前位置: 首页 » 资讯 » 科技头条 » 正文

谷歌Nano Banana 2又刷屏了:又快又便宜,设计师当场破防

IP属地 中国·北京 机器之心Pro 时间:2026-02-27 16:37:15

机器之心编辑部

一句话:Pro 级质量,Flash 级价格。

预告了许久的Nano Banana 2,终于来了。



谷歌CEO皮查伊发帖声称:「这是我们迄今为止最好的图像模型。」



https://x.com/sundarpichai/status/2027057726170509724

目前该模型已经作为默认图像模型在 Gemini App、Google Search(覆盖 141 个国家)和 Flow 上线,同时在 Google AI Studio 和 Vertex AI 提供预览,也可以在 Google 的 Antigravity 中使用。

这一次升级,核心不只是画质再抬一档,而是能力结构发生了明显变化。

Nano Banana 2融合了 Gemini 对世界的深度理解,同时利用实时网页搜索获取的信息和图片,因此能够以极高的保真度来反映真实世界的当前状况。

皮查伊举了个「Window Seat」(窗边座位)的例子。随便挑世界上任何一个地方的「窗户视角」,模型就能实时生成那个窗户往外看的景色,还会自动拉取当地实时天气,同时支持 2K/4K 高清。

网友使用搜索功能,模型先通过网页搜索理解鹪鹩到底长什么样,再生成精美的桌面。



提示词:使用图片搜索查找鹪鹩的精准图像。制作一张精美的壁纸(比例3:2),采用自然的上下渐变效果,并保持极简构图。来自X@fofrAI

文本能力,仍然是这一代重点补强的方向。

Nano Banana 2 被明确定位为可以在图像中生成清晰、可读、可直接商用的文字内容,无论是营销物料还是贺卡设计,拿来即用。



来自X@ZHO_ZHO_ZHO

从社区反馈看,文字、排版稳定性,相比前代确实有明显提升。



来自X@oran_ge(左图),X@ZeroZ_JQ(右图)



来自X@karminski3



拉纳克普尔耆那教寺庙的柱子,x@tulseedoshi

模型也在更高复杂度场景下展示出一定统筹能力。

沃顿商学院教授@emollick提前体验了 Nano Banana 2。「它虽然还不完美,但却是第一个能以较高的一致性处理极其复杂的图像和图表的模型。」

他给出的指令是:

「show me a where's waldo set in ancient Venice, but instead of waldo it is an otter wearing a blue striped pilots outfit.」(给我展示一张以古代威尼斯为背景的《威利在哪里》(Where's Waldo)风格的图片;但要把威利换成一只穿着蓝色条纹飞行员制服的水獭。)



X@emollick

如此复杂多元的画面生成,我仔细瞅了半天,还真找到了,而且,只有一个水獭!当然也有毛病,比如长尾巴的小男孩:



速度,是这代最直观的体感升级之一。



用户反馈,生成 4K 图像不到一分钟。



关键还便宜!结合官方给出的价格,比 Pro 全面便宜:图片便宜 25-50%,文本 token 便宜 70-80%。

一句话:Pro 级质量,Flash 级价格。



从社区实测来看,Nano Banana 2 的主体一致性表现,也是这一代的亮点之一。

我们简单体验了一下,确实做得不错。



提示词:保持所有角色和物体与之前(左图)完全一致。重新布置场景,让五个角色围坐在一张圆桌旁,自然互动。九个物件必须全部保留,并且清晰可见。电影级光影,中景,照片级真实感。(右图是结果)

谷歌表示,在单一工作流中可保持多达 5 个角色的一致性,以及多达 14 个对象的保真度。这让你可以进行分镜创作和叙事构建,而无需改变输入对象的原型外观。

换句话说,当角色一致性不再频繁崩坏,分镜、故事板、连续广告乃至 IP 视觉资产的自动生成才真正具备可行性。

指令遵循能力同样明显收紧。Nano Banana2 能很好理解如此复杂、包含多重指令的草图输入。难怪博主直呼「设计师们,我觉得我们完蛋了!」



@hewarsaber丢给它一张草图,输入提示词:Turn this sketch into a landing page for an Al video platform.Purple and white.Clean and modern.Hero headline: 'AI Video That Speaks Your Script'.Show an Al avatar on the right. Add use case tags below the nav(将此草图转化为AI视频平台的落地页。紫色和白色,简洁现代,醒目的标题:「人工智能视频,朗读你的脚本」,在右侧显示人工智能头像,在导航栏下方添加用例标签。)

微妙的镜头语言控制,执行稳定性也有提升。



提供了3张参考图片和一个简单的提示:这里展示的是35mm、50mm和85mm焦距,光圈分别为f/1.2和f/2.0的情况。x@LinusEkenstam



网友评价,第一个轻松理解如何使用广角镜头拍摄特写的图像模型,x@aifilmmaker

产品规格上,全面控制各种长宽比(包括1:8、 8:1 这种极端画幅),专为横幅、故事流和全景内容设计。

分辨率覆盖 512px 到 4K。加入低分辨率(512px)快速模式,更适合高频迭代与大规模流水线。



虽不及 8:1 极端,很多网友在晒的这种全景图,已经很惊艳。



还有网友让它生成一个 720 度的 vr 素材图,加入交互,就得到了一个全景网站。



X@ZeroZ_JQ

值得一提的是,在保持速度的同时,视觉保真度也有所升级。画面充满活力的光影、更丰富的纹理和更清晰的细节。

看看这张图!睫毛根根分明,眼周皮肤、眼睛里的红血丝都清晰真实,甚至能从眼睛里看到窗外的那只鸟。



https://x.com/chetaslua/status/2026961626549887069?s=20



皮肤细节清晰可见,毛孔,脸颊、鼻头因冷空气,自然泛红。X@charliejhills

网友还玩出了不少花样。

博主@fofrAI引用了别人在图书馆随手拍的一本童书《How to Hold Animals》,然后给模型下提示「Show the jellyfish page from this book」。

模型立刻生成了书里第 42 页关于水母的内容,风格、排版、插画质感,看起来就像直接从书里扫描出来的一样。



https://x.com/fofrAI/status/2027076683010851284

模仿你的笔迹,写一首诗。



X@Prathkum

居然还能生成 CAD。

当然,翻车的例子也不少。比如,这个倒立就有问题;郭德纲于谦互换脸,也失败了。



x@karminski3(左)X@ZHO_ZHO_ZHO(右边)

生成准确的时钟,似乎一直是个难题。



X@ZHO_ZHO_ZHO

据说,Google Ads 也已开始接入这一能力——这几乎等同于公开宣告:图像生成正在正式进入广告生产基础设施。

从更宏观的产品策略来看,谷歌的意图已经越来越清晰:不是单纯把图像模型做得更好看,而是把它们全面推入高频生产基础设施。

当 Pro 级能力开始系统性下沉到 Flash 档位,图像生成的使用频率,很可能会迎来下一次台阶式跃升。

https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新