机器之心报道
编辑:杨文
神秘AI模型纳米香蕉火了,冒出了一批假网站,李鬼和李逵傻傻分不清。
近日,AI社区又冒出了一个神秘的图像生成和编辑模型,名叫纳米香蕉。
它在 LMArena 平台的“Battle”模式中被发现,但未在公开排行榜上列出,也没有官方开发者明确声明其所有权。
很多网友都追踪着蛛丝马迹,猜测这可能是谷歌的研究模型
周二,谷歌 AI Studio 产品负责人 Logan Kilpatrick 在 X 上发布了一个香蕉表情符号。
谷歌 DeepMind 产品经理 Naina Raisinghani 也发布了一张与意大利艺术家 Maurizio Cattelan 2019 年创作的胶带粘贴香蕉艺术作品类似的图片。
再加上谷歌过去曾将其较小的模型称为“Nano”,以及其生成的图像与Google的Imagen或Gemini系列相似。
以上种种,似乎都在暗示它出自谷歌之手。
该模型不仅在文本编辑、风格融合和场景理解等方面表现更优,还可以上传两张图片、输入提示词将其中的元素融合。
例如,上传一摞书和卧室床头柜的图片,输入提示词“将一摞书翻到直立并放在两个书挡之间的桌子上。”
它能准确理解复杂的文本提示,将横放的三本书立起来,并加上书挡货架到柜子上。
上传一张模特照再加上一张套装帽子图,输入提示词:“把棒球帽戴在女人身上。”
棒球帽上有复杂的文字和图案,纳米香蕉编辑后的图片保留了帽子上的所有细节,同时光线、视角和构图也能保持一致。
在产品照片、场景搭建图、广告等商业场景下,Nano-Banana的表现也稳定得不错。
当然,它也不是完美无缺的,在某些情况下,Nano-Banana生成的图像可能会出现机器人、提示逻辑或瞄准位置不一致等视觉问题,人物的手指也偶尔会出现变形的情况。
如果细看上生成的书籍,就能发现其中的瑕疵:书名出现了「鬼画符」。
由于尚无官方API或正式的官网链接,我们只能通过LMArena随机体验该模型。
很快,每次都得靠运气才能遇到 Nano Banana,体验很惊喜。
更搞笑的是,网上出现了多个假网站,声称提供 Nano Banana 服务,让网友李鬼和李逵傻傻分不清。
纳米香蕉一手评测
我们也来了一个手测评。
lmarena官网,选择战斗模式,可以直接输入提示词进行文生图,也可以上传图片、输入提示词再进行AI编辑。
官网链接:https://lmarena.ai/
页面会出现两个匿名模型同时生成图片,只有当我们选出生成质量最好的一张图片时,平台才会亮出对战双方的身份。
先来试试文生图效果。
我们输入同样的提示词:以宝丽来照片拍摄风格呈现一幅肖像风格图像。照片中,一位化妆师留着长长的卷发,身着宽松的服装。她面容精致,散发着随意的气息,对着镜头比出和平手势,营造出一种极致自由的氛围。图像略带颗粒感,色彩鲜艳迷人,1:1比例。
第一幅是 Nano Banana 的「作品」,第二幅是 ChatGPT 生成的效果。先前生成的图片背景有杂乱的眼影盘、指甲油等,更符合提示词中的「化妆师」身份,而且人物的动作、服装更自然,手部也没有细节明显的瑕疵;而背部背景同样单一,大拇指也有些虚化。
再来试试它的图片编辑功能。
上传一张旧金山阿拉莫广场的野餐照片,输入提示词:在公园里添加一些人形机器人,使它们与环境融为一体。
乍一看我们还以为纳米香蕉「跳舞」了,直到在画面右侧找到了一个正在行走的类人机器人,它完全适应了环境,毫无违和感。
我们上传一张人物摄影照片,让 Nano Banana 进行逆向工程绘画其创作过程。
提示词:展示之前设置的场景,模特坐着滚动她的手机,模特身后有一个女人在整理她的头发,一个男人站在梯子上,在背景中挂上窗帘,露出后面的工作室。
有网友用Nano Banana让碧梨和迈克尔·杰克逊跨时空自拍:
我们也尝试了下。上传马斯克和奥特曼的照片,输入提示词:两个人正在开心地自拍。
Nano Banana确实生成了一张自拍照,马斯克的形象、动作也几乎找不出什么问题,只是奥特曼大变样。
为了不「冤枉」它,我们又给了它一次机会,纳米香蕉还是翻车。
入口继续升级。上传小扎、面具肖像照和一张风景照,让 Nano Banana 把两个人自然地放在图三中。
Gemini 2.0 flash生成的效果完全认不出这两个大佬,而Nano Banana将二人完美巴基斯坦图三环境中,不过手指等细节方面还是有瑕疵。
进阶玩法
如果把 Nano-Banana 和谷歌的 Veo3 结合在一起,会碰撞出怎样的火花?
@a16z 合伙人 Justine Moore 就搞了一个新工作流,用于制作简短的视频。
该视频下方是一个游戏或电影中的潜行任务场景,角色从昏暗的博物馆中盗取了一幅名画,引发了激光警报。
她还放出了制作教程。取出第一个视频片段的最后一帧,然后将帧上传到 lmarena 上的 Nano Banana,提示生成下一个场景,例如「角色转向走廊」,然后将新生成的帧用 Veo 3 进行动画制作。
X网友@ZHO_ZHO_ZHO则发现了Nano-Banana另一种好玩的玩法——把插画变成手办。
上传一张图片,输入提示词:将这张照片转换成人物模型。在它后面放置一个印有人物图像的盒子,以及一台显示 Blender 建模过程的电脑。在盒子前面,放置一个圆形塑料底座,人物模型站在上面。尽量使用透明的 PVC 材质,并尽可能将场景设置在室内。
根据该博主评测,Nano-Banana生成的图几乎没有AI味道,五官和细节都保留得很好,真实感。
然后再用Veo3将其制作为8秒视频。 提示词:用双手拿起图形并从各个角度展示。
底下评论区踊跃网友也按照上述工作流程整活。比如哪吒道德抱拳的:
还有哆啦A梦的,正面看哆啦A梦的尾巴挺正常,但转个身就大变样:
我们也复刻了下,上传一张Q版插画图片,输入以上提示词。
效果如下:
最后打开Gemini 2.5 Pro,选择视频,上传生成的图片,输入提示词,静待1分钟左右,就能获得一段8秒视频。
上周末,谷歌Veo 3对所有Gemini用户免费开放,供其体验AI视频生成功能。
这个免费体验活动仅持续到太平洋时间8月24日晚上10点(北京时间8月25日上午1点)。在此期间,免费用户每天最多生成3个8秒的视频片段,每个视频都包含自动生成的音频。
通常,Veo 3 的视频生成功能仅对 Google AI Pro 或 Ultra 订阅用户开放。Pro 用户每天可生成 3 个视频,而 Ultra 用户的损耗为 10 个视频。
感兴趣的朋友也去体验一波吧。
https://x.com/ginacostag_/status/1959234207127134340
https://x.com/venturetwins/status/1957155767888548160
https://x.com/techhalla/status/1959186906115354692
https://x.com/ZHO_ZHO_ZHO/status/1958550998815023573
文中视频链接:https://mp.weixin.qq.com/s/ClnR2h_YGXtWNrpJ3TOilA