AI 图像生成领域刚刚发生了一些奇怪的事情。新出现一个奇怪的名字——Nano Banana,开始出现在论坛、Discord 和 AI 测试网站上。
没有公告,没有官方文档。只有一个模型,它开始把所有其他图像生成器都打败了。
虽然名字很奇怪,但性能却一点不奇怪。
现在很多人相信这是谷歌在生成媒体领域的下一个重大行动,虽然他们还没有证实,但迹象已经随处可见。如果你关心AI艺术、编辑工具,或者只是想知道图像生成的方向,那么这篇文章很重要。
Nano Banana 最初出现在一个名为LMArena的网站上,在这个网站上,不同的 AI 模型以“战斗模式”匿名竞争。
你输入一个提示,两个匿名模型就会尝试生成最佳结果。问题是:你不知道哪个是哪个。
随着时间的推移,用户开始注意到一个模型有所不同。它变得更好了。它能保持面部表情的一致性,能够理解上下文,还能接受复杂的提示指令并真正执行。很快地,Reddit 和 Discord 服务器上就充斥着各种猜测:幕后黑手是谁?
然后人们注意到了一个主题。提示符中出现了香蕉图标。输出样本中也出现了香蕉图像。甚至连谷歌 X(以前称为 Twitter)上的几位工程师也开始毫无解释地发布香蕉表情符号。
从那时起,“Nano Banana (纳米香蕉)”这个名字就开始流传开来。
这并非只是炒作。Nano Banana 做到了其他模型难以做到的事情,尤其是在控制、一致性和场景逻辑方面。以下是它的独特之处:
1. 通过语言而非层次进行编辑
你甚至不再需要 Photoshop 技能,不需要绘制蒙版或进行任何修饰。只需用纯文本描述你想要更改的内容,例如“移除背景并替换为森林”或“让她微笑并添加柔和的灯光”,剩下的事情它就会自动完成。
其他大多数模型要么细节处理不好,要么需要多次尝试。而 Nano Banana通常一次就能成功。
2. 真正有效的身份保护
问问任何一位 AI 艺术家,什么最能破坏沉浸感,他们都会说:“每次编辑,角色都在变。” Nano Banana 似乎明白这一点。你可以交换背景、改变角度、调整颜色,而图像中的人物或物体却保持不变。
这意味着一致的头像、漫画、影响者、产品照片,而无需从头开始重建图像。
3. 速度非常快
其他工具每张图片的响应时间需要 10-15 秒,而 Nano Banana 通常只需 1-2 秒,有时甚至更快。感觉就像实时工作,而不是批量处理。
4. 多图像编辑和叙事
你可以输入多个相关的提示或图片,它会自动保持它们在风格和叙事上的一致性。即使是规模更大、更知名的模型也难以做到这一点。这对于创作者创作连贯的场景、用户原创内容 (UGC)、漫画、广告活动或幻灯片来说非常有用。
该模型的行为与 Gemini 最近发布的多模态模型类似。其运作机制(MO)、隐秘发布、不做任何品牌宣传、让社区自行探索,与 DeepMind 在匿名基准测试领域测试早期 LLM 的方式如出一辙。
第二:几位与谷歌相关的开发者在社交媒体上发布了一些关于Nano Banana 的内容。他们要么是在戏弄人工智能社区,要么就是在暗示。
第三: Nano Banana太优秀了,不像是车库里团队的作品。它的表现,尤其是在角色一致性、场景感知和语言理解方面,感觉像是出自三大顶级实验室之一。目前能达到这一水平的只有 OpenAI、谷歌,或许还有 Anthropic。但这感觉不像 Claude,更像是拿着画笔的双子座。
这不仅仅是一个玩具。它已经改变了不同行业团队的工作流程:
这些都不是假设。这些数字是由在封闭测试版中测试该模型的团队或通过 Flux AI 和 LMArena 等非官方渠道报告的。
它不在 Hugging Face 上,也不在 Colab 上,你也找不到 GitHub 仓库。
但有一些方法可以玩转它:
2. Flux AI 或 FluxProWeb:这些平台有时会在前沿模型上市之前就获得这些模型。你可能会发现 Nano Banana 正在幕后运行。
Cursor IDE 插件:一些开发人员声称已经使用从其前端抓取或代理的 API 将 Nano Banana 编辑功能嵌入到设计工具中。
一些早期用户也指出了Nano Banana 奇怪的行为、随机扭曲、奇怪的灯光和面部扭曲。另一些人则表示,该模型有时会误解提示语,尤其是模糊的提示。这是意料之中的,现在还处于早期测试阶段。
此外:访问不稳定。网站会宕机。模型有时会被替换或限制。这还不是商业产品,更像是一个可以触摸的漏洞。
如果 Nano Banana 真的来自谷歌,那么它标志着一个全新转变。
它不仅仅是生成漂亮的图像,而是要取代整个编辑工作流程。不再需要切片蒙版,不再需要版本控制层,不再需要批量渲染。只需告诉模型要做什么,然后快速返回结果。
这不是艺术的“中途之旅”。它未来可能会对 Photoshop、Canva 甚至 After Effects 等工具构成严峻挑战。AI 不仅能生成图片,还能编辑、保存、设计图片,并响应人类的指令。
谷歌近来一直很安静。Nano Banana 也一样。无论 Nano Banana 最终会成为一款完整的产品,还是仅仅是 Gemini 未来的一个测试案例,有一件事是肯定的:
这玩意儿不是为玩而设计的,
而是为工作而设计的。
作者:场长
本篇文章为 @ 场长 创作并授权 21CTO 发布,未经许可,请勿转载。
内容授权事宜请您联系 webmaster@21cto.com或关注 21CTO 公众号。
该文观点仅代表作者本人,21CTO 平台仅提供信息存储空间服务。