2025 年 8 月,Instagram 和 X 上突然爆发一波「3D 手办」照,真人自拍秒变精致手办,很多人不知道背后是哪套 AI。那就是 Nano Banana 的首次亮相,Google 给 Gemini Flash Image 用 🍌 teaser 暗示、社区就这样叫开了。

认识 Nano Banana

Nano Banana 是 Google DeepMind 出品的 AI 图片生成模型,属于 Gemini 生态系统。官方名称叫 Gemini Flash Image,社区称呼 Nano Banana 是因为 Google 在正式发布前用 🍌 emoji 暗示,这个昵称就这样留下来了。

版本演进:

  • Nano Banana(Gemini 2.5 Flash Image,2025 年 8 月):原版,引爆 3D 手办风潮,Gemini 应用因此新增了千万级新用户和超过 2 亿次修图记录
  • Nano Banana Pro(Gemini 3 Pro Image,2025 年 11 月):旗舰版,质量更高、配额较少
  • Nano Banana 2(Gemini 3.1 Flash Image,2026 年 2 月):现行版本,现在是 Gemini 所有订阅层级的默认图片模型

跟早一批的文字生成 AI 不同,Nano Banana 从一开始就设计成「在对话里生图」,而不是另开一个独立的绘图工具。这个设计让它的使用方式比 Midjourney 直观很多,代价是对像素的精细控制不如专业工具。

怎么开始用(免费)

最快的路:gemini.google.com

  1. 打开 gemini.google.com
  2. 用 Google 账号登录(没有的话五分钟内可以申请)
  3. 开新对话,确认界面上显示的是图片生成模式(有些界面需要手动切换到图像模型)
  4. 输入「画一张…」开始生图

手机的话也可以下载 Gemini 应用,体验跟网页版差不多。

Gemini 网页版界面,登录 Google 账号后可直接输入指令生成图片

开发者路:Google AI Studio

如果你是开发者,或者需要更高的免费配额和 API 访问,走 Google AI Studio。这个入口的免费配额更高,可以直接拿 API key 接入自己的应用。

Google AI Studio 开发者界面,可挑选模型、调整参数并生成 API key

能做什么

文字生图片

输入文字描述,Nano Banana 生出图片。支持多种长宽比(方形、横幅、竖幅),Nano Banana 2 最高输出到 4K(免费版上限 1K 分辨率,付费版才开 4K)。

Prompt 的基本结构:主体 + 风格 + 场景 + 氛围。举例:

「画一只坐在咖啡厅窗边的橘猫,水彩插画风格,午后日光斜射,暖色调。」

比起只说「画一只猫」,这样的描述方式第一次出来的结果就接近想要的东西。

对话式修图

这是 Nano Banana 跟 Midjourney 差异最大的地方。上传你自己的照片,用日常语言说想改什么,它就直接改。

操作方式:点对话框左侧的上传图标 → 传照片 → 说「把背景换成下雨的街道,保留人物」。

修图指令越具体越好,说清楚要保留什么、要改什么、光线从哪里来。「改一下背景」这种模糊指令出来的结果不稳,「把白色背景换成日式榻榻米室内空间,保留人物轮廓和光影方向」就稳很多。

支持的修图操作包括:去除物件、换背景、改光线方向、改风格(把照片改成插画)、色调调整。不支持像 Photoshop 的精细遮罩或像素级操作,这个定位要搞清楚,否则会对它失望。

角色一致性

Nano Banana 2 的一大升级:支持在同一个对话里维持最多 5 个角色、14 个物件的外观一致性。这对做分镜、系列贴图、IP 角色设计很有用,同一个角色在不同场景里不会长相飘移。

在同一个对话里持续生图是关键,不要每张图都开新对话。第一张确定角色外观后,后续每张在同一串继续说「让她出现在…」,模型会记住前面的外观。

图内文字

Nano Banana 在图片内渲染英文文字的能力比大多数 AI 图片模型好,准确率大约 87–96%。想在图片里加 slogan 或标语,英文比中文稳。

中文怎么用

Prompt 本身用中文下没问题,模型能读懂。但图片「里面」要出现中文字就要特别处理。

图内中文的现状

社区实测(非官方数据):Nano Banana 生成图片内的中文字准确率只有七成多,常见问题是缺笔画、字序错、字形模糊。

Nano Banana 生成图片内的中文字常出现缺笔画、字序错乱

这个问题在 Nano Banana 2 有改善,但没有完全解决。

提高图内中文准确率的技巧

1. 把要放进图里的字用引号包起来,明确标示

「设计一张海报,画面中央有「认真玩 AI」四个大字,简体中文,字体清晰锐利。」

2. 指定 4K 输出

分辨率越高,细笔画越不容易模糊:「请输出 4K 分辨率,确保文字清晰。」(需要付费方案才能真的出 4K)

3. 构图用英文、文字字段用中文

把图片的场景、风格、光线用英文描述(英文训练数据密度高,这部分生成比较稳),只在「要显示的文字」那个字段放中文字。

4. 实在不稳的字,先让 AI 用构图占位,再拿去 Canva 叠中文文字层

这个方案绕路但实际:AI 管构图和风格,文字用现有排版工具处理,质量稳得多。

免费版 vs 付费方案

免费版Google AI Pro(约 US$19.99/月)
每日生图量约 20 张(高峰缩水)约 100 张
最高分辨率1K4K
角色一致性
对话式修图
API 访问需另行计费有免费配额

另外还有 AI Plus(US$7.99/月)和 AI Ultra(US$249.99/月),各有不同配额和功能组合,以官方最新公告为准,这个数字 Google 调整频率高。

API 的话,Nano Banana 2 每张图约 US$0.039–0.07,大量生图的开发者可以这样算成本。

所有 Nano Banana 输出的图片都带有 Google 的 SynthID 隐形水印和 C2PA 来源标记,标示这是 AI 生成的内容。显示上看不出来,但技术层面是有记录的。

跟其他工具比

vs Midjourney:Midjourney 的艺术风格控制和画质上限比 Nano Banana 强,在「美感」上仍是公认的高水准。但 Midjourney 没有免费版(需要订阅),图内文字是它的弱点,也没有对话式修图。如果要的是艺术感和风格细腻度,Midjourney 值得订;如果要的是修图和整合进工作流,Nano Banana 直观很多。

vs GPT Image(ChatGPT):GPT Image 的写实人物生成能力强,2026 年 4 月 GPT Image 2 上线后一度在 Image Arena 排行榜拿榜首。两者都支持对话式修图,能力接近。主要差异在生态:Nano Banana 整合在 Gemini 应用、可以搭配实时网络搜索一起用;GPT Image 在 ChatGPT 环境。如果你本来就用 ChatGPT,GPT Image 切换成本低;如果用 Gemini,Nano Banana 就是最自然的选择。

vs Stable Diffusion:Stable Diffusion 的优势是本地运行、真正免费(跑起来之后)、加 ControlNet 可以精细控制构图。代价是需要自己搭环境、调模型、选 LoRA,技术门槛明显较高。Nano Banana 是开箱即用,没有这些学习成本。两个定位不同,不是谁比较好的问题。

学生的话可以先看看有没有资格用 Gemini 学生方案,付费条件可能更优惠。

结论

Nano Banana 的定位很清楚:进场门槛最低的 AI 修图入口。免费、免安装,Google 账号就能开,这三点对想试试 AI 生图的人是很大的加速器。

怎么选比较快:想做 对话式修图(上传照片口语改)→ 先用 Nano Banana 免费版,绝大多数日常需求够用;想做系列角色或分镜→ 同样是 Nano Banana 2,角色一致性做得不错;想要顶级艺术风格和细节控制→ Midjourney 的位置没被取代;想在图片里放中文字→ 先跑 Nano Banana 试试,不稳的话用 Canva 补一层文字比较实际,别花太多时间跟 AI 的中文渲染较劲。

图内中文这个坑在 Nano Banana 2 目前仍然存在,改善速度还有待观察,以官方公告为准。

延伸阅读


整理:Penna|小企鹅 Penchan