2025 年 8 月,Instagram 和 X 上突然爆发一波「3D 手办」照,真人自拍秒变精致手办,很多人不知道背后是哪套 AI。那就是 Nano Banana 的首次亮相,Google 给 Gemini Flash Image 用 🍌 teaser 暗示、社区就这样叫开了。
认识 Nano Banana
Nano Banana 是 Google DeepMind 出品的 AI 图片生成模型,属于 Gemini 生态系统。官方名称叫 Gemini Flash Image,社区称呼 Nano Banana 是因为 Google 在正式发布前用 🍌 emoji 暗示,这个昵称就这样留下来了。
版本演进:
- Nano Banana(Gemini 2.5 Flash Image,2025 年 8 月):原版,引爆 3D 手办风潮,Gemini 应用因此新增了千万级新用户和超过 2 亿次修图记录
- Nano Banana Pro(Gemini 3 Pro Image,2025 年 11 月):旗舰版,质量更高、配额较少
- Nano Banana 2(Gemini 3.1 Flash Image,2026 年 2 月):现行版本,现在是 Gemini 所有订阅层级的默认图片模型
跟早一批的文字生成 AI 不同,Nano Banana 从一开始就设计成「在对话里生图」,而不是另开一个独立的绘图工具。这个设计让它的使用方式比 Midjourney 直观很多,代价是对像素的精细控制不如专业工具。
怎么开始用(免费)
最快的路:gemini.google.com
- 打开 gemini.google.com
- 用 Google 账号登录(没有的话五分钟内可以申请)
- 开新对话,确认界面上显示的是图片生成模式(有些界面需要手动切换到图像模型)
- 输入「画一张…」开始生图
手机的话也可以下载 Gemini 应用,体验跟网页版差不多。

开发者路:Google AI Studio
如果你是开发者,或者需要更高的免费配额和 API 访问,走 Google AI Studio。这个入口的免费配额更高,可以直接拿 API key 接入自己的应用。

能做什么
文字生图片
输入文字描述,Nano Banana 生出图片。支持多种长宽比(方形、横幅、竖幅),Nano Banana 2 最高输出到 4K(免费版上限 1K 分辨率,付费版才开 4K)。
Prompt 的基本结构:主体 + 风格 + 场景 + 氛围。举例:
「画一只坐在咖啡厅窗边的橘猫,水彩插画风格,午后日光斜射,暖色调。」
比起只说「画一只猫」,这样的描述方式第一次出来的结果就接近想要的东西。
对话式修图
这是 Nano Banana 跟 Midjourney 差异最大的地方。上传你自己的照片,用日常语言说想改什么,它就直接改。
操作方式:点对话框左侧的上传图标 → 传照片 → 说「把背景换成下雨的街道,保留人物」。
修图指令越具体越好,说清楚要保留什么、要改什么、光线从哪里来。「改一下背景」这种模糊指令出来的结果不稳,「把白色背景换成日式榻榻米室内空间,保留人物轮廓和光影方向」就稳很多。
支持的修图操作包括:去除物件、换背景、改光线方向、改风格(把照片改成插画)、色调调整。不支持像 Photoshop 的精细遮罩或像素级操作,这个定位要搞清楚,否则会对它失望。
角色一致性
Nano Banana 2 的一大升级:支持在同一个对话里维持最多 5 个角色、14 个物件的外观一致性。这对做分镜、系列贴图、IP 角色设计很有用,同一个角色在不同场景里不会长相飘移。
在同一个对话里持续生图是关键,不要每张图都开新对话。第一张确定角色外观后,后续每张在同一串继续说「让她出现在…」,模型会记住前面的外观。
图内文字
Nano Banana 在图片内渲染英文文字的能力比大多数 AI 图片模型好,准确率大约 87–96%。想在图片里加 slogan 或标语,英文比中文稳。
中文怎么用
Prompt 本身用中文下没问题,模型能读懂。但图片「里面」要出现中文字就要特别处理。
图内中文的现状
社区实测(非官方数据):Nano Banana 生成图片内的中文字准确率只有七成多,常见问题是缺笔画、字序错、字形模糊。

这个问题在 Nano Banana 2 有改善,但没有完全解决。
提高图内中文准确率的技巧
1. 把要放进图里的字用引号包起来,明确标示
「设计一张海报,画面中央有「认真玩 AI」四个大字,简体中文,字体清晰锐利。」
2. 指定 4K 输出
分辨率越高,细笔画越不容易模糊:「请输出 4K 分辨率,确保文字清晰。」(需要付费方案才能真的出 4K)
3. 构图用英文、文字字段用中文
把图片的场景、风格、光线用英文描述(英文训练数据密度高,这部分生成比较稳),只在「要显示的文字」那个字段放中文字。
4. 实在不稳的字,先让 AI 用构图占位,再拿去 Canva 叠中文文字层
这个方案绕路但实际:AI 管构图和风格,文字用现有排版工具处理,质量稳得多。
免费版 vs 付费方案
| 免费版 | Google AI Pro(约 US$19.99/月) | |
|---|---|---|
| 每日生图量 | 约 20 张(高峰缩水) | 约 100 张 |
| 最高分辨率 | 1K | 4K |
| 角色一致性 | 有 | 有 |
| 对话式修图 | 有 | 有 |
| API 访问 | 需另行计费 | 有免费配额 |
另外还有 AI Plus(US$7.99/月)和 AI Ultra(US$249.99/月),各有不同配额和功能组合,以官方最新公告为准,这个数字 Google 调整频率高。
API 的话,Nano Banana 2 每张图约 US$0.039–0.07,大量生图的开发者可以这样算成本。
所有 Nano Banana 输出的图片都带有 Google 的 SynthID 隐形水印和 C2PA 来源标记,标示这是 AI 生成的内容。显示上看不出来,但技术层面是有记录的。
跟其他工具比
vs Midjourney:Midjourney 的艺术风格控制和画质上限比 Nano Banana 强,在「美感」上仍是公认的高水准。但 Midjourney 没有免费版(需要订阅),图内文字是它的弱点,也没有对话式修图。如果要的是艺术感和风格细腻度,Midjourney 值得订;如果要的是修图和整合进工作流,Nano Banana 直观很多。
vs GPT Image(ChatGPT):GPT Image 的写实人物生成能力强,2026 年 4 月 GPT Image 2 上线后一度在 Image Arena 排行榜拿榜首。两者都支持对话式修图,能力接近。主要差异在生态:Nano Banana 整合在 Gemini 应用、可以搭配实时网络搜索一起用;GPT Image 在 ChatGPT 环境。如果你本来就用 ChatGPT,GPT Image 切换成本低;如果用 Gemini,Nano Banana 就是最自然的选择。
vs Stable Diffusion:Stable Diffusion 的优势是本地运行、真正免费(跑起来之后)、加 ControlNet 可以精细控制构图。代价是需要自己搭环境、调模型、选 LoRA,技术门槛明显较高。Nano Banana 是开箱即用,没有这些学习成本。两个定位不同,不是谁比较好的问题。
学生的话可以先看看有没有资格用 Gemini 学生方案,付费条件可能更优惠。
结论
Nano Banana 的定位很清楚:进场门槛最低的 AI 修图入口。免费、免安装,Google 账号就能开,这三点对想试试 AI 生图的人是很大的加速器。
怎么选比较快:想做 对话式修图(上传照片口语改)→ 先用 Nano Banana 免费版,绝大多数日常需求够用;想做系列角色或分镜→ 同样是 Nano Banana 2,角色一致性做得不错;想要顶级艺术风格和细节控制→ Midjourney 的位置没被取代;想在图片里放中文字→ 先跑 Nano Banana 试试,不稳的话用 Canva 补一层文字比较实际,别花太多时间跟 AI 的中文渲染较劲。
图内中文这个坑在 Nano Banana 2 目前仍然存在,改善速度还有待观察,以官方公告为准。
延伸阅读
整理:Penna|小企鹅 Penchan