Google 5/19 在 I/O 2026 发布 Gemini 3.5 Flash,当天就在全球正式上线。

我自己打开 Gemini App、AI Studio、API 三边都试过一轮,可以讲的东西比想象中多:哪边已经切过去、哪边还在排队、跟前一代和自家旗舰比实际差在哪。这篇就是直接给你能拿来用的那部分。

4 个地方都能切到 3.5 Flash

我把目前能拿到 3.5 Flash 的入口列下来,顺手写怎么开。

1. Gemini App(消费者版)

直接打开 gemini.google.com,左上角模型下拉选 3.5 Flash 就好。台湾 release notes 5/19 那条写得很白:select 3.5 Flash from the model drop-down。如果你的版本还没推到,几天内会自动换。

2. Google AI Studio(免费试 API)

aistudio.google.com,登录之后选 3.5 Flash 开新 chat。台湾在 Google 的 available regions 清单里,没被拦。免费额度足以做小型试跑,要拿来跑生产线就得转 API。注意:免费 plan 的对话 Google 会拿去 improve products,付费 API 不会。这是 Google 自己在 pricing 页写明的政策差异。

3. Gemini API(developer 用)

model code 是 gemini-3.5-flash。直接调用就行,不需要白名单。三档 mode 可选:Standard 一般、Flex 非即时批次、Priority 对延迟敏感的线上场景,详细条件直接看 Google Gemini API 文档

4. Gemini Enterprise Agent Platform(企业)

Google Cloud 走的是新的 Gemini Enterprise Agent Platform,3.5 Flash 模型页上面 Cloud model ID 跟支持能力都列得很整齐。要注意一个容易踩的细节:ML processing 跑在 US 跟 EU multi-region。「在某个地区能用」跟「数据在那个地区处理」是两件事,企业采购要拉数据落地条款的话,这条要先问清楚。

这次升级到底带来什么

Google 自己给的 benchmark 表是这样(数字来自 DeepMind 3.5 family page3.5 Flash 模型页):

BenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 Pro看什么
Terminal-bench 2.176.2%58.0%70.3%命令行 agent
MCP Atlas83.6%62.0%78.2%工具调用
OSWorld-Verified78.4%65.1%76.2%桌面操作 agent
Finance Agent v257.9%42.6%43.0%财务分析任务
SWE-Bench Pro Public55.1%49.6%54.2%真实 GitHub bug fix
MMMU-Pro83.6%81.2%80.5%多模态推理
CharXiv Reasoning84.2%80.3%83.3%图表理解
MRCR v2 128k avg77.3%67.2%84.9%长上下文召回
Humanity’s Last Exam40.2%33.7%44.4%高难度推理
ARC-AGI-272.1%33.6%77.1%抽象推理

对前代 Gemini 3 Flash,3.5 Flash 在「让 AI 自己用工具」这块几乎是换代差距,表格上看得最明显。Google 这次重新训的时候,主轴显然就放在这。

对自家旗舰 Gemini 3.1 Pro,3.5 Flash 在写代码、让 AI 自己用工具、处理图片视频等项目反超,但有 3 个地方 3.1 Pro 仍领先:长文章记忆力最高难度的综合推理抽象逻辑。表格最下面三列就是 Pro 的主场。

我自己的解读:3.5 Flash 是给「需要 AI 连续多步骤自己做事、反复改」这类场景用的;3.1 Pro 还是更适合「丢一份很长的 PDF 进去做深度分析」这种需要慢慢想的场景。Google 也没把 3.1 Pro 页面 下架,看得出不打算让 3.5 Flash 取代 Pro。

第三方测试怎么看

Google 自己给的数字当然会挑选,第三方测试比较有意思。

Artificial Analysis 5/19 报告 给 Gemini 3.5 Flash 的综合能力评分比 Gemini 3 Flash 明显高一个等级,回复速度比同级对手快约 4 倍,幻觉率也有下降(不过后面我会再聊)。图片视频理解的表现更直接创了他们记录里的最高。

OpenLM Chatbot Arena+ 5/18 的快照(基于 600 万以上人类盲测投票)把 Gemini 3.5 Flash 放进第一群,跟 GPT-5.5、Claude Opus 4.7 Thinking、Gemini 3.1 Pro 挤在一起。

注意:Arena 是人类偏好评分,不是纯能力指标。意思是「人类在盲测时投给它的票」跟顶端模型差不多,但不代表每件事都赢。把它当「多数用户觉得它的回复好不好用」就好。

这 3 件事目前还是美国限定

这次 I/O 的真正主菜是 agent 工具链,但其中最有感的几个功能目前都是美国限定。先讲清楚免得期待落空。

Gemini Spark:Google 力推的「24/7 always-on agent」。官方说明是 AI Ultra 订阅限定 + 美国限定,先给 trusted testers 再开美国 beta。Spark 会持续在后台做事,看你的 Calendar 排日程、看 Gmail 整理 task、有事再主动汇报。台湾订阅页也把 Spark 标 US only, English only。

Daily Brief:根据连到的 Gmail / Calendar 自动生成日报。美国限定。

AI Inbox in Gmail:自动从邮件生成 actionable 任务。美国限定。

现在能做的最实际的事是:开 Gemini App,看版本是不是已经换成 3.5 Flash(还没的话,几天内会自动推)。然后丢一个你平常会丢给旧版的问题试试看,比较速度跟答案的具体程度。我自己丢了「帮我分析这份 PDF 的三个风险点」,3.5 Flash 答出来的东西比旧版有 layer,速度也明显快。

3.5 Flash vs 3.1 Pro 该选哪个

这是我觉得最多人会问的问题。直接给结论:

选 3.5 Flash,如果你的场景是:

  • 需要 AI 连续多步骤自己用工具(例如反复改代码、自己查资料、跑完整任务链)
  • 需要回复速度快、互动感强的场景
  • 把图片、视频、PDF 丢进去产出文字摘要或分析
  • 预算有限、可以接受非即时回复的大量任务

选 3.1 Pro,如果你的场景是:

  • 丢 100 页以上长文件做深度分析(长文章记忆力 3.1 Pro 还是领先)
  • 需要最高难度的推理(最难的综合考试 3.1 Pro 仍胜出)
  • 创意性任务、需要慢慢想的内容(Google 自己也把 3.1 Pro 定位在这类场景)

如果还在犹豫,我会建议用 AI Studio 同时开两个 chat,把实际的工作丢进去比一比。半小时就知道哪个合用。

顺带一提,Gemini 3.5 Pro 还没上线。Google 在 launch 博客写的是「next month」,DeepMind 家族页面写「3.5 Pro coming soon」。对应就是 2026 年 6 月。任何在这之前说 3.5 Pro 已经 GA 的文章请当参考用就好。

这次的隐忧:Spark 的隐私模型

聊完能用什么,讲一下我看到值得记下来的隐忧。

The Verge 5/20 这篇 是我觉得这次 I/O 最值得读的英文评论。论点很简单:Google 这次发布的 agent 路线图,核心前提是「你愿意让 AI 连到你的 Gmail、Calendar、Drive、Photos、Search history、YouTube history」。Spark、Daily Brief、Personal Intelligence 全都建在这个前提上。

The Verge 没说「Google 偷你数据」,那是错误的框架。它说的是:OpenAI、Anthropic 都做 connector,但 Google 的差别是它本来就坐在你的 Gmail、Docs、Photos 上面。它要连的,是它自己的数据。意愿是 opt-in 没错,问题是 opt-in 之后,你信不信任这套系统不会出错、不会被 prompt injection、不会把错的邮件发出去。

Spark 还没开放美国以外的市场,这反而给了我们一段观察时间,看美国 beta 会踩到什么坑。等其他地区版本排到再决定要不要连 Gmail,没差。

如果在意自己丢进去的内容不被拿去训 model,付费 API 是最确定的方式。Google 在官方文档明确写:免费 plan「Used to improve our products」是 Yes,付费 tier 是 No。

小企鹅的看法

老实说,这次 I/O 没让我太兴奋。

3.5 Flash 确实快、确实会用工具,benchmark 也很漂亮。但 Google 把 agent 工具链这条路线推得这么用力,背后的前提是用户要愿意把 Gmail、Calendar、Drive、Photos 连上去。这在美国能不能跑得起来都还是问号,更别说其他地区用户要不要接。Spark 还没开放美国以外的市场,反而给了大家一段观察期。

对个人用户来说,App 直接给你用 3.5 Flash,速度跟工具调用能力都比旧版好,先试再说。对进阶用户跟开发者来说,这代表「让 AI 24 小时在后台做事」的可行性提早到位,但这种「always-on AI 全程跟着你」的模式,还是要等更多 beta 反馈。

还有一个 Google 在这次 I/O 没拿出来讲的问题:幻觉。3.5 Flash 发布前我在 Threads 写过一篇 讲 Gemini 3.1 幻觉严重的问题(每次都被 Opus + ChatGPT 抓包),3.5 上线后我又跑了一轮实测加上看社区讨论,这个问题没解决。Artificial Analysis 测到 3.5 Flash 幻觉率比 3 Flash 低了 31 个百分点,方向是对的。离真的解决幻觉问题还很远。学术引用、法规条文、技术文件、财务数字这种需要事实精准的场景,Gemini 跑一次就信仍然不安全,多走一轮外部验证才保险。

Penchan 5/18 Threads 观察:Gemini 3.1 幻觉一大堆,每次都被 Opus + ChatGPT 抓包

3.5 Pro 下个月才出。在那之前任何说「Gemini 3.5 全家上市」的文章,要么是看了发布会没看清楚,要么就是 AI 写的。

回到 Pillar

这篇是 Gemini 中文教程 的延伸更新。想看订阅方案怎么选请看 Gemini 免费版 vs Google AI Pro,要对比 ChatGPT 看 Gemini vs ChatGPT,想进一步看 agent 工具链怎么选看 AI Agent 工具比较

主要参考来源