2026年5月21日

Gemini 3.5 Flash:很快,但不再便宜得随便用


Google 这次的 Gemini 3.5 Flash,第一感觉就一个字:快。

不是“参数表看起来快”,是你真拿来写东西、改代码、让它拆任务时,那种等模型吐字的烦躁少了很多。Flash 终于不像低配版了,更像一个专门给 agent 干活的执行模型。

Gemini 3.5 官方封面

快到会改变使用习惯

Google 官方说,3.5 Flash 在输出速度上比其他 frontier models 快 4 倍。Artificial Analysis 的数据也差不多,测到 280+ output tokens/s。

这件事对聊天没那么夸张。问答快一点,爽而已。

但对 agent 不一样。Agent 是一轮一轮跑的:规划、读文件、调用工具、改代码、再检查。慢一点,人就不想等。3.5 Flash 的速度让这个循环更顺,尤其在 Antigravity 这种多 agent 场景里,体感会被放大。

性能确实压到了 Pro 的地盘

Google 给的 benchmark 很猛:Terminal-Bench 2.1 76.2%,MCP Atlas 83.6%,GDPval-AA 1656 Elo。官方说它在 coding 和 agentic 任务上超过 Gemini 3.1 Pro。

Gemini 3.5 Flash 官方 benchmark

这个说法我信一半。

信的是:它做代码、前端原型、工具调用、多轮任务,明显不是老 Flash 那种“便宜能用”的定位了。推特上不少开发者反馈也是这个方向:快,聪明,拿来做 demo 和原型很顺。

不全信的是:超过 3.1 Pro 不等于所有场景都赢。长上下文检索、纯知识题、复杂推理,社区反馈没那么一致。它更像偏科生,偏的是现在最值钱的方向:coding + agent。

Artificial Analysis 速度/智能图

争议点也很明显:烧 token

推特上最常见的吐槽不是“它不行”,而是“它太能烧”。

Artificial Analysis 提到,3.5 Flash 单价比 Gemini 3 Flash 高了约 3 倍;因为 agent 任务轮次更多,跑完整评测的总成本比 Gemini 3 Flash 高 5 倍以上。开发者论坛里也有人吐槽 Antigravity 额度消耗太快,以前 Flash 能跑很久,现在几轮任务就见底。

这才是关键。

Flash 这个名字还在,但预算逻辑变了。以前是“便宜,所以先跑”。现在是“很快,也挺强,但要控住”。

参考