2026年2月20日

Gemini 3.1 Pro 出来了，聊聊我的实际体感

昨晚刷 Twitter 看到 Google 发了 Gemini 3.1 Pro，ARC-AGI-2 跑到 77.1%，比上一代翻了一倍多。第一反应是：又来？上个月 3 Pro 才刚稳定下来。

不过看完数据，我承认这次确实不是挤牙膏。

Artificial Analysis 智能指数对比：Gemini 3.1 Pro 领跑

先说最炸的：ARC-AGI-2 成绩

ARC-AGI-2 这个测试比较特殊，它考的是模型碰到全新逻辑模式时的现场推理能力，不是背答案。人类平均水平大概 60-70%。

各家成绩：

ARC-AGI-2 排行榜

从 31% 到 77%，这个跳跃幅度确实离谱。不过我对这个数字有点保留意见——ARC-AGI-2 的测试集不算大，而且 Google 自己肯定针对性优化过。实际使用中能不能稳定发挥这个水平，得再观察。

Google 官方 16 项 Benchmark 对比

说实话，性能提升我没那么兴奋，真正让我坐直的是价格：输入 $2/M tokens，输出 $4-18/M tokens。

对比一下：Claude Opus 4.6 输入 $15、输出 $75，GPT-5.2 输入 $10、输出 $30。Gemini 便宜了 5-7 倍，性能还不差。

我拿一个实际的代码重构任务试了下——500 个文件的 Python 项目，提取公共逻辑。Gemini 花了 $0.45，Claude 花了 $2.80。代码正确率 Claude 高一点（91% vs 87%），但六倍的价差摆在那里，个人项目我肯定选便宜的。

生产环境另说，4% 的正确率差距在大项目里可能意味着几个小时的 debug。

3.1 Pro 加了三档思考模式——Low、Medium、High。我拿同一道逻辑题测了下，Low 模式 3 秒出结果，High 模式要 40 秒，准确率从 82% 到 94%。

听起来不错，但这个设计本质上就是让你自己选“花多少钱买多少准确率”。问题是，你在提问之前怎么知道这道题该用哪档？大部分时候我都是先用 Medium，发现不对再切 High，等于白跑了一次。

1M tokens 的上下文窗口是 Gemini 的老优势了。我试了一份 600 页的技术手册，让它做跨章节引用，准确率大概 89%，比上一代好了不少。

但要注意，长上下文不等于“什么都往里塞就行”。我试过把一整个项目的代码全丢进去让它分析，结果它对中间部分的代码明显不如头尾敏感。这个问题不是 Gemini 独有的，所有长上下文模型都有类似的“中间遗忘”现象，只是程度不同。

发布第一天就用，肯定有坑：

这些都是新模型的常见问题，等两三周应该会好。

看你的场景：

适合切过去的：个人项目、原型开发、长文档处理、对成本敏感的批量任务。这些场景下 Gemini 3.1 Pro 的性价比碾压级的。

先别急的：生产环境、对代码正确率要求高的项目、需要稳定 API 的服务。等它稳定下来再说。

我自己的做法：日常探索和个人项目切到 Gemini，正经写代码还是用 Claude。不是说 Gemini 写代码不行，而是 Claude 在代码细节上确实更靠谱一点，这 4% 的差距在我的工作流里值那个价差。

Google 这个定价策略摆明了要打价格战。$2/M 的输入价格，其他家要么跟要么丢份额，接下来几个月应该会看到一波降价潮。对用户来说是好事，对行业利润率就不好说了。

Artificial Analysis 完整 Benchmark 评估

数据基于 2026-02-20 测试，标准 API 调用，无特殊优化。