2026年4月24日

GPT-5.5 重创 Anthropic?


GPT-5.5 横空出世

GPT-5.5 总算出来了,经过奥特曼一番打磨,万众期待(好吧至少我在等)。

先说钱,不便宜。API 输入 5 刀 / 百万 tokens,输出 30 刀,比 5.4 贵了,开了 xhigh 和 fast 以后更狠,20xpro 也扛不住,随便用用就见底了。但 OpenAI 那边的说法很清奇:这次模型指哪打哪,返修次数少了,所以理论上花的钱反而更少——这逻辑我品了半天,也不是完全没道理。修三次才对的活一次搞定确实省了,但前提是你得信它能一次搞定。

GPT-5.5 与 GPT-5.4 的公开跑分对比

实际体感上倒是没骗人,GPT-5.5 跟 5.4 比最明显的就是更稳更不会瞎绕,代码场景尤其明显,让干嘛就干嘛,不会想半天憋一段分析然后改了一行注释算完。指哪打哪这个说法,这版倒是真沾边了。

OpenAI 与 Anthropic 的恩怨

说到 OpenAI 就绕不开 Anthropic。

先纠正一个常见误解:不是 Anthropic 的人离职创立了 OpenAI,方向是反的。OpenAI 2015 年成立,Anthropic 是 2021 年由一群 OpenAI 的前员工创立的——Dario Amodei、Daniela Amodei 兄妹带队,当时 Dario 是 OpenAI 的研究 VP。他们离开的原因主要是理念分歧,觉得 OpenAI 不够重视安全,于是自己出来干了。

从此两家就杠上了,人才互相挖,模型互相对标,发布会前后脚。有个江湖传闻说在某次会议上奥特曼不愿意跟 Dario 一起举手合影——我没找到确凿视频,但这种八卦能流传本身就说明火药味在。

跑分这边,GPT-5.5 对 Opus 4.7(Anthropic 最新旗舰):

坦白说我手里没有直接贴 GPT-5.5 vs Opus 4.7 的完整 benchmark 图。但从各方向跑分来看,GPT-5.5 在代码相关场景——SWE-Bench、Terminal-Bench——优势明显,OpenAI 的工程底子还在,Opus 4.7 在长文档理解、创意写作、推理链条上不弱,安全性也更符合 Anthropic 一贯的“宪法 AI”风格。两家现在是各有侧重,不是一方全面碾压。

我更喜欢 OpenAI,而不是 Claude

理由很简单:Anthropic 对华态度太激进。

23 年我就注册了 Anthropic,拿 Claude 润色简历,当时说实话效果比 GPT 和 Gemini 都好,我印象很深,但接下来就是三连封号——前后三个号,登陆秒封,没有任何解释。我不觉得这种态度是想要收集用户反馈,也不想在这种平台上继续投时间成本。

当然 Anthropic 后面官宣了:2025 年 9 月起停止向中国等国家控制的实体销售产品,理由是国家安全。行吧,理由归理由,体感就是不好。

转头用了 GPT,这几个月发展势头确实猛——OpenAI 公开的 benchmark 里,5.5 在 Terminal-Bench 2.0 上拿了 82.7%,FrontierMath Tier 1-3 是 51.7%,两项都压着 Opus 4.7 和 Gemini 3.1 Pro。英国 AI Security Institute 测下来,5.5 在专家级网络安全任务上通过率 71.4%,比 Claude Mythos 的 68.6% 高出一截。ZDNET 给了 93/100,评价是 agentic coding、概念清晰度、科研能力和知识准确性都有明显进步。日常体感也对得上——写代码更少返工,推理不会半路跑偏,理文档也能抓住重点。5.4 已经很好用了,5.5 更顺手,配合 Codex 开发我现在基本用它当主力。安全约束是有,但不像 Claude 那样动不动给你上政治课。

GPT-5.5 不是神,但指哪打哪是真的,希望再接再厉吧。

如果你有多个官方 / 中转站账号,常常要开很多窗口来管理不同的 agent session 上下文,推荐试试我的开源项目 pad——一个 tmux 里的 AI agent 工作台,一个界面管理所有 agent session,不用满屏找窗格,瞟一眼就知道哪个跑完了该接着干活。纯 Rust,3.7MB,两百多星,MIT 开源。

PAD 全景截图

本文基于 2026-04-24 的公开信息和个人使用体感。