2026年5月14日

GPT-5.5 使用体验


这不是严肃评测,也不是实验室报告。我只关心一件事:GPT-5.5 放进真实开发流里,到底好不好用。

结论很直接:好用,而且足够成熟。我现在会把 Codex + GPT-5.5 当主力开发工具。但它也有明显短板,尤其是安全约束,有时候会打断正常节奏。

参数跑分

参数量 OpenAI 没公布,所以不猜。更实际的是上下文、价格和公开跑分:Codex 里是 400K context window,API 侧官方说后续会到 1M;价格是输入 5 美元 / 百万 tokens,输出 30 美元 / 百万 tokens。不便宜,但如果能少返工,这个账还能算。

跑分我整理了一张图,用的是 OpenAI 官方发布页的数据。

GPT-5.5 与 GPT-5.4 的公开跑分对比

GPT-5.5 不是全面暴打 GPT-5.4。SWE-Bench Pro 从 57.7% 到 58.6%,GDPval 从 83% 到 84.9%,都只是小幅提升。真正值得看的是 Terminal-Bench 2.0 从 75.1% 到 82.7%,这更接近我的实际体感:它不只是会写代码,而是更会在终端、文件、报错、项目结构之间来回走。

5.5 与 5.4 相较的进步

GPT-5.5 最大的变化是更稳。GPT-5.4 已经能看文档、拆任务、写解释,但在代码项目里有时还是有点“助手味”:分析很多,动手偏慢。

GPT-5.5 在 Codex 里更像直接进现场。你让它修一个问题,它更容易先看目录、引用链、配置,再决定改哪里,而不是只盯着报错文件打补丁。真实开发里,报错经常只是尸体,案发现场在别处。

长任务里的状态保持也更好。它不会永远不忘,但多轮修改时更容易记住前面的约定,比如不要动生成文件、保持缩进风格、只提交指定文件。这种稳定性,比单项跑分涨一点更有价值。

工具感也更强。它知道什么时候读文件,什么时候看 diff,什么时候跑检查,什么时候停下来说明风险。这是我愿意把它放进 Codex 的核心原因:它更像能一起干活的人。

安全性

这块我不太满意。

GPT-5.5 的安全和道德约束偏重。平台设线可以理解,模型能力越强,风险越大。但对开发者来说,很多正常工程问题本来就长得“不安全”:系统权限、网络代理、漏洞复现、日志排查、自动化脚本。脱离上下文看敏感,放回项目里就是日常工作。

最烦的是它偶尔会先教育你,再判断你是不是坏人,最后才回答一点边角料。这种体验很割裂。模型已经很强了,安全策略也应该更会看上下文,而不是看到几个词就踩刹车。

好在 Codex 场景里问题轻一些。文件、diff、命令输出能把意图讲清楚,模型更容易判断你是在修项目,不是在搞奇怪的东西。离开这个上下文,泛聊天里的约束感就明显多了。

总结

GPT-5.5 不是那种看 demo 会惊掉下巴的升级,它更像一次成熟度升级:更稳,更能接长任务,更少在多轮上下文里掉线。

如果你只看跑分,它相对 GPT-5.4 是稳步提升;如果你在 Codex 里写代码,体感会更明显。它更会读项目,更会拆任务,也更能根据检查结果继续修。

所以我的结论很简单:GPT-5.5 不是神,但已经足够当主力开发模型。成熟,顶级,能干活。安全约束再细一点,就更好了。

参考资料

本文基于 2026-05-14 的公开信息和个人使用体感整理。