GPT-5.4:OpenAI 的专业工作革命
引言
3月5日,OpenAI发布了GPT-5.4。距离GPT-5.3 Instant才两天,但快不代表草率。这次带来了一个关键突破:原生Computer Use能力。
什么意思?GPT-5.4现在可以“看到”你的屏幕截图,然后像人一样操作鼠标和键盘。不是给建议,是真的帮你干活——跨应用、多步骤、自主执行。
这不是渐进式改进,是从“对话助手”到“自主代理”的范式转换。
核心特性
原生Computer Use
先说最炸裂的。
GPT-5.4能看懂屏幕截图,理解当前状态,然后发出键盘和鼠标指令,跨应用执行复杂工作流。这直接对标Anthropic的Claude Computer Use,而且来势汹汹。
专业任务跑分
GDPval基准测试,GPT-5.4拿了83%。什么概念?
- GPT-5.2是70.9%
- 人类专业水平基准是72.4%
- GPT-5.4直接超过人类10.6个百分点
OSWorld-Verified测试(真实计算机操作任务),GPT-5.4拿了75%,同样超过人类的72.4%。
注意,这不是“接近人类”,是“超越人类”。在知识工作、编码、文档处理这些任务上,GPT-5.4已经比专业人士更可靠了。
Token效率
GPT-5.4是OpenAI迄今为止最省token的推理模型:
- 某些任务token消耗减少47%
- 错误率降低18%
- 幻觉减少33%
对企业用户来说,这些百分比会转化为实实在在的成本节省。
代理工作流
GPT-5.4整合了推理、编码和代理能力,支持1M tokens上下文,优化了工具选择,更好地处理表格、文档、演示文稿。
Computer Use到底能干嘛
底层逻辑是视觉理解、动作生成、状态追踪和错误恢复。说人话就是:它能看懂屏幕,操作鼠标键盘,记住上下文,自己修正错误。
实际能做的事:自动填表单,跨应用复制数据,执行多步骤操作,在复杂UI里导航。
编码方面继承了GPT-5.3-Codex的能力,代码生成更准确,错误检测更好,支持复杂重构。
跟Claude比一下
GPT-5.4的发布明显是冲着Anthropic来的:
| 特性 | GPT-5.4 | Claude |
|---|---|---|
| Computer Use | 原生支持 | 已支持 |
| 上下文窗口 | 1M tokens | 200K tokens |
| 专业任务表现 | 83% (GDPval) | 未公开 |
| Token效率 | 专门优化 | 标准 |
当然,纸面数据不代表一切,实际体验还得看场景。
实际场景
你在处理一个复杂的数据分析任务,以前需要在Excel、Python、PowerPoint之间来回切换,手动复制粘贴数据。现在?告诉GPT-5.4你要什么,它自己搞定。
或者代码审查。有人提交PR,GPT-5.4自动分析代码、运行测试、检查风格,然后在PR里留评论。测试通过?自动合并。
这不是科幻,Computer Use让AI真的能干活,不只是聊天。
社区反馈
发布两天后推特上炸了,反馈很分裂。
有人说在Cursor里用GPT-5.4编码体验太爽了,代理能力确实强,自动验证和修复循环很靠谱,速度快,回复也更像人了。
但批评也不少。最狠的一条:1M上下文是个笑话,超过256K性能就崩了,更像是计费窗口而不是真正的上下文。还有人抱怨太啰嗦,过度解释,有时候overthinking。前端设计还是弱,视觉好但实现差。安全过于保守,谨慎到输出无用。
有人直言:对独立开发者改变不大,因为大家都固定用一个模型。但对需要代理能力的企业用户?这确实是个game-changer。
配合OpenClaw能做什么
GPT-5.4的Computer Use,配合OpenClaw这样的代理框架,能做的事情很实在:
- 自动化博客发布:读草稿,生成封面图,优化SEO,推送到GitHub,监听CI/CD,部署成功后通知。一条龙。
- 代码审查流程:监听PR事件,分析代码,跑测试,生成报告,留评论。全自动。
- 数据分析报告:提取数据,生成图表,写报告,发到Slack。不用手动。
Computer Use + 代理框架 = 真正的自动化。这不是理论。
最后说两句
GPT-5.4不是常规升级。
Computer Use让AI从建议走向执行。83% vs 72.4%的跑分让AI从辅助走向超越。Token效率和可靠性的提升让企业级应用从实验走向生产。
两天前是GPT-5.3 Instant,今天是GPT-5.4。OpenAI的发布节奏在加速,方向很明确:自主AI代理。
这不是终点,是起点。
参考资料
- OpenAI官方博客:Introducing GPT-5.4
- Mashable: GPT-5.4 arrives on ChatGPT
- Ars Technica: OpenAI introduces GPT-5.4 with more knowledge-work capability
- Fortune: OpenAI launches GPT-5.4, its most powerful model for enterprise work
本文基于2026年3月5-6日的公开信息撰写