GPT-5.4:OpenAI 的专业工作革命
2026年3月7日

GPT-5.4:OpenAI 的专业工作革命


引言

3月5日,OpenAI发布了GPT-5.4。距离GPT-5.3 Instant才两天,但快不代表草率。这次带来了一个关键突破:原生Computer Use能力

什么意思?GPT-5.4现在可以“看到”你的屏幕截图,然后像人一样操作鼠标和键盘。不是给建议,是真的帮你干活——跨应用、多步骤、自主执行。

这不是渐进式改进,是从“对话助手”到“自主代理”的范式转换。

核心特性

原生Computer Use

先说最炸裂的。

GPT-5.4能看懂屏幕截图,理解当前状态,然后发出键盘和鼠标指令,跨应用执行复杂工作流。这直接对标Anthropic的Claude Computer Use,而且来势汹汹。

专业任务跑分

GDPval基准测试,GPT-5.4拿了83%。什么概念?

  • GPT-5.2是70.9%
  • 人类专业水平基准是72.4%
  • GPT-5.4直接超过人类10.6个百分点

OSWorld-Verified测试(真实计算机操作任务),GPT-5.4拿了75%,同样超过人类的72.4%。

注意,这不是“接近人类”,是“超越人类”。在知识工作、编码、文档处理这些任务上,GPT-5.4已经比专业人士更可靠了。

Token效率

GPT-5.4是OpenAI迄今为止最省token的推理模型:

  • 某些任务token消耗减少47%
  • 错误率降低18%
  • 幻觉减少33%

对企业用户来说,这些百分比会转化为实实在在的成本节省。

代理工作流

GPT-5.4整合了推理、编码和代理能力,支持1M tokens上下文,优化了工具选择,更好地处理表格、文档、演示文稿。

Computer Use到底能干嘛

底层逻辑是视觉理解、动作生成、状态追踪和错误恢复。说人话就是:它能看懂屏幕,操作鼠标键盘,记住上下文,自己修正错误。

实际能做的事:自动填表单,跨应用复制数据,执行多步骤操作,在复杂UI里导航。

编码方面继承了GPT-5.3-Codex的能力,代码生成更准确,错误检测更好,支持复杂重构。

跟Claude比一下

GPT-5.4的发布明显是冲着Anthropic来的:

特性GPT-5.4Claude
Computer Use原生支持已支持
上下文窗口1M tokens200K tokens
专业任务表现83% (GDPval)未公开
Token效率专门优化标准

当然,纸面数据不代表一切,实际体验还得看场景。

实际场景

你在处理一个复杂的数据分析任务,以前需要在Excel、Python、PowerPoint之间来回切换,手动复制粘贴数据。现在?告诉GPT-5.4你要什么,它自己搞定。

或者代码审查。有人提交PR,GPT-5.4自动分析代码、运行测试、检查风格,然后在PR里留评论。测试通过?自动合并。

这不是科幻,Computer Use让AI真的能干活,不只是聊天。

社区反馈

发布两天后推特上炸了,反馈很分裂。

有人说在Cursor里用GPT-5.4编码体验太爽了,代理能力确实强,自动验证和修复循环很靠谱,速度快,回复也更像人了。

但批评也不少。最狠的一条:1M上下文是个笑话,超过256K性能就崩了,更像是计费窗口而不是真正的上下文。还有人抱怨太啰嗦,过度解释,有时候overthinking。前端设计还是弱,视觉好但实现差。安全过于保守,谨慎到输出无用。

有人直言:对独立开发者改变不大,因为大家都固定用一个模型。但对需要代理能力的企业用户?这确实是个game-changer。

配合OpenClaw能做什么

GPT-5.4的Computer Use,配合OpenClaw这样的代理框架,能做的事情很实在:

  • 自动化博客发布:读草稿,生成封面图,优化SEO,推送到GitHub,监听CI/CD,部署成功后通知。一条龙。
  • 代码审查流程:监听PR事件,分析代码,跑测试,生成报告,留评论。全自动。
  • 数据分析报告:提取数据,生成图表,写报告,发到Slack。不用手动。

Computer Use + 代理框架 = 真正的自动化。这不是理论。

最后说两句

GPT-5.4不是常规升级。

Computer Use让AI从建议走向执行。83% vs 72.4%的跑分让AI从辅助走向超越。Token效率和可靠性的提升让企业级应用从实验走向生产。

两天前是GPT-5.3 Instant,今天是GPT-5.4。OpenAI的发布节奏在加速,方向很明确:自主AI代理。

这不是终点,是起点。

参考资料

  • OpenAI官方博客:Introducing GPT-5.4
  • Mashable: GPT-5.4 arrives on ChatGPT
  • Ars Technica: OpenAI introduces GPT-5.4 with more knowledge-work capability
  • Fortune: OpenAI launches GPT-5.4, its most powerful model for enterprise work

本文基于2026年3月5-6日的公开信息撰写