GPT-5.4:OpenAI 的专业工作革命
引言
3 月 5 日,OpenAI 发布了 GPT-5.4。它离 GPT-5.3 Instant 只隔了两天,所以第一眼看上去很像一次节奏很快的小版本更新。
但这次真正值得看的,不是名字里的 0.1,而是 Computer Use。
简单说,模型不只是在聊天框里给你建议。它可以读取屏幕截图,理解当前界面,再给出鼠标、键盘一类的操作。也就是说,它开始从“回答问题”往“接手流程”靠近。
这次更新的重点
Computer Use 变成核心能力
GPT-5.4 的 Computer Use 不是一个孤立演示。它把视觉理解、状态判断和动作生成放进同一条链路里。
一个实际例子是:模型看到当前屏幕,知道表格在哪、按钮在哪、下一步该点哪里。如果中途页面变了,它还要重新判断,而不是机械地执行固定脚本。
这类能力以前更像 RPA 或浏览器自动化。区别在于,传统脚本需要你提前写清楚每一步;Computer Use 更像是让模型自己读现场。

这张图可以理解成一个循环:先看屏幕,再判断状态,然后执行鼠标键盘动作,最后检查结果。如果失败,就回到当前状态重新规划。
专业任务表现更强
公开信息里提到,GPT-5.4 在 GDPval 上拿到 83%,高于 GPT-5.2 的 70.9%,也高于人类专业水平基准的 72.4%。
OSWorld-Verified 这类真实计算机操作任务里,它的结果是 75%,也超过了 72.4% 的人类基准。
这些数字可以说明一件事:模型已经不只是写几段文本或补几行代码,它开始能处理更完整的知识工作任务。
但我会谨慎看这些跑分。基准测试能反映趋势,却不等于你的具体工作流一定稳定可用。真正要看的是:它能不能连续跑完任务,出错后能不能自己修回来,以及你愿不愿意把权限交给它。
Token 成本更可控
GPT-5.4 还强调了 token 效率。公开说法里包括:
- 部分任务 token 消耗减少 47%
- 错误率降低 18%
- 幻觉减少 33%
这几项对个人用户可能没那么敏感,但对企业很关键。代理工作流一旦跑起来,模型调用会很多,成本和错误都会被放大。
所以 GPT-5.4 的价值不只是“更聪明”,还包括“更适合长期跑”。
Computer Use 到底能做什么
可以把它拆成四件事:
- 看懂屏幕
- 判断当前状态
- 生成操作动作
- 发现错误后调整
放到真实工作里,它可以自动填表、跨软件搬运数据、整理文档、跑后台流程,也可以在复杂网页里一步步导航。
编码场景也类似。它不只是生成代码,还可以打开项目、看报错、改文件、跑检查,再根据结果继续修。
这才是 Computer Use 最有意思的地方:它让模型进入了原本属于人的操作界面。
跟 Claude 的关系
这次发布很难不让人想到 Claude Computer Use。
| 特性 | GPT-5.4 | Claude |
|---|---|---|
| Computer Use | 原生支持 | 已支持 |
| 上下文窗口 | 1M tokens | 200K tokens |
| GDPval | 83% | 未公开 |
| Token 效率 | 明确强调 | 常规优化 |
纸面上,GPT-5.4 的上下文和跑分更抢眼。但实际选择模型时,我不会只看表格。
更重要的是:你的任务是不是需要长期上下文?是不是需要频繁调用工具?模型出错时,你有没有足够的回滚和审计机制?
没有这些保护,Computer Use 越强,误操作的风险也越大。
更现实的使用场景
我觉得 GPT-5.4 最适合三类任务。
第一类是重复但不完全固定的流程。比如整理表格、填后台、从网页复制信息到文档。这些任务写脚本嫌麻烦,纯人工又浪费时间。
第二类是多工具串联。比如从 Excel 取数,用 Python 处理,再生成图表和 PowerPoint。过去你得在几个软件之间来回切,现在可以让模型按目标推进。
第三类是代码代理。它可以读 PR、跑测试、检查失败原因、给出修改建议,甚至继续改代码。这里最重要的不是一次写对,而是能形成“检查-修复-再检查”的循环。
社区反馈
发布后的反馈并不完全乐观。
有人觉得 GPT-5.4 在 Cursor 这类编码环境里明显更顺,尤其是自动验证和修复循环,比之前更像一个能持续工作的代理。
也有人吐槽 1M 上下文没有想象中稳定,超过某个长度后效果会明显下降。还有人觉得它回答偏长,容易过度解释;前端实现仍然不够稳;安全策略有时也会让结果变得保守。
这些反馈其实不矛盾。模型能力在变强,但把它放进真实工作流后,问题也会更具体:速度、成本、权限、失败恢复,每一项都会影响体验。
配合 OpenClaw 可以怎么用
如果把 GPT-5.4 的 Computer Use 放进 OpenClaw 这样的代理框架里,想象空间会更大。
比如自动化博客发布:读取草稿,检查 frontmatter,生成封面图,优化标题描述,提交到 GitHub,观察 CI/CD,部署成功后通知你。
比如代码审查:监听 PR,分析改动,跑检查,生成评论。如果只是文案或小修复,甚至可以自动提交 patch。
比如数据报告:拉数据,清洗,画图,生成周报,再发到 Slack 或邮件。
这些不是单点能力,而是一条流程。Computer Use 的意义就在这里:它补上了“模型怎么真的去操作软件”这块拼图。

我更看重图里的校验和回滚。代理不是一路往前冲,而是每一步都要能检查结果;一旦错了,要能退回去重做。
最后说两句
GPT-5.4 不像一次普通模型升级。
它把重点从“模型能答什么”推向了“模型能做什么”。这也是过去一年 AI 产品变化最明显的方向:聊天框越来越不重要,代理流程越来越重要。
不过我不觉得它会马上替代专业人士。更现实的变化是:很多人会开始把一部分低风险、可回滚、可审计的工作交给模型。
先让它做小事,再让它接复杂流程。这个过程不会一夜完成,但方向已经很清楚了。
参考资料
- OpenAI 官方博客:Introducing GPT-5.4
- Mashable: GPT-5.4 arrives on ChatGPT
- Ars Technica: OpenAI introduces GPT-5.4 with more knowledge-work capability
- Fortune: OpenAI launches GPT-5.4, its most powerful model for enterprise work
本文基于 2026 年 3 月 5-6 日的公开信息撰写。