2026年3月7日

GPT-5.4：OpenAI 的专业工作革命

引言

3 月 5 日，OpenAI 发布了 GPT-5.4。它离 GPT-5.3 Instant 只隔了两天，所以第一眼看上去很像一次节奏很快的小版本更新。

但这次真正值得看的，不是名字里的 0.1，而是 Computer Use。

简单说，模型不只是在聊天框里给你建议。它可以读取屏幕截图，理解当前界面，再给出鼠标、键盘一类的操作。也就是说，它开始从“回答问题”往“接手流程”靠近。

这次更新的重点

Computer Use 变成核心能力

GPT-5.4 的 Computer Use 不是一个孤立演示。它把视觉理解、状态判断和动作生成放进同一条链路里。

一个实际例子是：模型看到当前屏幕，知道表格在哪、按钮在哪、下一步该点哪里。如果中途页面变了，它还要重新判断，而不是机械地执行固定脚本。

这类能力以前更像 RPA 或浏览器自动化。区别在于，传统脚本需要你提前写清楚每一步；Computer Use 更像是让模型自己读现场。

Computer Use 的观察、理解、执行、校验闭环

这张图可以理解成一个循环：先看屏幕，再判断状态，然后执行鼠标键盘动作，最后检查结果。如果失败，就回到当前状态重新规划。

专业任务表现更强

公开信息里提到，GPT-5.4 在 GDPval 上拿到 83%，高于 GPT-5.2 的 70.9%，也高于人类专业水平基准的 72.4%。

OSWorld-Verified 这类真实计算机操作任务里，它的结果是 75%，也超过了 72.4% 的人类基准。

这些数字可以说明一件事：模型已经不只是写几段文本或补几行代码，它开始能处理更完整的知识工作任务。

但我会谨慎看这些跑分。基准测试能反映趋势，却不等于你的具体工作流一定稳定可用。真正要看的是：它能不能连续跑完任务，出错后能不能自己修回来，以及你愿不愿意把权限交给它。

Token 成本更可控

GPT-5.4 还强调了 token 效率。公开说法里包括：

部分任务 token 消耗减少 47%
错误率降低 18%
幻觉减少 33%

这几项对个人用户可能没那么敏感，但对企业很关键。代理工作流一旦跑起来，模型调用会很多，成本和错误都会被放大。

所以 GPT-5.4 的价值不只是“更聪明”，还包括“更适合长期跑”。

Computer Use 到底能做什么

可以把它拆成四件事：

看懂屏幕
判断当前状态
生成操作动作
发现错误后调整

放到真实工作里，它可以自动填表、跨软件搬运数据、整理文档、跑后台流程，也可以在复杂网页里一步步导航。

编码场景也类似。它不只是生成代码，还可以打开项目、看报错、改文件、跑检查，再根据结果继续修。

这才是 Computer Use 最有意思的地方：它让模型进入了原本属于人的操作界面。

跟 Claude 的关系

这次发布很难不让人想到 Claude Computer Use。

特性	GPT-5.4	Claude
Computer Use	原生支持	已支持
上下文窗口	1M tokens	200K tokens
GDPval	83%	未公开
Token 效率	明确强调	常规优化

纸面上，GPT-5.4 的上下文和跑分更抢眼。但实际选择模型时，我不会只看表格。

更重要的是：你的任务是不是需要长期上下文？是不是需要频繁调用工具？模型出错时，你有没有足够的回滚和审计机制？

没有这些保护，Computer Use 越强，误操作的风险也越大。

更现实的使用场景

我觉得 GPT-5.4 最适合三类任务。

第一类是重复但不完全固定的流程。比如整理表格、填后台、从网页复制信息到文档。这些任务写脚本嫌麻烦，纯人工又浪费时间。

第二类是多工具串联。比如从 Excel 取数，用 Python 处理，再生成图表和 PowerPoint。过去你得在几个软件之间来回切，现在可以让模型按目标推进。

第三类是代码代理。它可以读 PR、跑测试、检查失败原因、给出修改建议，甚至继续改代码。这里最重要的不是一次写对，而是能形成“检查-修复-再检查”的循环。

社区反馈

发布后的反馈并不完全乐观。

有人觉得 GPT-5.4 在 Cursor 这类编码环境里明显更顺，尤其是自动验证和修复循环，比之前更像一个能持续工作的代理。

也有人吐槽 1M 上下文没有想象中稳定，超过某个长度后效果会明显下降。还有人觉得它回答偏长，容易过度解释；前端实现仍然不够稳；安全策略有时也会让结果变得保守。

这些反馈其实不矛盾。模型能力在变强，但把它放进真实工作流后，问题也会更具体：速度、成本、权限、失败恢复，每一项都会影响体验。

配合 OpenClaw 可以怎么用

如果把 GPT-5.4 的 Computer Use 放进 OpenClaw 这样的代理框架里，想象空间会更大。

比如自动化博客发布：读取草稿，检查 frontmatter，生成封面图，优化标题描述，提交到 GitHub，观察 CI/CD，部署成功后通知你。

比如代码审查：监听 PR，分析改动，跑检查，生成评论。如果只是文案或小修复，甚至可以自动提交 patch。

比如数据报告：拉数据，清洗，画图，生成周报，再发到 Slack 或邮件。

这些不是单点能力，而是一条流程。Computer Use 的意义就在这里：它补上了“模型怎么真的去操作软件”这块拼图。

AI agent 把目标拆成多工具流程，并在每一步做校验和回滚

我更看重图里的校验和回滚。代理不是一路往前冲，而是每一步都要能检查结果；一旦错了，要能退回去重做。

最后说两句

GPT-5.4 不像一次普通模型升级。

它把重点从“模型能答什么”推向了“模型能做什么”。这也是过去一年 AI 产品变化最明显的方向：聊天框越来越不重要，代理流程越来越重要。

不过我不觉得它会马上替代专业人士。更现实的变化是：很多人会开始把一部分低风险、可回滚、可审计的工作交给模型。

先让它做小事，再让它接复杂流程。这个过程不会一夜完成，但方向已经很清楚了。

参考资料

OpenAI 官方博客：Introducing GPT-5.4
Mashable: GPT-5.4 arrives on ChatGPT
Ars Technica: OpenAI introduces GPT-5.4 with more knowledge-work capability
Fortune: OpenAI launches GPT-5.4, its most powerful model for enterprise work

本文基于 2026 年 3 月 5-6 日的公开信息撰写。