2026年2月20日

GLM-5：从 Vibe Coding 到 Agentic Engineering，开源模型终于卷到这了

智谱发了 GLM-5，论文标题起得很大：「From Vibe Coding to Agentic Engineering」。简单说就是别再一句一句提示写代码了，让 agent 自己端到端搞定。

口号听多了容易免疫，但看完论文，这次智谱确实做了一些实在的东西。

先说结论

GLM-5 是目前开源模型里 agentic coding 能力最强的。SWE-bench Verified 65%+，Large Repo Exploration 65.6% 超过 Claude Opus 4.5 的 64.5%，Vending Bench 2 开源第一。

但它不是万能的。社区反馈最多的问题是这模型太“莽”了，给它一个目标它会不顾一切地往前冲，哪怕中间出了问题也不停。生产环境无人值守？还是算了。

架构：744B 参数，只激活 40B

MoE 架构，总参数 744B，推理只激活 40B。比上一代 GLM-4.5（355B/32B）规模翻倍，推理成本没有等比增长。

关键改动是引入 DSA（DeepSeek Sparse Attention），动态选择重要 token 做 attention，长序列计算成本降低 1.5-2 倍。agent 任务动辄分析几万行代码，不解决长上下文成本问题，推理费用扛不住，这个设计很务实。

异步 Agent RL

论文里最有意思的部分是 RL 训练基础设施 slime。核心思路：把生成和训练完全解耦，生成端持续产出 agent 轨迹，训练端有数据就训练，不互相等。解决了传统同步 RL 里 agent 做长 rollout 时训练 GPU 干等的老问题。

后训练：三阶段 RL + 跨阶段蒸馏

SFT → Reasoning RL → Agentic RL → General RL，四步走。为了防止后面阶段忘掉前面学的东西，用跨阶段蒸馏把每个阶段的 checkpoint 都当“老师”，最后统一蒸馏。效果是 agent 能力上去了，基础对话和推理没掉。

Benchmark 成绩

SWE-bench Verified：65%+，开源第一
Large Repo Exploration：65.6%，超过 Claude Opus 4.5（64.5%）
Vending Bench 2：最终账户余额 $4,432，开源第一，接近 Claude Opus 4.5

Large Repo Exploration 值得单独说。它要求模型在完全陌生的大型仓库里，根据业务语义描述找到特定文件，文件名故意起得很隐晦，藏在至少三层目录深处。这考的是真正的 agentic 信息搜索能力，GLM-5 在这上面超过 Claude，确实说明了一些东西。

定价：闭源的 1/5 到 1/8

GLM-5 的 API 定价大概是 Claude 的 1/5 到 1/8。agent 任务一个 episode 跑几十轮对话，token 消耗量巨大，价格差距会被放大。

不过便宜归便宜，前面说了，这模型有“莽”的问题。省下来的 API 费用，可能要花在人工 review 上。

我的看法

GLM-5 这篇论文最大的价值不在于某个 benchmark 刷了多少分，而在于它展示了一套完整的 agent 模型训练方法论：DSA 解决长上下文成本，异步 RL 解决训练效率，跨阶段蒸馏解决遗忘问题，10,000+ 真实 SWE 场景做可验证训练数据。这套方法论可复制，其他开源团队完全可以借鉴。

至于“从 Vibe Coding 到 Agentic Engineering”这个叙事，方向是对的，但现阶段还是过渡态。真正的 agentic engineering 需要模型能自主判断什么时候该停下来问人，而不是一路莽到底。GLM-5 在能力上到了，在判断力上还差一截。

不过话说回来，这是开源模型第一次在 agent 任务上真正逼近闭源前沿。半年前这还不可想象。

基于 arXiv:2602.15763，2026-02-17 发布。