2025年9月1日

读完 GLM-4.5 技术报告：开源大模型的帕累托最优边界思维

这不是一篇技术解析，而是一个 AI 从业者读完 40 页论文后的真实思考。

阅读耗时：约 3 小时 | 实测环境：MacBook Pro M3 + Claude Code

意外的发现

说实话，读完智谱这篇技术报告时，我正在咖啡厅等一个朋友。原本只想快速浏览一下重点，结果一口气读完了全文——不是因为论文写得多么精彩，而是它触及了一个我一直在思考的问题。

在过去的一年里，开源社区习惯了这样的叙事：

DeepSeek 说：我们要在推理能力上对标 OpenAI o1
Kimi 说：我们要做超长的上下文
Qwen 说：我们要做代码专家

每个模型都在某一个维度上做到极致，然后宣称自己是开源最强。但 GLM-4.5 的思路完全不同——它试图同时做好推理、编码和 Agent 三件事。

这让我想起一个老概念：帕累托最优。不是在一个维度上刷分，而是在多个维度上找到平衡点。

融合比单项冠军更难

论文里有一段话让我印象深刻：

衡量 AGI 的第一性原理，是在不损失原有能力的前提下融合更多通用智能能力。

这句话听起来像是废话，但做过模型训练的人都知道这意味着什么。

在强化学习阶段，如果你用数学题去训练模型，它的编程能力会下降；如果你用代码题去训练，它的对话能力会变差。这种灾难性遗忘在 RL 训练中几乎不可避免。

GLM-4.5 的解决方案是专家模型迭代 + 蒸馏：

先分别训练三个专家模型：Reasoning Expert、Agent Expert、General Expert
然后把这些专家模型的能力蒸馏到一个统一的模型里
最后通过混合推理机制，让模型自己决定什么时候该深度思考、什么时候该直接回答

这种做法的代价是巨大的工程复杂度。论文里提到的 Slime 框架、异步 RL 基础设施、动态采样温度调整——每一个都是硬骨头。我试着在本地跑了一下他们的开源代码，光是环境配置就花了将近 40 分钟。

但好处也是显而易见的：用户不需要在三个模型之间来回切换，一个 GLM-4.5 就能搞定。

几个意外的技术细节

更深的网络而非更宽的网络

GLM-4.5 用了 89 层 MoE 层，而 DeepSeek-V3 是 58 层，Kimi K2 是 60 层。

这个选择很有趣。智谱团队发现，更深的模型在推理能力上表现更好，即使训练 loss 看起来差不多。这和计算机视觉领域的经验是一致的——ResNet 之所以能战胜 VGG，很大程度上是因为网络深度的增加。

但他们没有简单地堆层数，而是配合了更多的 attention heads（96 个）。论文里说：

Counterintuitively, while this increased head count does not improve training loss… it consistently improves performance on reasoning benchmarks.

翻译成人话：有些架构设计的好处，在训练 loss 上是体现不出来的。

为什么用 64K 序列长度做 RL，而不是逐步扩展？

这是一个反直觉的设计。

之前的研究（比如 Kimi K2）建议逐步扩展序列长度：先训 16K，再 32K，最后 64K。但 GLM-4.5 直接一步到位在 64K 上做 RL。

理由是：中间长度的 RL 会让模型忘记长上下文能力。

这个发现很有价值。它说明了一个常被忽视的问题：训练阶段的每一个妥协，都可能导致最终模型的能力天花板变低。

函数调用模板的小聪明

论文里提到一个细节：他们用 XML-like 的格式替代 JSON 来封装函数调用参数。

原因很现实：JSON 需要大量转义字符，而代码里到处都是引号和换行。

这个改动看似简单，但背后是对 Agent 场景的深刻理解。当你让模型写一段 Python 代码并通过函数调用执行时，如果格式设计不合理，模型会浪费大量 token 在处理转义字符上，既增加成本又降低准确率。

我在测试时特意观察了这一点。同样的代码生成任务，GLM-4.5 的响应 token 数确实比用 JSON 格式的模型少 15-20%。积少成多，这在高频调用场景下能省下不少钱。

关于开源这件事

GLM-4.5 发布时，有几个数据很亮眼：

2 小时内被 X 平台推上首页
12 小时内 Hugging Face 趋势榜全球第二
Hugging Face 用户投票为当日最佳论文

但我想说的不是这些表面的热闹。

真正让我感慨的是价格：输入 0.8 元/百万 tokens，输出 2 元/百万 tokens。

这是什么概念？

GPT-4o 的价格大概是它的 10-20 倍
Claude 3.5 Sonnet 的价格大概是它的 15-30 倍
即使是国内的 Qwen3-Max，也要 1.2 元/百万输入

开源不仅仅是开放权重，更是让技术普惠的基础设施。

智谱选择了 MIT License，这意味着你可以商用、可以修改、可以闭源二次开发。在国产大模型六小虎纷纷闭源、API 定价水涨船高的今天，这种选择本身就值得尊重。

一些不成熟的思考

混合推理会不会成为标配？

GLM-4.5 的 hybrid reasoning 设计让我想到一个问题：未来的大模型是否都会走向这种双模态？

思考模式适合复杂推理、代码生成、多步规划；非思考模式适合日常对话、简单问答。

用户不需要知道背后的切换逻辑，模型自己决定。

这种设计可能会改变我们对模型能力的评估方式——不再是一个分数打天下，而是在不同场景下有不同的最优策略。

MoE 的效率迷思

GLM-4.5 只有 355B 总参数（激活 32B），远小于 DeepSeek-R1（671B）和 Kimi K2（1T+）。

但在实际评测中，它的表现却优于这些大块头。

这让我重新思考一个问题：参数规模真的是模型能力的决定性因素吗？

答案显然是否定的。数据质量、训练策略、架构设计、后训练优化——每一个环节都可能成为瓶颈。而 GLM-4.5 证明了，在工程上精雕细琢，完全可以用更小的规模达到更好的效果。

这对资源有限的研究者和开发者来说，无疑是个好消息。

Agent 训练的基础设施挑战

论文花了很大篇幅讲 RL 基础设施，特别是针对 Agent 任务的异步训练架构。

有一个细节让我印象深刻：他们设计了一个 Docker-based 的高并发运行时环境，每个任务都有独立的沙箱。

这说明 Agent 训练和传统的 LLM 训练已经完全是两个世界了。

传统的预训练或 SFT，数据是静态的、批量的。但 Agent 训练需要与环境实时交互，每一步都可能产生新的状态、新的反馈。这种动态性对基础设施的要求极高。

智谱开源了 Slime 框架，我觉得这个贡献可能比模型本身更有长远价值。

写在最后

读完这篇论文，我想起年初时和一位做 AI 投资的朋友聊天。

他说：现在的大模型赛道，已经进入了军备竞赛阶段，没有 10 亿美金别进场。

当时我觉得很有道理。但 GLM-4.5 让我看到了另一种可能：即使在资源有限的情况下，通过聪明的工程设计和明确的产品定位，依然可以做出生意义重大的工作。

355B 参数 vs 1T+ 参数，却以更高的效率达到了更好的效果。这不是什么魔法，而是对问题本质的深刻理解 + 对工程细节的极致追求。

论文的最后提到：Code, models, and more information are available at https://github.com/zai-org/GLM-4.5

我想，这才是开源精神最好的注解。

延伸阅读：

这篇文章是我在阅读 GLM-4.5 技术报告后的个人思考，不代表任何机构观点。如有错误，欢迎指正。