读完 GLM-4.5 技术报告:开源大模型的帕累托最优边界思维
2025年9月1日

读完 GLM-4.5 技术报告:开源大模型的帕累托最优边界思维


这不是一篇技术解析,而是一个 AI 从业者读完 40 页论文后的真实思考。

阅读耗时:约 3 小时 | 实测环境:MacBook Pro M3 + Claude Code

意外的发现

说实话,读完智谱这篇技术报告时,我正在咖啡厅等一个朋友。原本只想快速浏览一下重点,结果一口气读完了全文——不是因为论文写得多么精彩,而是它触及了一个我一直在思考的问题

在过去的一年里,开源社区习惯了这样的叙事:

  • DeepSeek 说:我们要在推理能力上对标 OpenAI o1
  • Kimi 说:我们要做超长的上下文
  • Qwen 说:我们要做代码专家

每个模型都在某一个维度上做到极致,然后宣称自己是开源最强。但 GLM-4.5 的思路完全不同——它试图同时做好推理、编码和 Agent 三件事

这让我想起一个老概念:帕累托最优。不是在一个维度上刷分,而是在多个维度上找到平衡点。

融合比单项冠军更难

论文里有一段话让我印象深刻:

衡量 AGI 的第一性原理,是在不损失原有能力的前提下融合更多通用智能能力。

这句话听起来像是废话,但做过模型训练的人都知道这意味着什么。

在强化学习阶段,如果你用数学题去训练模型,它的编程能力会下降;如果你用代码题去训练,它的对话能力会变差。这种灾难性遗忘在 RL 训练中几乎不可避免。

GLM-4.5 的解决方案是专家模型迭代 + 蒸馏

  1. 先分别训练三个专家模型:Reasoning Expert、Agent Expert、General Expert
  2. 然后把这些专家模型的能力蒸馏到一个统一的模型里
  3. 最后通过混合推理机制,让模型自己决定什么时候该深度思考、什么时候该直接回答

这种做法的代价是巨大的工程复杂度。论文里提到的 Slime 框架、异步 RL 基础设施、动态采样温度调整——每一个都是硬骨头。我试着在本地跑了一下他们的开源代码,光是环境配置就花了将近 40 分钟。

但好处也是显而易见的:用户不需要在三个模型之间来回切换,一个 GLM-4.5 就能搞定

几个意外的技术细节

更深的网络而非更宽的网络

GLM-4.5 用了 89 层 MoE 层,而 DeepSeek-V3 是 58 层,Kimi K2 是 60 层。

这个选择很有趣。智谱团队发现,更深的模型在推理能力上表现更好,即使训练 loss 看起来差不多。这和计算机视觉领域的经验是一致的——ResNet 之所以能战胜 VGG,很大程度上是因为网络深度的增加。

但他们没有简单地堆层数,而是配合了更多的 attention heads(96 个)。论文里说:

Counterintuitively, while this increased head count does not improve training loss… it consistently improves performance on reasoning benchmarks.

翻译成人话:有些架构设计的好处,在训练 loss 上是体现不出来的

为什么用 64K 序列长度做 RL,而不是逐步扩展?

这是一个反直觉的设计。

之前的研究(比如 Kimi K2)建议逐步扩展序列长度:先训 16K,再 32K,最后 64K。但 GLM-4.5 直接一步到位在 64K 上做 RL。

理由是:中间长度的 RL 会让模型忘记长上下文能力

这个发现很有价值。它说明了一个常被忽视的问题:训练阶段的每一个妥协,都可能导致最终模型的能力天花板变低。

函数调用模板的小聪明

论文里提到一个细节:他们用 XML-like 的格式替代 JSON 来封装函数调用参数。

原因很现实:JSON 需要大量转义字符,而代码里到处都是引号和换行

这个改动看似简单,但背后是对 Agent 场景的深刻理解。当你让模型写一段 Python 代码并通过函数调用执行时,如果格式设计不合理,模型会浪费大量 token 在处理转义字符上,既增加成本又降低准确率。

我在测试时特意观察了这一点。同样的代码生成任务,GLM-4.5 的响应 token 数确实比用 JSON 格式的模型少 15-20%。积少成多,这在高频调用场景下能省下不少钱。

关于开源这件事

GLM-4.5 发布时,有几个数据很亮眼:

  • 2 小时内被 X 平台推上首页
  • 12 小时内 Hugging Face 趋势榜全球第二
  • Hugging Face 用户投票为当日最佳论文

但我想说的不是这些表面的热闹。

真正让我感慨的是价格:输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。

这是什么概念?

  • GPT-4o 的价格大概是它的 10-20 倍
  • Claude 3.5 Sonnet 的价格大概是它的 15-30 倍
  • 即使是国内的 Qwen3-Max,也要 1.2 元/百万输入

开源不仅仅是开放权重,更是让技术普惠的基础设施。

智谱选择了 MIT License,这意味着你可以商用、可以修改、可以闭源二次开发。在国产大模型六小虎纷纷闭源、API 定价水涨船高的今天,这种选择本身就值得尊重。

一些不成熟的思考

混合推理会不会成为标配?

GLM-4.5 的 hybrid reasoning 设计让我想到一个问题:未来的大模型是否都会走向这种双模态?

思考模式适合复杂推理、代码生成、多步规划;非思考模式适合日常对话、简单问答。

用户不需要知道背后的切换逻辑,模型自己决定。

这种设计可能会改变我们对模型能力的评估方式——不再是一个分数打天下,而是在不同场景下有不同的最优策略

MoE 的效率迷思

GLM-4.5 只有 355B 总参数(激活 32B),远小于 DeepSeek-R1(671B)和 Kimi K2(1T+)。

但在实际评测中,它的表现却优于这些大块头。

这让我重新思考一个问题:参数规模真的是模型能力的决定性因素吗?

答案显然是否定的。数据质量、训练策略、架构设计、后训练优化——每一个环节都可能成为瓶颈。而 GLM-4.5 证明了,在工程上精雕细琢,完全可以用更小的规模达到更好的效果

这对资源有限的研究者和开发者来说,无疑是个好消息。

Agent 训练的基础设施挑战

论文花了很大篇幅讲 RL 基础设施,特别是针对 Agent 任务的异步训练架构。

有一个细节让我印象深刻:他们设计了一个 Docker-based 的高并发运行时环境,每个任务都有独立的沙箱。

这说明 Agent 训练和传统的 LLM 训练已经完全是两个世界了。

传统的预训练或 SFT,数据是静态的、批量的。但 Agent 训练需要与环境实时交互,每一步都可能产生新的状态、新的反馈。这种动态性对基础设施的要求极高。

智谱开源了 Slime 框架,我觉得这个贡献可能比模型本身更有长远价值。

写在最后

读完这篇论文,我想起年初时和一位做 AI 投资的朋友聊天。

他说:现在的大模型赛道,已经进入了军备竞赛阶段,没有 10 亿美金别进场。

当时我觉得很有道理。但 GLM-4.5 让我看到了另一种可能:即使在资源有限的情况下,通过聪明的工程设计和明确的产品定位,依然可以做出生意义重大的工作

355B 参数 vs 1T+ 参数,却以更高的效率达到了更好的效果。这不是什么魔法,而是对问题本质的深刻理解 + 对工程细节的极致追求

论文的最后提到:Code, models, and more information are available at https://github.com/zai-org/GLM-4.5

我想,这才是开源精神最好的注解。


延伸阅读:


这篇文章是我在阅读 GLM-4.5 技术报告后的个人思考,不代表任何机构观点。如有错误,欢迎指正。