2026年1月16日

Ministral 3:小模型不需要 36 万亿 token,蒸馏才是正道


我的立场: 暴力堆数据训练小模型是一种浪费。Ministral 3 的级联蒸馏路线,可能是目前最务实的小模型生产方式。我对 Mistral 这家公司一直有好感——他们是少数还在认真做开源的商业公司。

我必须承认的偏见: 我虽然在 H800 上训过模型,但没有复现过级联蒸馏这套流程。我的判断基于论文数据和自己的训练经验,不一定能完全对标 Mistral 的工程环境。


先说让我震惊的数字

Llama 3 训练用了 15 万亿 token。Qwen 3 用了 36 万亿。

Ministral 3?1 到 3 万亿。

性能差多少?14B 版本在 MMLU 上拿到 79.4,Mistral Small 3.1(24B 的爹)是 81.0。参数砍了 40%,分数只掉了 1.6。

这不是“还行”,这是“凭什么”。


级联蒸馏到底在干嘛

说白了就三步循环:剪枝 → 蒸馏 → 再剪枝。

从 Mistral Small 3.1(24B)开始,先砍到 14B,再砍到 8B,最后砍到 3B。每砍一刀都用上一个模型当老师,把知识往下灌。

具体怎么剪的:

  • 按 activation norm 的重要性删层
  • 用 PCA 降维砍 hidden dimension
  • 按激活值重要性裁 FFN

这些技术单独拿出来都不新鲜。但 Mistral 把它们串成了一条流水线,而且——这是关键——他们证明了这条流水线的产出物,能打。


几个反直觉的发现

论文里有几个结论让我反复看了好几遍:

老师太强反而教不好学生。 预训练阶段,用更强的老师蒸馏,学生成绩反而下降。这叫“capacity gap”。但到了后训练阶段,强老师又变好了。

这很反直觉。你让一个博士教小学生基础算术,可能还不如让一个高中生来教。但教解题思路的时候,博士又有优势了。

用后训练过的老师来教预训练,效果更好。 正常逻辑是:预训练用 base 模型教,后训练用 instruct 模型教。但实际上,直接用 instruct 模型教预训练阶段的学生,分数更高。

RLHF 过的老师 > 只做了 SFT 的老师。 经过人类偏好优化的模型,当老师的效果更好。这说明 RLHF 不只是在调输出格式,它确实让模型“理解”了什么更好。


我在想的问题

写到这里我开始纠结一件事:这条路的天花板在哪?

级联蒸馏的前提是你有一个足够强的大模型。Mistral 有 24B 的 Small 3.1,所以能往下蒸。但如果你的大模型本身就一般呢?垃圾进垃圾出,蒸馏不是炼金术。

还有一个问题:这篇论文的 benchmark 选择很“安全”。MMLU、ARC、MATH 这些都是标准题。但在真实场景里——比如长文档理解、复杂指令跟随、多轮对话——蒸馏出来的小模型和从头训的差距会不会更大?

论文没说,我也不知道。


视觉能力:顺便提一嘴

所有 Ministral 3 模型都带视觉理解。3B 的小模型也能看图。

这个我没太多感觉。现在多模态已经是标配了,不带视觉的模型反而奇怪。但 3B 带视觉还能保持文本性能不崩,说明蒸馏过程中多模态能力的迁移做得还行。


对开源生态意味着什么

Apache 2.0 协议。三个尺寸,每个尺寸三个变体(base、instruct、reasoning)。一共九个模型,全部开源。

这才是这篇论文最重要的贡献——不是技术本身,是它证明了一条低成本生产高质量小模型的路线,然后把成果全部开放了。

如果你是个小团队,没有几千张卡去从头训模型,但你有一个不错的大模型(开源的就行),你可以用类似的方法蒸馏出适合自己场景的小模型。训练成本可能只有从头训的十分之一。

这降低的不是“使用门槛”,是“生产门槛”。


但我还是有疑虑

蒸馏模型有个老问题:它学到的是老师的“行为”,不是“理解”。在老师见过的分布内,学生表现很好。但遇到分布外的情况呢?

Ministral 3 的 reasoning 变体用了 Mistral Medium 3 当老师做后训练。这意味着推理能力也是蒸馏来的。蒸馏来的推理和从头学的推理,在边界情况下表现一样吗?

我不确定。论文里的 AIME ‘25 成绩很亮眼(14B reasoning 拿了 85%),但竞赛题和真实世界的推理需求差别很大。


这篇论文让我觉得,小模型的竞争已经从“谁堆的数据多”转向了“谁的蒸馏方法好”。Mistral 在这个方向上走得很远,而且走得很开放。

至于这条路最终能走多远——等下一篇论文吧。我现在能说的就这么多了。