2026年1月16日

Ministral 3：小模型不需要 36 万亿 token，蒸馏才是正道

我的立场： 暴力堆数据训练小模型是一种浪费。Ministral 3 的级联蒸馏路线，可能是目前最务实的小模型生产方式。我对 Mistral 这家公司一直有好感——他们是少数还在认真做开源的商业公司。

我必须承认的偏见： 我虽然在 H800 上训过模型，但没有复现过级联蒸馏这套流程。我的判断基于论文数据和自己的训练经验，不一定能完全对标 Mistral 的工程环境。

先说让我震惊的数字

Llama 3 训练用了 15 万亿 token。Qwen 3 用了 36 万亿。

Ministral 3？1 到 3 万亿。

性能差多少？14B 版本在 MMLU 上拿到 79.4，Mistral Small 3.1（24B 的爹）是 81.0。参数砍了 40%，分数只掉了 1.6。

这不是“还行”，这是“凭什么”。

说白了就三步循环：剪枝 → 蒸馏 → 再剪枝。

从 Mistral Small 3.1（24B）开始，先砍到 14B，再砍到 8B，最后砍到 3B。每砍一刀都用上一个模型当老师，把知识往下灌。

具体怎么剪的：

这些技术单独拿出来都不新鲜。但 Mistral 把它们串成了一条流水线，而且——这是关键——他们证明了这条流水线的产出物，能打。

论文里有几个结论让我反复看了好几遍：

老师太强反而教不好学生。 预训练阶段，用更强的老师蒸馏，学生成绩反而下降。这叫“capacity gap”。但到了后训练阶段，强老师又变好了。

这很反直觉。你让一个博士教小学生基础算术，可能还不如让一个高中生来教。但教解题思路的时候，博士又有优势了。

用后训练过的老师来教预训练，效果更好。 正常逻辑是：预训练用 base 模型教，后训练用 instruct 模型教。但实际上，直接用 instruct 模型教预训练阶段的学生，分数更高。

RLHF 过的老师 > 只做了 SFT 的老师。 经过人类偏好优化的模型，当老师的效果更好。这说明 RLHF 不只是在调输出格式，它确实让模型“理解”了什么更好。

写到这里我开始纠结一件事：这条路的天花板在哪？

级联蒸馏的前提是你有一个足够强的大模型。Mistral 有 24B 的 Small 3.1，所以能往下蒸。但如果你的大模型本身就一般呢？垃圾进垃圾出，蒸馏不是炼金术。

还有一个问题：这篇论文的 benchmark 选择很“安全”。MMLU、ARC、MATH 这些都是标准题。但在真实场景里——比如长文档理解、复杂指令跟随、多轮对话——蒸馏出来的小模型和从头训的差距会不会更大？

论文没说，我也不知道。

所有 Ministral 3 模型都带视觉理解。3B 的小模型也能看图。

这个我没太多感觉。现在多模态已经是标配了，不带视觉的模型反而奇怪。但 3B 带视觉还能保持文本性能不崩，说明蒸馏过程中多模态能力的迁移做得还行。

Apache 2.0 协议。三个尺寸，每个尺寸三个变体（base、instruct、reasoning）。一共九个模型，全部开源。

这才是这篇论文最重要的贡献——不是技术本身，是它证明了一条低成本生产高质量小模型的路线，然后把成果全部开放了。

如果你是个小团队，没有几千张卡去从头训模型，但你有一个不错的大模型（开源的就行），你可以用类似的方法蒸馏出适合自己场景的小模型。训练成本可能只有从头训的十分之一。

这降低的不是“使用门槛”，是“生产门槛”。

蒸馏模型有个老问题：它学到的是老师的“行为”，不是“理解”。在老师见过的分布内，学生表现很好。但遇到分布外的情况呢？

Ministral 3 的 reasoning 变体用了 Mistral Medium 3 当老师做后训练。这意味着推理能力也是蒸馏来的。蒸馏来的推理和从头学的推理，在边界情况下表现一样吗？

我不确定。论文里的 AIME ‘25 成绩很亮眼（14B reasoning 拿了 85%），但竞赛题和真实世界的推理需求差别很大。

这篇论文让我觉得，小模型的竞争已经从“谁堆的数据多”转向了“谁的蒸馏方法好”。Mistral 在这个方向上走得很远，而且走得很开放。

至于这条路最终能走多远——等下一篇论文吧。我现在能说的就这么多了。