搜索文章
Ministral 3:小模型不需要 36 万亿 token,蒸馏才是正道
2026年1月16日
Mistral 用级联蒸馏把 24B 模型压到 3B,只用了别人十分之一的数据。这条路走通了吗?