2026年2月6日

低算力成本的新秀 Unsloth


我现在再看 Unsloth,最核心的感受不是“又一个训练框架”,而是它把很多原本只适合大机器的玩法,往个人显卡、Colab、Kaggle 这类低算力环境里压了一层。

Unsloth 为什么广受欢迎

Unsloth 火起来,主要还是两个字:省卡。

官方自己的说法是,Unsloth 可以让训练和 RL 在 500+ 模型上做到最高 2 倍速度、最多 70% 显存节省;GRPO 这类 RL 场景也主打更低显存。这个数字不用神化,但方向很明确:它不是在卷“我比谁更大”,而是在解决“我手里就一张消费级卡,还能不能动手跑一下”。

Unsloth Studio 官方界面 Unsloth Studio 官方界面,来源:Unsloth GitHub README

它不只做训练。现在 Unsloth Studio 已经把本地运行、训练、导出放到一起了:可以跑 GGUF、LoRA adapter、safetensors,也能导出到 GGUF、16-bit safetensors,或者接 Ollama、vLLM、llama.cpp 这类推理链路。严格说,Unsloth 不是要替代 vLLM/Ollama,而是更像一个“低门槛入口”:训练、试跑、导出、接本地 API,一套都帮你顺手串起来。

所以它受欢迎很正常。对大厂来说,这可能只是工程优化;但对 AI 爱好者、小团队、独立开发者来说,就是从“看论文”变成“我今晚能不能在自己机器上跑起来”。

GRPO 等训练方法的集成

Unsloth 不是一种训练算法,它更像是把常见训练方法做了低显存封装和加速。

SFT 它当然支持,这也是最基础的微调方式:给 prompt 和标准答案,让模型逐 token 学。除了 SFT,偏好对齐里常见的 DPO、ORPO、KTO,Unsloth 文档里也单独放了入口;RL 方向则重点推 GRPO、GSPO,以及 vision RL、长上下文 RL、FP8 RL 这些扩展。

GRPO 组内相对奖励示意 GRPO 的组内相对奖励示意,来源:Unsloth RL 官方文档

GRPO 这波出圈,确实和 DeepSeek 有关系。更早 DeepSeekMath 就已经提出过 GRPO;到了 DeepSeek-R1 / R1-Zero,GRPO 又被放到推理强化学习里,大家才真正开始重视这条线。

它和 SFT 的区别很简单:SFT 是“照着标准答案学”,GRPO 是“同一道题生成多个答案,用 reward 比谁更好,然后让高分答案的概率变高”。它不需要单独的 critic model,比 PPO 轻一些,所以特别适合数学、代码、工具调用、结构化输出这类 reward 比较好写的任务。

如果拿我们最近做的 bbox JSON 输出来类比,SFT 会纠结 token 顺序,object 先后换一下 loss 就可能很难看;GRPO/RL 更自然一点,因为它可以直接按 schema 合法性、类别、数量、IoU、重复框、空输出这些业务指标给 reward。前提是 reward 要写得稳,不然模型也会很快学会钻空子。

参考:Unsloth GitHub READMEFine-tuning GuideRL Guide,以及 DeepSeek-R1 技术报告。