推理对齐 | 标签 | 生命体验家-汤国放的个人博客

2026

1 篇

24GB 显存玩转 DeepSeek-R1：GRPO 原理与 Unsloth 踩坑实录

2026年2月6日

深入解析 GRPO 算法原理及 Unsloth 框架在大模型推理对齐中的优化实践，包括强化学习训练范式和性能优化方案。