24GB 显存玩转 DeepSeek-R1:GRPO 原理与 Unsloth 踩坑实录
2026年2月6日
深入解析 GRPO 算法原理及 Unsloth 框架在大模型推理对齐中的优化实践,包括强化学习训练范式和性能优化方案。
DeepSeek R1 论文解读:强化学习如何自主激发推理能力
2025年1月15日
分析 DeepSeek R1 论文的核心创新,包括 RL 推理、GRPO 算法和模型蒸馏。