GRPO | 标签 | 生命体验家-汤国放的个人博客

2026

1 篇

24GB 显存玩转 DeepSeek-R1：GRPO 原理与 Unsloth 踩坑实录

2026年2月6日

深入解析 GRPO 算法原理及 Unsloth 框架在大模型推理对齐中的优化实践，包括强化学习训练范式和性能优化方案。

2025

1 篇

DeepSeek R1 论文解读：强化学习如何自主激发推理能力

2025年1月15日

分析 DeepSeek R1 论文的核心创新，包括 RL 推理、GRPO 算法和模型蒸馏。