搜索文章
低算力成本的新秀 Unsloth
2026年2月6日
简单聊聊 Unsloth 为什么被很多个人开发者喜欢,以及它和 SFT、GRPO、DPO 等训练方法的关系。
DeepSeek R1 论文解读:强化学习如何自主激发推理能力
2025年1月15日
分析 DeepSeek R1 论文的核心创新,包括 RL 推理、GRPO 算法和模型蒸馏。
强化学习在机器人控制中的应用
2023年7月30日
概述强化学习在机器人控制中的基本流程与现实挑战。