强化学习 | 标签 | 生命体验家-汤国放的个人博客

2025

1 篇

DeepSeek R1 论文解读：强化学习如何自主激发推理能力

2025年1月15日

分析 DeepSeek R1 论文的核心创新，包括 RL 推理、GRPO 算法和模型蒸馏。

2023

1 篇

强化学习在机器人控制中的应用

2023年7月30日

概述强化学习在机器人控制中的基本流程与现实挑战。