2025年1月15日

DeepSeek R1 论文解读：强化学习如何自主激发推理能力

引言

DeepSeek 这次发的 R1 论文，本质上是把 OpenAI o1 藏着掖着的厨房门给踹开了。以前大家都在猜 Reasoning Model 到底怎么做，是用 MCTS 搜出来的，还是靠海量人工标注堆出来的。DeepSeek 直接摊牌：不用想那么复杂，只要激励给得对，模型自己就能学会思考。

RL 的核心作用

这篇论文最硬核的结论在于，它验证了强化学习（RL）才是大模型产生逻辑推理能力的根本驱动力。在 DeepSeek-R1-Zero 这个实验版本中，他们完全没有使用人类标注的推理数据（SFT），直接把基座模型 DeepSeek-V3-Base 扔进 RL 环境。规则简单粗暴：只要最终答案对，就给奖励；格式对，也给奖励。至于中间你怎么想，人类不管。

DeepSeek-R1-Zero 的实验结果

结果非常反直觉。模型在没有人类示范的情况下，自己演化出了“顿悟”能力。论文里展示了一个极为性感的细节，模型在输出过程中突然自己输出了一句“Wait, wait. Wait. That’s an aha moment I can flag here”，然后开始自我纠错、重新规划路径。这种长思维链（CoT）、自我反思、验证回溯的能力，不是人类教的，是在纯粹的奖励机制逼迫下涌现出来的。这说明只要算力足够、环境对路，模型能在大脑里自己搞“左右互搏”，进化出超越人类标注水平的智能。

不过 DeepSeek-R1-Zero 虽然智商高，但情商几乎为零。它输出的内容中英文混杂，可读性极差，有时候为了推导能啰嗦出几万字，完全不考虑用户体验。

正式版 R1 的工程流水线

为了让这个“野人天才”变得可用，DeepSeek 在正式版 R1 中设计了一套非常工整的工程流水线。

这套流水线分为四个阶段。先用少量高质量的长思维链数据做“冷启动”，教模型基本的思考规范和语言组织；然后上大规模 RL 提升推理极限；接着最关键的一步，是用这个练好的 RL 模型生成 60 万条高质量数据，对基座模型进行 SFT。这一步的本质，是把模型在 RL 阶段即使“临时抱佛脚”逼出来的推理能力，固化成稳定的肌肉记忆。最后再加一轮 RL，做通用的价值观对齐。这套打法非常务实，既保留了 RL 的上限，又解决了落地应用的稳定性问题。

GRPO 算法亮点

技术实现上，GRPO（Group Relative Policy Optimization）算法是另一个亮点。做过 RLHF 的人都知道，传统的 PPO 算法需要训练一个 Critic 模型来打分，这东西规模和主模型一样大，显存和算力开销直接翻倍，中小团队根本烧不起。GRPO 的思路很讨巧，它不需要 Critic 模型，而是让模型针对同一个问题生成一组输出（比如 64 个），然后让它们内部互相比。比平均分高的就奖励，低的就惩罚。这种相对评估的策略，极大地降低了训练成本，让大规模 RL 变得经济可行。

模型蒸馏的利好

对于绝大多数开发者和企业来说，这篇论文最大的利好在“蒸馏”部分。DeepSeek 发现，直接用 R1 这种满血版大模型生成的推理数据去微调小模型，效果好得离谱。一个仅仅 1.5B 参数的 Qwen 小模型，在经过 R1 的数据蒸馏后，数学能力竟然能硬刚 GPT-4o。这意味着推理能力是可以“降维打击”传授的。以后在端侧设备或者垂直领域，我们完全不需要部署几百 B 的庞然大物，只要有一个足够强的“老师”模型产数据，小模型也能具备极强的逻辑思考能力。

失败尝试与教训

论文最后还很诚实地记录了他们的失败尝试。比如过程奖励模型（PRM），原本想给推理的每一步打分，结果发现极难定义且容易被模型钻空子骗分；还有备受推崇的蒙特卡洛树搜索（MCTS），因为生成式模型的搜索空间呈指数级爆炸，现阶段如果不配合一个极强的价值模型，根本跑不通。这些试错记录非常有价值，能帮大家省下几个月盲目折腾的时间。

总结与展望

简单来说，在当前阶段，纯粹的 RL 加上高效的策略优化，就是通往强推理模型的最佳路径。

待补充：GRPO 具体实现的超参数配置细节（Group Size 等）、冷启动数据的具体筛选标准、蒸馏实验中不同参数量模型的具体性能对比表。