2025年1月15日

DeepSeek R1 论文解读:强化学习如何自主激发推理能力


DeepSeek R1 论文解读:强化学习如何自主激发推理能力

引言

DeepSeek 这次发的 R1 论文,本质上是把 OpenAI o1 藏着掖着的厨房门给踹开了。以前大家都在猜 Reasoning Model 到底怎么做,是用 MCTS 搜出来的,还是靠海量人工标注堆出来的。DeepSeek 直接摊牌:不用想那么复杂,只要激励给得对,模型自己就能学会思考。

RL 的核心作用

这篇论文最硬核的结论在于,它验证了强化学习(RL)才是大模型产生逻辑推理能力的根本驱动力。在 DeepSeek-R1-Zero 这个实验版本中,他们完全没有使用人类标注的推理数据(SFT),直接把基座模型 DeepSeek-V3-Base 扔进 RL 环境。规则简单粗暴:只要最终答案对,就给奖励;格式对,也给奖励。至于中间你怎么想,人类不管。

DeepSeek-R1-Zero 的实验结果

结果非常反直觉。模型在没有人类示范的情况下,自己演化出了“顿悟”能力。论文里展示了一个极为性感的细节,模型在输出过程中突然自己输出了一句“Wait, wait. Wait. That’s an aha moment I can flag here”,然后开始自我纠错、重新规划路径。这种长思维链(CoT)、自我反思、验证回溯的能力,不是人类教的,是在纯粹的奖励机制逼迫下涌现出来的。这说明只要算力足够、环境对路,模型能在大脑里自己搞“左右互搏”,进化出超越人类标注水平的智能。

不过 DeepSeek-R1-Zero 虽然智商高,但情商几乎为零。它输出的内容中英文混杂,可读性极差,有时候为了推导能啰嗦出几万字,完全不考虑用户体验。

正式版 R1 的工程流水线

为了让这个“野人天才”变得可用,DeepSeek 在正式版 R1 中设计了一套非常工整的工程流水线。

这套流水线分为四个阶段。先用少量高质量的长思维链数据做“冷启动”,教模型基本的思考规范和语言组织;然后上大规模 RL 提升推理极限;接着最关键的一步,是用这个练好的 RL 模型生成 60 万条高质量数据,对基座模型进行 SFT。这一步的本质,是把模型在 RL 阶段即使“临时抱佛脚”逼出来的推理能力,固化成稳定的肌肉记忆。最后再加一轮 RL,做通用的价值观对齐。这套打法非常务实,既保留了 RL 的上限,又解决了落地应用的稳定性问题。

GRPO 算法亮点

技术实现上,GRPO(Group Relative Policy Optimization)算法是另一个亮点。做过 RLHF 的人都知道,传统的 PPO 算法需要训练一个 Critic 模型来打分,这东西规模和主模型一样大,显存和算力开销直接翻倍,中小团队根本烧不起。GRPO 的思路很讨巧,它不需要 Critic 模型,而是让模型针对同一个问题生成一组输出(比如 64 个),然后让它们内部互相比。比平均分高的就奖励,低的就惩罚。这种相对评估的策略,极大地降低了训练成本,让大规模 RL 变得经济可行。

模型蒸馏的利好

对于绝大多数开发者和企业来说,这篇论文最大的利好在“蒸馏”部分。DeepSeek 发现,直接用 R1 这种满血版大模型生成的推理数据去微调小模型,效果好得离谱。一个仅仅 1.5B 参数的 Qwen 小模型,在经过 R1 的数据蒸馏后,数学能力竟然能硬刚 GPT-4o。这意味着推理能力是可以“降维打击”传授的。以后在端侧设备或者垂直领域,我们完全不需要部署几百 B 的庞然大物,只要有一个足够强的“老师”模型产数据,小模型也能具备极强的逻辑思考能力。

失败尝试与教训

论文最后还很诚实地记录了他们的失败尝试。比如过程奖励模型(PRM),原本想给推理的每一步打分,结果发现极难定义且容易被模型钻空子骗分;还有备受推崇的蒙特卡洛树搜索(MCTS),因为生成式模型的搜索空间呈指数级爆炸,现阶段如果不配合一个极强的价值模型,根本跑不通。这些试错记录非常有价值,能帮大家省下几个月盲目折腾的时间。

总结与展望

简单来说,在当前阶段,纯粹的 RL 加上高效的策略优化,就是通往强推理模型的最佳路径。

待补充:GRPO 具体实现的超参数配置细节(Group Size 等)、冷启动数据的具体筛选标准、蒸馏实验中不同参数量模型的具体性能对比表。