感谢DeepSeek的分享，R1如何诞生-夜雨聆风

本文最后更新于2025-01-28，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

感谢DeepSeek的分享，R1如何诞生

对标o1的DeepSeek R1和Kimi 1.5发布那天，我发一篇帖子，提出“蒸馏”可能性：

行业中的确存在用o1训练模型的情况，我没特指哪家公司；蒸馏只是一种策略，无关抄袭；蒸馏不是模型的全部；没本事，会蒸馏也搞不出来好用的模型。

评论区不少人把这个可能与DeepSeek R1联系起来，劝我看看论文，就不会提蒸馏了。其实刚开始我就看了，然后我又看了几遍。

DeepSeek没那么脆弱，人家也证实了蒸馏的确有用。

他们一开始想直接在V3 上强化学习（RL），而不是监督微调（SFT），有了R1 Zero，发现推理能力的确可以提升。如AIME评测得分，的确可以上升。

但R1 Zero不能直接用：可读性差；语言混杂；训练不稳定。我很敬佩DeepSeek，他们愿意分享尝试的过程。真·开源。

所以才有了R1。他们使用可读的长CoT作为示例，提示模型生成具有反思和验证的详细答案；收集R1-Zero的输出，让人工处理、优化，一共有数千条格式明确的长CoT数据，作为RL的冷启动。

然后进入第一遍RL，过程与R1 Zero类似，其中引入了语言一致的奖励，避免语言混杂的问题。

RL达到稳定状态后，他们保存这个训练成果（检查点），进入SFT。

这里他们加入不同类型的数据，让模型不仅会思考【RL的结果】，还能更好地处理写作、扮演角色等各种日常任务【SFT的目标】。

这里他们一共收集60万个推理相关的样本数据。在V3的技术报告中，他们提到训练expert models，用它生成特定数据（编程、数学、通用推理），这些expert models是RL阶段训练好的模型吗？我不敢下确定，欢迎知情的朋友解答。

对于非推理类数据（包括写作、事实性问答、自我认知和翻译等），复用部分V3的SFT数据。这里收集了 20 万条样本数据。

他们用这些数据对V3-Base微调了两遍。之后又来一遍RL，让模型更有用、无害。最后有了R1。

R1的能力=V3+用R1 Zero生成&人工标注的数千条数据RL+RL+60万推理数据&20万非推理数据微调两遍+RL。

他们还做了测试：挑选R1生成80万条数据，微调开源模型，发现可以提升小模型推理能力，“主要目标是展示蒸馏的有效性”。这个过程，似乎不需要模型开源。

感谢DeepSeek的分享，R1如何诞生