乐于分享
好东西不私藏

感谢DeepSeek的分享,R1如何诞生

感谢DeepSeek的分享,R1如何诞生

感谢DeepSeek的分享,R1如何诞生

感谢DeepSeek的分享,R1如何诞生

感谢DeepSeek的分享,R1如何诞生

感谢DeepSeek的分享,R1如何诞生

感谢DeepSeek的分享,R1如何诞生

对标o1的DeepSeek R1和Kimi 1.5发布那天,我发一篇帖子,提出“蒸馏”可能性:

行业中的确存在用o1训练模型的情况,我没特指哪家公司;蒸馏只是一种策略,无关抄袭;蒸馏不是模型的全部;没本事,会蒸馏也搞不出来好用的模型。

评论区不少人把这个可能与DeepSeek R1联系起来,劝我看看论文,就不会提蒸馏了。其实刚开始我就看了,然后我又看了几遍。

DeepSeek没那么脆弱,人家也证实了蒸馏的确有用。

他们一开始想直接在V3 上强化学习(RL),而不是监督微调(SFT),有了R1 Zero,发现推理能力的确可以提升。如AIME评测得分,的确可以上升。

但R1 Zero不能直接用:可读性差;语言混杂;训练不稳定。我很敬佩DeepSeek,他们愿意分享尝试的过程。真·开源。

所以才有了R1。他们使用可读的长CoT作为示例,提示模型生成具有反思和验证的详细答案;收集R1-Zero的输出,让人工处理、优化,一共有数千条格式明确的长CoT数据,作为RL的冷启动。

然后进入第一遍RL,过程与R1 Zero类似,其中引入了语言一致的奖励,避免语言混杂的问题。

RL达到稳定状态后,他们保存这个训练成果(检查点),进入SFT。

这里他们加入不同类型的数据,让模型不仅会思考【RL的结果】,还能更好地处理写作、扮演角色等各种日常任务【SFT的目标】。

这里他们一共收集60万个推理相关的样本数据。在V3的技术报告中,他们提到训练expert models,用它生成特定数据(编程、数学、通用推理),这些expert models是RL阶段训练好的模型吗?我不敢下确定,欢迎知情的朋友解答。

对于非推理类数据(包括写作、事实性问答、自我认知和翻译等),复用部分V3的SFT数据。这里收集了 20 万条样本数据。

他们用这些数据对V3-Base微调了两遍。之后又来一遍RL,让模型更有用、无害。最后有了R1。

R1的能力=V3+用R1 Zero生成&人工标注的数千条数据RL+RL+60万推理数据&20万非推理数据微调两遍+RL。

他们还做了测试:挑选R1生成80万条数据,微调开源模型,发现可以提升小模型推理能力,“主要目标是展示蒸馏的有效性”。这个过程,似乎不需要模型开源。

#大模型 #人工智能 #Deepseek

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 感谢DeepSeek的分享,R1如何诞生
×
订阅图标按钮