感谢DeepSeek的分享,R1如何诞生
行业中的确存在用o1训练模型的情况,我没特指哪家公司;蒸馏只是一种策略,无关抄袭;蒸馏不是模型的全部;没本事,会蒸馏也搞不出来好用的模型。
评论区不少人把这个可能与DeepSeek R1联系起来,劝我看看论文,就不会提蒸馏了。其实刚开始我就看了,然后我又看了几遍。
DeepSeek没那么脆弱,人家也证实了蒸馏的确有用。
他们一开始想直接在V3 上强化学习(RL),而不是监督微调(SFT),有了R1 Zero,发现推理能力的确可以提升。如AIME评测得分,的确可以上升。
但R1 Zero不能直接用:可读性差;语言混杂;训练不稳定。我很敬佩DeepSeek,他们愿意分享尝试的过程。真·开源。
所以才有了R1。他们使用可读的长CoT作为示例,提示模型生成具有反思和验证的详细答案;收集R1-Zero的输出,让人工处理、优化,一共有数千条格式明确的长CoT数据,作为RL的冷启动。
然后进入第一遍RL,过程与R1 Zero类似,其中引入了语言一致的奖励,避免语言混杂的问题。
RL达到稳定状态后,他们保存这个训练成果(检查点),进入SFT。
这里他们加入不同类型的数据,让模型不仅会思考【RL的结果】,还能更好地处理写作、扮演角色等各种日常任务【SFT的目标】。
这里他们一共收集60万个推理相关的样本数据。在V3的技术报告中,他们提到训练expert models,用它生成特定数据(编程、数学、通用推理),这些expert models是RL阶段训练好的模型吗?我不敢下确定,欢迎知情的朋友解答。
对于非推理类数据(包括写作、事实性问答、自我认知和翻译等),复用部分V3的SFT数据。这里收集了 20 万条样本数据。
他们用这些数据对V3-Base微调了两遍。之后又来一遍RL,让模型更有用、无害。最后有了R1。
R1的能力=V3+用R1 Zero生成&人工标注的数千条数据RL+RL+60万推理数据&20万非推理数据微调两遍+RL。
他们还做了测试:挑选R1生成80万条数据,微调开源模型,发现可以提升小模型推理能力,“主要目标是展示蒸馏的有效性”。这个过程,似乎不需要模型开源。
#大模型 #人工智能 #Deepseek