全球掀复现 DeepSeek 热潮,30 美元即可体验
近日,全球范围内掀起了一股复现 DeepSeek 的热潮。UC 伯克利、港科大、HuggingFace 等机构纷纷成功复现,仅用强化学习,无需监督微调,仅花费 30 美元,就能见证模型的 “啊哈时刻”,这或许意味着全球 AI 大模型正站在一个新的分水岭上。
此前,硅谷一直占据着人工智能领域的高地,然而如今却因中国公司带来的冲击而处于震动的余波中,全美甚至开始恐慌全球人工智能中心是否已经转移至中国。而此次全球复现 DeepSeek 的热潮,也被视为开源对闭源的一次胜利。在没有顶级芯片的情况下,DeepSeek 以极低成本的芯片训练出了突破性模型,这可能对美国的 AI 霸权构成威胁。大模型的竞争不再仅仅是算力的比拼,那些大公司引以为傲的技术优势和高估值似乎正在动摇,甚至英伟达的股价也受到了影响。人们不禁开始质疑,数百亿美元的支出对于这个行业是否真的必要,甚至还有观点认为中国量化基金的天才们可能会引发纳斯达克崩盘。未来,超强性能的模型或许不再只是算力巨头的专属,而是属于每一个人。
UC 伯克利的博士生潘家怡与其他两位研究人员在 CountDown 游戏中复现了 DeepSeek R1-Zero。他们发现,通过强化学习,3B 的基础语言模型能够自我验证和搜索,且成本不到 30 美元。该项目名为 TinyZero,采用 R1-Zero 算法,给定基础语言模型、提示和真实奖励信号后运行强化学习。在实验中,模型从简单输出开始,逐步进化出自我纠正和搜索的策略,最终解决问题。消融实验显示,从 1.5B 模型开始,模型学会了搜索、自我验证和修正解决方案,从而获得更高分数。此外,研究人员还发现额外的指令微调并非必要,这也印证了 R1-Zero 的设计决策。不同的 RL 算法如 PPO、GRPO、PRIME 等都能让长思维链涌现并带来良好性能表现,而模型的推理行为则非常依赖于具体任务。
#AI便利店 #小红书科技观察团 #get职场新知识 #人工智能 #科技改变世界 #颠覆式创新 @科技薯
此前,硅谷一直占据着人工智能领域的高地,然而如今却因中国公司带来的冲击而处于震动的余波中,全美甚至开始恐慌全球人工智能中心是否已经转移至中国。而此次全球复现 DeepSeek 的热潮,也被视为开源对闭源的一次胜利。在没有顶级芯片的情况下,DeepSeek 以极低成本的芯片训练出了突破性模型,这可能对美国的 AI 霸权构成威胁。大模型的竞争不再仅仅是算力的比拼,那些大公司引以为傲的技术优势和高估值似乎正在动摇,甚至英伟达的股价也受到了影响。人们不禁开始质疑,数百亿美元的支出对于这个行业是否真的必要,甚至还有观点认为中国量化基金的天才们可能会引发纳斯达克崩盘。未来,超强性能的模型或许不再只是算力巨头的专属,而是属于每一个人。
UC 伯克利的博士生潘家怡与其他两位研究人员在 CountDown 游戏中复现了 DeepSeek R1-Zero。他们发现,通过强化学习,3B 的基础语言模型能够自我验证和搜索,且成本不到 30 美元。该项目名为 TinyZero,采用 R1-Zero 算法,给定基础语言模型、提示和真实奖励信号后运行强化学习。在实验中,模型从简单输出开始,逐步进化出自我纠正和搜索的策略,最终解决问题。消融实验显示,从 1.5B 模型开始,模型学会了搜索、自我验证和修正解决方案,从而获得更高分数。此外,研究人员还发现额外的指令微调并非必要,这也印证了 R1-Zero 的设计决策。不同的 RL 算法如 PPO、GRPO、PRIME 等都能让长思维链涌现并带来良好性能表现,而模型的推理行为则非常依赖于具体任务。
#AI便利店 #小红书科技观察团 #get职场新知识 #人工智能 #科技改变世界 #颠覆式创新 @科技薯