全球掀复现 DeepSeek 热潮，30 美元即可体验-夜雨聆风

全球掀复现 DeepSeek 热潮，30 美元即可体验

近日，全球范围内掀起了一股复现 DeepSeek 的热潮。UC 伯克利、港科大、HuggingFace 等机构纷纷成功复现，仅用强化学习，无需监督微调，仅花费 30 美元，就能见证模型的 “啊哈时刻”，这或许意味着全球 AI 大模型正站在一个新的分水岭上。
此前，硅谷一直占据着人工智能领域的高地，然而如今却因中国公司带来的冲击而处于震动的余波中，全美甚至开始恐慌全球人工智能中心是否已经转移至中国。而此次全球复现 DeepSeek 的热潮，也被视为开源对闭源的一次胜利。在没有顶级芯片的情况下，DeepSeek 以极低成本的芯片训练出了突破性模型，这可能对美国的 AI 霸权构成威胁。大模型的竞争不再仅仅是算力的比拼，那些大公司引以为傲的技术优势和高估值似乎正在动摇，甚至英伟达的股价也受到了影响。人们不禁开始质疑，数百亿美元的支出对于这个行业是否真的必要，甚至还有观点认为中国量化基金的天才们可能会引发纳斯达克崩盘。未来，超强性能的模型或许不再只是算力巨头的专属，而是属于每一个人。
UC 伯克利的博士生潘家怡与其他两位研究人员在 CountDown 游戏中复现了 DeepSeek R1-Zero。他们发现，通过强化学习，3B 的基础语言模型能够自我验证和搜索，且成本不到 30 美元。该项目名为 TinyZero，采用 R1-Zero 算法，给定基础语言模型、提示和真实奖励信号后运行强化学习。在实验中，模型从简单输出开始，逐步进化出自我纠正和搜索的策略，最终解决问题。消融实验显示，从 1.5B 模型开始，模型学会了搜索、自我验证和修正解决方案，从而获得更高分数。此外，研究人员还发现额外的指令微调并非必要，这也印证了 R1-Zero 的设计决策。不同的 RL 算法如 PPO、GRPO、PRIME 等都能让长思维链涌现并带来良好性能表现，而模型的推理行为则非常依赖于具体任务。
#AI便利店 #小红书科技观察团 #get职场新知识 #人工智能 #科技改变世界 #颠覆式创新 @科技薯

全球掀复现 DeepSeek 热潮，30 美元即可体验

wang

猜你喜欢