开云体育
开云APP下载DeepSeek登上Nature封面!梁文锋带队回应质疑R1训练线万美金
在封面推荐中,Nature毫不吝啬地赞扬了DeepSeek-R1的成就。
开源之后,R1在Hugging Face成为最受欢迎的模型,下载量破1090万次。关键是,它是全球首个经过同行评审的主流大模型。
值得一的是,补充材料首次公开了R1训练成本——294000美元,数字低到惊人。
即便是加上约600万美元的基础模型成本,也远低于OpenAI、谷歌训练AI的成本。
这是一个非常值得欢迎的先例。若不公开分享大部分研发过程,我们将难以评估这些系统是否存在风险。
他们选择了一个强大的基础模型DeepSeek-V3 Base,跳过了传统的SFT阶段。
1. 任务格式:回答必须包含两部分,一个是被标签包裹的「思考过程」,另一个是被标签包裹的「最终答案」。
不必教它如何解题,只需提供正确的激励,它就能自主地发展出比人类教的更高级的策略。
1. 冷启动(Cold Start):首先,用数千条高质量的、符合人类对话习惯的数据对模型进行初步微调,教它「好好说线. 第一轮强化学习(RL):再次应用强化学习,但这次的目标不仅是提升推理,也包括保持语言的一致性和对线. 大规模监督微调(SFT):团队将推理数据与海量的非推理数据(如写作、通用问答、代码工程)混合在一起,进行大规模的监督微调。这极大地扩展了模型的知识面和通用能力。
经过多轮炼丹,DeepSeek-R1不仅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和用户偏好的基准上,性能提升了17%-25%,而且还在数学、编程等高难度推理任务上保持了顶尖水准。
在AI训练的赛道上,强化学习算法PPO(近端策略优化)长期以来都是大语言模型训练的「标配赛车」。它虽然强大,但也以资源消耗巨大和实现复杂而著称。
PPO就像一位极其谨慎的教练,它在每次训练更新时,都会严格限制新策略与旧策略的偏离程度,以防模型「跑偏」导致训练崩溃。
然后,它不只是简单地奖励最好的那个,而是根据这一组答案的「相对好坏」,来整体优化模型。
DeepSeek的训练并非一蹴而就,而是分为多个精心设计的阶段,每个阶段都有不同的侧重点和巧妙的参数调整。
尽管实验表明,强行「矫正」语言会导致模型性能微乎其微的下降,但为了输出结果更符合人类阅读习惯,这个牺牲是值得的。
第二阶段保留了第一阶段的大部分参数,但将温度降至0.7,以防因为系数过高造导致生成内容不连贯。
此外,这里还有一个关键操作:基于模型的奖励(有用性和安全性)仅在最后400个训练步中才被引入,从而避免奖励投机的产生。
DeepSeek-R1的诞生,为AI发展带来了深刻的启示,也伴随着新的挑战。
在与审稿人的交流中,DeepSeek表示,R1并非通过复制OpenAI模型生成的推理示例来学习。
不过,与大多数其他大语言模型一样,R1的基础模型是在网络上训练的,因此它会吸收互联网上已有的AI生成的内容。
俄亥俄州立大学AI研究员Huan Sun表示,这一解释「与我们在任何出版物中看到的一样令人信服」。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。