DeepSeekR1训练过程
2025-03-30 18:05:26 1 举报
一张图看懂DeepSeekR1训练过程(干货)
作者其他创作
大纲/内容
DeepSeek-R1(V2.0)
预训练
RL强化训练
蒸馏模型
DeepSeek-R1-Distill-Llama
基于冷启动数据进行监督微调
第三步:第二轮SFT强化学习
训练
DeepSeek-R1(V1.0)
以V3为基础模型,采用GRPO强化学习算法,仅设定“答案准确”“格式正确”两个激励目标进行训练。在训练中,模型根据输出质量获得奖励或惩罚来调整策略,经过约10k次强化学习步骤,得到R1-0
优质的思维链数据集
强化训练
DeepSeek-R1-Zero
全场景强化学习,采用多样化奖励机制,基于规则验证(数学,代码方面)使模型与人类偏好对齐
优质的非推理的知识性数据集
DeepSeek-R1-Distill-Qwen
DeepSeek-V3(671B)
DeepSeek-R1
利用优质的非推理的知识性数据集和优质的思维链数据集进行微调
产生
强化训练,此步激励模型重点关注准确,格式,回答连贯
第三阶段:模型蒸馏
DeepSeek-R1(V3.0)
SFT监督微调
第二阶段:训练R1
第一步:第一轮SFT监督微调
冷启动思维链数据
第四步:第二轮RL强化学习
第一阶段:训练R1-Zero
第二步:第一轮,RL强化学习
Llama3
Qwen2.5
预训练数据集
0 条评论
下一页