DeepSeek训练过程
2025-03-30 18:07:16 0 举报
DeepSeek是一款高级深度学习模型,其训练过程是一套精确且动态的算法迭代。此过程中,模型不断优化其内部参数,以提高对复杂数据集的理解和处理能力。训练主要涉及大量标注数据的前向传递和反向传播过程,其中,数据前向传递帮助模型学习输入数据的特点,而反向传播则根据损失函数的指示调整模型权重。 该过程也被精细地监控着性能指标,如准确率、召回率和F1分数,确保模型在分类任务中的稳健性。此外,文件类型通常包括训练日志、模型权重保存点和图表等,方便研究者对训练状态进行剖析和调整。在修饰语方面,“高精度”、“可调节”和“自适应优化”都是描述DeepSeek训练过程的关键词,突出其高度的自适应能力和卓越的性能。这个训练过程的精深及其自动化调节机制,使得DeepSeek成为了处理复杂深度学习问题的佼佼者。
作者其他创作
大纲/内容
DeepSeek R1 Distill-QwenDeepSeek R1 Distill-Llama
拒绝采样
第三阶段:DeepSeek R1模型蒸馏
第二轮SFT微调数据集
样本未知
数千次迭代
第二阶段:训练DeepSeek R1
DeepSeek V3
创建
问题:训练过程早期不稳定
GRPO
第一阶段:训练DeepSeek R1 Zero
两轮SFT
经过SFT的DeepSeek V3 checkpoint
DeepSeek R1
SFT有监督学习微调
DeepSeek V3 Base
数据集创建
数千条样本冷启动数据
人工标注样本
奖励函教准确性奖励+格式奖励
带入数据
Zero创建样本
RL强化学习训练
原始推理数据
推理数据(Reasoning Data)通用数据(General Data)
20万条写作,事实问答自我认知和翻译等数据
60万条COT推理数据
学习推理模式学习推理输出格式
优势:自主诞生推理过程
RL接近收敛时DeepSeek V3 checkpoint
其他COT数据
有用性(Helpfulness)无害性(Harmlessness)
训练到后期时,停止训练
DeepSeek-R1-Zero
取长补短
第二轮RL
奖励函数准确性奖励+格式奖励
数据审查
Qwen 2.5Llama3
0 条评论
下一页