deepseek
2025-03-03 21:35:11 0 举报
AI智能生成
deepseek
作者其他创作
大纲/内容
1. 背景概述
1.1 DeepSeek 公司简介
2023 年 5 月成立
创始人:梁文锋
团队年轻、高效,聚焦 AI 大模型研发
1.2 DeepSeek-R1 的影响
以开源形式发布
性能可与 OpenAI o1 模型相当
受到全球科技公司与政府的密切关注
2. DeepSeek-V3 的高效架构与创新
2.1 混合专家模型(MoE)
2.1.1 细粒度设计
每层 1 个共享专家 + 256 个路由专家
每个 token 激活 8 个专家
稀疏激活机制
2.1.2 共享专家策略
共享专家捕获通用知识
路由专家专注专业化知识
减少参数冗余
2.1.3 无损负载均衡
无辅助损失(ALFLB)策略
动态偏差调整路由任务
提高训练效率 & 模型性能
2.2 多头潜在注意力(MLA)
低秩键值联合压缩
KV 缓存大幅减少
推理速度提升 & 内存占用降低
2.3 多 token 预测(MTP)
一次性并行预测多个 token
提高数据利用率 & 加快推理速度
与传统单 token 预测互为补充
2.4 混合精度训练(FP8)
8 位浮点数训练核心计算
减少内存消耗 & 提高计算速度
误差累积控制在 0.25% 以内
2.5 GPU 底层优化(PTX)
直接编写 & 优化 PTX 代码
提高寄存器 & 线程调度效率
显著提升 GPU 计算吞吐量
3. 从 DeepSeek-V3 到 DeepSeek-R1-Zero
3.1 群体相对策略优化(GRPO)
不依赖独立价值函数
优化多个输出的平均奖励
减少计算开销 & 简化训练流程
3.2 纯强化学习训练
跳过监督微调(SFT) & RLHF
仅通过奖励信号训练
显著提升数学 & 编程推理能力
3.3 R1-Zero 的“涌现能力”
自我纠错 & 多步验证
逐步形成长思维链(CoT)
展现类似人类的“aha moment”
4. DeepSeek-R1 训练方法
4.1 监督微调(SFT)+ 强化学习(RLHF)
使用长思维链(CoT)样本冷启动
针对复杂推理任务强化训练
结合人类偏好奖励提高可用性 & 安全性
4.2 数据重构 & 最终进化
生成高质量推理 & 非推理数据
重复 SFT,过滤不友好响应
兼顾推理能力与通用性
5. DeepSeek 对 AI 行业的影响
5.1 高效训练与低成本
2,048 块 NVIDIA H800 GPU
训练效率比 Meta 高 10 倍
训练成本仅为 OpenAI o1 的 3%-5%
5.2 开源策略与争议
拥抱开源,影响力巨大
对全球 AI 产业格局的冲击
关于训练效率与资源利用的质疑
6. 结论
多项技术创新:MoE、MLA、MTP、FP8 等
纯强化学习(GRPO)带来推理能力突破
DeepSeek-R1 在有限资源 & 短期内完成顶级大模型训练
或将重塑未来 AI 产业格局
0 条评论
下一页