大模型参数
2025-02-18 15:47:42 3 举报
AI智能生成
介绍了大模型的参数相关知识,并且介绍了如何计算大模型的大小以及计算显卡需求的方法
作者其他创作
大纲/内容
模型参数大小
模型的神经元数量,参数越多模型越强,显存需求越高
单位B(billion)
单位B(billion)
llama
1,3,8,70,405
qwen
0.5,1.5,3,7,14,32,72
deepseek
1.5,7,8,14,32,70,671
浮点数(FP)
模型计算时的数值精度,精度越高,计算结果越准确
主要用于模型训练过程中,训练完精度不再变化
主要用于模型训练过程中,训练完精度不再变化
精度规格
FP32
标准训练精度,大模型训练最常用
参数大小:4字节/参数
FP16
半精度浮点,减少内存占用和计算成本,损失结果质量
参数大小:2字节/参数
BF16
bfloat16,类似FP16,更适合深度学习
参数大小:2字节/参数
FP8
8位浮点数,进一步压缩模型精度浮点,适合加速推理
参数大小:1字节/参数
量化参数(Q)
对模型权重和激活值进行数值压缩,减小体积节约显存,牺牲精度,影响智商
主要用于推理过程,同样配置,推理速度更快
主要用于推理过程,同样配置,推理速度更快
量化类型
INT8
8位整数量化,将32或者16浮点转8位整数
参数大小:1字节/参数
INT4
4位整数量化,最常用的量化方案
参数大小:0.5字节/参数
INT2/INT1
极端压缩,仅适用于特殊应用
无论原始模型是FP32还是FP16,经过相同比特量化后,每个参数最终占用的存储空间是一样的,
这样做的目的是为了尽可能降低存储和显存的同时,保留一定推理精度
这样做的目的是为了尽可能降低存储和显存的同时,保留一定推理精度
计算模型大小
模型大小=参数数量*每个参数字节
1B=10亿参数--->FP32,4字节/参数
10亿参数*4字节/参数=40亿字节
10亿字节=1GB,40亿字节=4GB
10亿字节=1GB,40亿字节=4GB
显卡和模型大小的关系
显存大小=模型大小*1.2
1B=4GB*1.2=4.8≈5GB
DeepSeek14B模型=4GB*14=56GB*1.2=67.2GB,没有量化
4INT量化
4-->0.5,缩小8倍
4-->0.5,缩小8倍
56GB/8=7GB
+10%额外元数据
≈8GB
+10%额外元数据
≈8GB
8GB*1.2=9.6GB
本地部署
1.5B-14B
个人/中小企业
32B-70B
企业级硬件/云计算资源
100B+
大型服务器集群
0 条评论
下一页