基于llama.py的架构拆解llama模型框架
2024-03-11 15:55:04 0 举报
基于微软开源的llama,从根本上拆解模型框架
作者其他创作
大纲/内容
k_weight
Position embedding
K
linear
socre@V
as next input of x
RMSNorm
更多AI和细节可以个人账号
q_weight
hang softmax
Prompt TextToken
self.w2(nn.silu(self.w1(x)) * self.w3(x))
chu根号d
X@weight
h
score
RNSNorm X@weight
RMSNORM
高清图片,可以插入论文等直接用
V
mask
v_weight
add(h)
1.词表大小 6402.词向量维度 51203.层数 404.MHA头数 405.头维度 1286隐藏维度 13824@:矩阵乘法有颜色的是训练后获得权重变化
Feeddforward
Q@K^T
Embedding
add(x)
行softmax
Q
x
0 条评论
下一页