transformer 模型算法
2023-07-18 08:54:51 1 举报
用流程图的形式详细展示了 transformer 模型的算法细节
作者其他创作
大纲/内容
dot product
128 * 31 * 512
linear
128 * 8 * 27 * 31
split 8
q
dropout
Add
pos embedding
out
softmax
norm
128 * 31 * 512
v
Linear
128 * 8 * 31 * 31
DecoderLayer
128 * 1 * 27 * 27
128 * 27 * 8 * 64
128 * 8 * 64 * 31
128 * 8 * 64 * 31
concat
128 * 8 * 27 * 64
128 * 27 * 512
token embedding
src_mask
ScaleDotProductAttention
128 * 1 * 1 * 31
串行6次
128 * 8 * 31 * 64
EncoderLayer
scale
128 * 8 * 27 * 27
512 * 512
masked_fill
k
128 * 27 * 7853
128 * 8 * 31 * 64
128 * 8 * 31 * 64
128 * 31 * 512
Decoder
MultiHeadAttention
128 * 31
31 * 512
src
Encoder
tgt
128 * 1 * 1 *31
look up
ffn
enc_src
128 * 31 * 8 * 64
128 * 8 * 64 * 27
27 * 512
128 * 27 * 512
max_work_size * 512
transformer 模型算法流程
128 * 27
512 * 7853
tgt_mask
vocab_count * 512
收藏
0 条评论
下一页