transformer训练与预测时的数据流
2024-03-17 19:47:04 0 举报
介绍数据集从输入到模型的每一层,被转换为什么形状,并且是如何分解输入到每一层网络的。
作者其他创作
大纲/内容
红色的线: 只在预测的时候使用
Add &Norm
预测的时候使用
q
k=Y
训练数据集
X
训练时需要,预测时为None
concat
Input Embedding
Linear
N×
v
q=X
Y_valid_length形状(batch_size)
v=Y
预测时,第一个输入token: <bos>
Feed Forward
v=X
Positional Encoding
Y
decode_output
kv的有效长度
Multi-Head Attention
Softmax
q=Y
训练时,用于计算loss
X_valid_length形状(batch_size)
encode_output
k
预测的数据
MaskedMulti-Head Attention
embedding_output
k=X
OutputProbabilities
Output Embedding
0 条评论
回复 删除
下一页