Transformer模型详解
2024-12-25 12:03:11 0 举报
Transformer是2017年的一篇论文《Attention is All You Need》提出的一种模型架构,目前在NLP各业务的语言模型如GPT, BERT等,都是基于Transformer模型。因此弄清楚Transformer模型内部的每一个细节就显得尤为重要。这个框架图把模型简化,逐一介绍里面的核心概念,希望大家都能轻易理解。
作者其他创作
大纲/内容
Scale
Linear
层归一化
SoftMax
Encoder
Multi-Head Attention
Transformer模型详解
MatMul
位置 Embedding(PE)可以通过训练、公式计算得到:
计算时使用矩阵 Q(查询)、K(键值)、V(值)。Self-Attention 的输入是单词表示矩阵 X 或上一个 Encoder block 的输出,Q、K、V 通过输入进行线性变换得到。
Decoder结构
Feed Forward
掩蔽多头注意力机制层
编码信息
N层
V
Decoder
Transformer整体结构
Concat
Q
Transformer重点板块
输出概率
多头注意力机制层
前置反馈层
位置编码
单词 Embedding
Scaled Dot-Product Attention
位置 Embedding
Multi-Head Attention 包含多个 Self-Attention 层,将输入 X 传递到 h 个 Self-Attention 中,得到 h 个输出矩阵 Z。下图展示了 h=8 时的情况,得到 8 个输出矩阵 Z。
Self-Attention
输入嵌入
线性层
通过 Word2Vec、Glove 等算法预训练,或在 Transformer 中训练得到
Add & Norm
自注意力机制
Transformer详细解释
组成 Encoder
输入
I have a dog <end>
Softmax 预测输出单词
第一个 Multi-Head Attention
K
Add & Norm 层由 Add 和 Norm 两部分组成,其计算公式如下:LayerNorm(X+MultiHeadAttention(X))LayerNorm(X+FeedForward(X))
第二个 Multi-Head Attention
Encoder结构
Transformer的输入
我有一只狗
Mask(opt.)
收藏
0 条评论
下一页