深度学习之Transformer架构图
2024-08-17 16:26:33 2 举报
Transformer 架构主要由输入部分、多层编码器、多层解码器以及输出部分组成。其中,输入部分包括源文本嵌入层、位置编码器;编码器部分由 N 个编码器层堆叠而成;解码器部分由 N 个解码器层堆叠而成;输出部分包括线性层和Softmax 层。
作者其他创作
大纲/内容
输入
残差连接和归一层
色彩参考:《开启智能新时代:2024 年中国AI大模型产业发展报告》
Nx
位置编码
Softmax 层
掩码多头自注意力
输入嵌入
多头自注意力
前馈层
输出(右位移)
输出嵌入
线性层
输出概率
0 条评论
下一页