transformer

2021-12-27 20:28:46   32  举报





Transformer是一种基于自注意力机制的深度学习模型，被广泛应用于自然语言处理领域。它由两个部分组成：编码器和解码器，每个部分都包含多个相同的层。在编码器中，输入序列首先通过多头自注意力机制进行编码，然后通过前馈神经网络进行进一步处理。在解码器中，输出序列首先通过多头自注意力机制进行解码，然后通过前馈神经网络生成最终结果。Transformer的优势在于其并行化计算的能力，可以加速训练过程并提高模型性能。此外，它还具有较好的长序列建模能力，可以处理一些传统的循环神经网络难以处理的问题。

机器学习

作者其他创作

大纲/内容

Input Embedding

Add ＆Norm

Feed Forward

Positional Encoding

N×

Multi-Head Attention