Transformer
2020-06-16 10:22:43 15 举报
Transformer是一种基于自注意力机制的深度学习模型,被广泛应用于自然语言处理领域。它通过将输入序列转换为一系列向量表示,并利用注意力机制来捕捉序列中不同位置之间的依赖关系,从而实现对序列的编码和解码。与传统的循环神经网络相比,Transformer具有更高的并行性和更好的长距离依赖捕捉能力,因此在机器翻译、文本摘要等任务中表现出色。近年来,Transformer模型还被扩展到了图像处理、语音识别等领域,取得了显著的成果。
作者其他创作
大纲/内容
postion
enc *= d_model ** 0.5
dec
positionembedding
dropout
Multi-Attention
feedforward
enc += positional_encoding
Encoder
残差网络
embeddinglookup
scale
Decoder
Attention
padding mask
lookup
sequence mask
memory
layer normalize
num_blocks
query =deckeys = memoryvalues =memory
Linear projection
收藏
收藏
0 条评论
下一页