Transformer

2024-06-06 09:46:41   92  举报





Transformer是一种深度学习模型，主要用于自然语言处理任务，如机器翻译、文本生成等。其核心思想是通过自我注意力机制来解决序列到序列的问题。该模型采用了encoder-decoder架构，其中encoder用于处理输入序列，decoder用于生成输出序列。Transformer引入了多个self-attention layers，使得模型能够更好地理解和生成语言。此外，Transformer还使用了位置编码技术来保持序列信息的完整性。该模型在处理文本任务时，能够显著提高生成结果的质量。

Transformer

深度学习

生成模型

encoder-decoder

大语言模型

作者其他创作

大纲/内容

掩码多头自注意力

残差+标准化

×N

全连接前馈网络

输入