Transformer模型 思维导图
2024-04-02 16:52:52 110 举报
AI智能生成
Transformer学习思维导图 Transformer模型是一种深度学习模型,主要用于自然语言处理和计算机视觉等领域。它基于注意力机制和自注意力机制进行特征提取和序列建模。该模型主要包括编码器和解码器两部分,编码器用于提取输入序列的特征信息,解码器用于生成输出序列。在Transformer模型中,通过自注意力机制实现特征提取,并对每个输入元素进行加权求和以得到输出。此外,该模型还采用了多层感知器、残差连接、归一化层等结构,以提高模型的泛化能力和训练效率。Transformer模型的优势在于其并行计算能力,可以显著提高训练速度。同时,该模型在许多自然语言处理任务中表现优异,如机器翻译、情感分析、文本摘要等。
作者其他创作
大纲/内容
步骤
输入自然语言序列到编码器(向量化)
通过算法将单词向量化
两步之后,得到统一长度
嵌入位置信息
编码器输出的隐藏层, 再输入到解码器
通过self-attention和前馈网络
输入(起始)符号到解码器
得到第一个字
将得到的第一个字落下来,再输入到解码器
输出上下文加权的embeddings
得到第二个字
将得到的第二字再落下来, 直到解码器输出(终止符), 即序列生成完成
transformer机器翻译流程图
下载
!git clone https://github.com/huggingface/transformers
!cd transformers; pip install .
encoder编码器
核心模块
前馈网络
Self-Attention
Multi-Head Attention
decoder解码器
核心模块
前馈网络
编解码-Attention
Self-Attention
Multi-Head Attention
解码器堆栈输出
Linear线性层
投影成一维向量
Softmax
self-attention
输入语句
向量化
矩阵相乘
注意力权重
加权求和
结构图
0 条评论
下一页