Transformer模型 思维导图
2024-04-02 16:52:52 110 举报
AI智能生成
Transformer学习思维导图 Transformer模型是一种深度学习模型,主要用于自然语言处理和计算机视觉等领域。它基于注意力机制和自注意力机制进行特征提取和序列建模。该模型主要包括编码器和解码器两部分,编码器用于提取输入序列的特征信息,解码器用于生成输出序列。在Transformer模型中,通过自注意力机制实现特征提取,并对每个输入元素进行加权求和以得到输出。此外,该模型还采用了多层感知器、残差连接、归一化层等结构,以提高模型的泛化能力和训练效率。Transformer模型的优势在于其并行计算能力,可以显著提高训练速度。同时,该模型在许多自然语言处理任务中表现优异,如机器翻译、情感分析、文本摘要等。
作者其他创作
大纲/内容
两步之后,得到统一长度
通过算法将单词向量化
嵌入位置信息
输入自然语言序列到编码器(向量化)
通过self-attention和前馈网络
输入(起始)符号到解码器
得到第一个字
输出上下文加权的embeddings
将得到的第一个字落下来,再输入到解码器
得到第二个字
transformer机器翻译流程图
步骤
!git clone https://github.com/huggingface/transformers
!cd transformers; pip install .
下载
前馈网络
Multi-Head Attention
Self-Attention
核心模块
encoder编码器
编解码-Attention
Linear线性层
投影成一维向量
Softmax
解码器堆栈输出
decoder解码器
输入语句
向量化
矩阵相乘
注意力权重
加权求和
self-attention
结构图
Transformer
0 条评论
回复 删除
下一页