深度学习
2024-08-09 16:46:17 17 举报
AI智能生成
深度学习思维导图
作者其他创作
大纲/内容
卷积神经网络CNN
概念
卷积
寻找特征
池化
压缩数据
激活
加强特征
全连接
非线性分类
LeNet5
AlexNet
VGGNet
GoogLeNet
网络结构
具体参数
引入Inception结构,融合不同尺度的特征信息,由原本网络的串行结构,变为并行结构
添加两个辅助分类器帮助训练
使用1*1卷积核进行将为以及映射处理
丢弃全连接层,使用平均池化层,大大减少模型参数
ResNet
梯度消失或梯度爆炸:反向传播过程中梯度的逐层传播所引起,层数越多越明显
退化问题(现象):随着网络层数的增加,深层网络的训练误差反而会增大,而不是减少。
残差块
BasicBlock模块,使用两个3x3卷积,适用ResNet18和ResNet34
Bottleneck模块,用所更深层ResNet网络
总体网络各个层次
conv1:一个7x7卷积层,做最大池化
4个残差层,每一层具有不同数量的残差块
最后经过全连接层、平均池化等输出
Transformer框架
架构:输入经过Transformer的编码器和解码器后得到输出
编码器
自注意力层:生成K、V、Q矩阵,将K、V矩阵输入到解码器中
解码器
自注意力层:初始化Q、K、V矩阵,Q矩阵输入到后续的交叉注意力层
交叉注意力层:使用编码器输入的K、V矩阵和自己的Q矩阵做交叉注意力,生成新的词
自注意力层:使用新生成的词更新K、Q、V矩阵
循环神经网络RNN
RNN
使用ht用来记录上一时刻信息,使用xt和ht-1进行下一时刻预测
长短期记忆网络(LSTM)
除了ht以外,还有ct记录长期信息,使用xt、ht-1、ct-1进行下一时刻预测
门控循环单元
部分概念
激活函数:Sigmoid、ReLU、Tanh(同机器学习)
损失函数:均方误差MSE、交叉熵损失(同机器学习)
优化:梯度下降、Adam、RMSprop等
正则化:L1/L2正则化、Dropout、Batch Normalization
Dropout:随机扔掉一定比例的神经元
批量归一化BN:求均值μ和方差σ²后归一化
感知器和多层感知机
注意力机制
概念
查询Query:模型在处理当前时间步或位置时要关注的内容,可以看作是用来查询相关信息的向量
键Key:所有可能与查询相关的内容的表示,用来与查询匹配的向量
预训练模型
上下文相关的词嵌入模型Contextual Embeddings:BERT, GPT,生成的词向量会根据上下文变化,可以每个词中提取出语义向量
预训练的词嵌入Word Embeddings:Word2Vec, GloVe,将每个词转化为一个固定的向量
在线训练
注意力机制
自注意力机制Self-Attention:处理同一序列内部的注意力
单头注意力机制:Single-Head Attention
多头注意力机制:Multi-Head Attention
交叉注意力机制Cross-Attention:处理不同序列之间的注意力,常用于编码器-解码器结构中
全局注意力机制Global-Attention:对所有位置进行注意力计算,适合捕捉全局依赖
局部注意力机制Local-Attention:限制注意力范围,适合处理长序列数据
神经网络:CNN、RNN/LSTM/GRU、GNN等
值Value:实际信息或内容,与每个键相关联。在计算注意力时,使用权重加权这些值,得到最终的输出。
自注意力机制
对于一句话假设输入有其中两个单词:Thinking、Machines
根据使用的预训练模型,得到单词词向量Embedding和向量矩阵Wq、Wq、Wv
根据词向量和向量矩阵点乘计算的到每个单词的Q、K、V
遍历每个单词q,与别的单词k相乘
乘积/√(k维度),减小数值,防止softmax差距过大
每个softmax后的值与V相乘相加得到z
至此,每个词的得到的新的词向量z,包含了该词与别的词之间的关系
掩码自注意力机制
M :掩码矩阵,具有与Q*KT相同的维度
多头注意力机制
将输入X分割成n个Embedding,得到n个Q、K、V,求出Z后拼接成一个新的向量
交叉注意力机制
在自注意力机制中,Q、K、V为同源(X)向量,交叉注意力机制中,Q来自不同源数据
位置编码公式
pos表示词在序列中的位置,从0开始。
dmodel表示词嵌入的维度。
i 表示词嵌入的维度索引。
PE为位置编码矩阵。
dmodel表示词嵌入的维度。
i 表示词嵌入的维度索引。
PE为位置编码矩阵。
0 条评论
下一页