【算法】6个深度学习模型图
2024-12-06 08:40:48 1 举报
包含预训练语言模型(Bert)、词向量(Word2Vec)、扩散模型(Diffusion)、生成对抗网络(GAN)、长短期记忆网络(LSTM)、基于注意力机制的神经网络(Transformer),共6个深度学习模型图。
作者其他创作
大纲/内容
Feed Forward
真实样本x
生成假样本
tanh
投影
输入(one-hot)
X
CBOW 模型
输出
Skip-Gram 模型
w(t-1)
w(t+2)
w(t+1)
问题
w(t)
累加
Time Representation
σ
MASK后的句子 A
w(t-2)
微调训练
OutputProbabilities
段落
MASK后的句子 B
判别器Discriminator
真/假?
生成器Generator
Transformer
Word2Vec 词向量
GAN 生成对抗网络
Diffusion 扩散模型
随机噪声
隐空间
Add &Norm
...
Tok 1
开始/结束的位置
② 微调阶段(Fine-Tuning)
Tok M
BERT
SQuAD
MASK语言模型
① 预训练阶段(Pre-training)
[CLS]
Tok N
[SEP]
InputEmbedding
LSTM 长短期记忆网络
(NSP:预测下一个句子)
T′1
E’1
NSP任务
N×
C
T[SEP]
T1
T′M
TN
MaskedMulti-HeadAttention
Linear
+
OutputEmbedding
Bert 模型结构
MNLI
E1
Xt
E[CLS]
t
EN
E[SEP]
εθ(Xtspan style=\"font-size:31px; font-family:Times New Roman; color:#000000; letter-spacing:0px;\
(基于上下文预测中心词)
NER
E’M
(基于中心词预测上下文)
Fully-connected Layers
Multi-HeadAttention
Outputs(shifed right)
inputs
解码器
编码器
PositionalEncoding
Softmax

收藏

收藏
0 条评论
下一页