2025主流深度学习模型架构(Transformer、混合专家模型、多模态、GAN、GCN、Diffusion)
2025-03-26 01:02:01 3 举报
本作品聚焦2025年主流模型,包含Transformer、混合专家模型(MoE)、CLIP多模态模型、生成对抗网络(GAN)、图卷积神经网络(GCN)、扩散模型(Diffusion)共6张架构图。采用顶刊论文的配色,可作为论文绘图模板。同时,作品中所有文字与元素均可修改,可在线编辑,也可导出为PPT格式进行优化。
作者其他创作
大纲/内容
前馈层
位置嵌入
I₁·T₃
...
FFN1
y2
GCN(Graph Convolutional Network) 的经典模型架构图
真实样本x
y
#d6e9d5
I₃·T₃
I₂
#fad8ad
#cfcee3
T₁
文本编码器(基于Transformer模型)
y1
Tₙ
#afe3e6
配色参数参考
生成器Generator
x
I₂·T₁
FFN3
Iₙ·T₃
对比学习(构建相似性矩阵)
输入处理(分别提取文本、图像特征向量)
Router
(Switching FFN Layer)
Nx
输出概率
ImageEncoder
输出(右位移)
Diffusion 扩散模型图
残差连接和归一层
εθ(Xtspan style=\"font-size:31px; color:#000000; letter-spacing:0px;\
I₁
Xt
真/假?
Input layer
Parameters
Iₙ·T₁
位置编码
I₂·T₂
掩码多头自注意力
输出嵌入
输入嵌入
TextEncoder
I₃
线性层
Softmax 层
多头自注意力
隐空间
Iₙ·Tₙ
#ffcccc
I₁·T₂
GConv-2
输入
Hidden layers
MoE 模型的典型架构(参考自:Google 的 Switch Transformers)
01 Transformer
p=0.65
自注意力
FFN4
02 混合专家模型(MoE)
06 扩散模型(Diffusion)
I₃·T₁
Iₙ
T₂
CLIP 模型结构图(预训练阶段的)
I₂·T₃
t
Time Representation
FFN2
p=0.8
图像编码器(基于ResNet或ViT架构)
I₁·T₁
I₃·Tₙ
判别器Discriminator
Iₙ·T₂
05 图卷积网络(GCN)
I₂·Tₙ
动态切换的前馈网络层
微调训练
I₃·T₂
Softmax
04 生成对抗网络(GAN)
03 CLIP多模态模型
T₃
pepper the aussie pup
CLIP(Contrastive Language-Image Pre-training)模型是一种多模态预训练神经网络,训练分为三个阶段:Contrastive pre-training:预训练阶段,使用图片-文本对进行对比学习训练;【本图中展示的】Create dataset classifier from label text:提取预测类别文本特征;Use for zero-shot predictiion:进行零样本推理预测。
GConv-1
x1
GAN 生成对抗网络模型图
该架构是 GCN 在半监督节点分类中的典型应用,通过图卷积操作融合节点自身特征与邻域结构信息,最终完成分类任务。
Output layer
生成假样本
More
Fully-connected Layers
x2
随机噪声
该MoE (Mixture of Experts) 架构:将 Transformer 中的前馈网络 (FFN) 层替换为由门控网络和多个专家组成的 MoE 层。
I₁·Tₙ
0 条评论
下一页