MoE混合专家模型
2025-03-25 17:33:04 0 举报
本作品展示的是混合专家模型(MoE,Mixture of Experts)的典型结构:将 Transformer 中的前馈网络 (FFN) 层替换为由门控网络和多个专家组成的 MoE 层。
作者其他创作
大纲/内容
p=0.65
y2
p=0.8
MoE 模型的典型架构(参考自:Google 的 Switch Transformers)
x
y1
残差连接和归一层
位置嵌入
FFN1
FFN2
FFN3
FFN4
y
Router
动态切换的前馈网络层(Switching FFN Layer)
自注意力
Parameters
x2
x1
混合专家模型(MoE)
More
该混合专家模型 (MoE,Mixture of Experts) 架构:将 Transformer 中的前馈网络 (FFN) 层替换为由门控网络和多个专家组成的 MoE 层。
0 条评论
下一页