登录免费注册

首页  流程图  详情

Vision-Transformer

2021-10-24 16:25:55   78  举报





Vision-Transformer是一种基于自注意力机制的深度学习模型，用于计算机视觉任务。它由多个编码器层和解码器层组成，每个层都包含多头自注意力机制、位置编码和前馈神经网络。与传统的卷积神经网络不同，Vision-Transformer不需要局部感受野或卷积操作，而是直接对整个图像进行处理。这使得它可以更好地捕捉全局信息和长距离依赖关系，从而提高了图像分类、目标检测等任务的性能。此外，Vision-Transformer还具有较低的计算复杂度和内存占用量，可以在大规模数据集上进行高效的训练和推理。

Computer vision

作者其他创作

大纲/内容

EmbeddedPatches

1

6

Multi-HeadAttention

4

GELU

Transformer Encoder

Dropout/DropPath

L x

MLPBlock

+

7

Dropout

197x768

MLPHead

197x3072

Linear

Layer Norm

*

*Extra learnable[class] embedding

Linear Projection of Flattened Patches

5

Norm

EncoderBlock

0

MLP

8

Patch+PositionEmbedding

3

9

ClassBirdBallCar...

Vision Transformer(ViT)

2

Vision-Transformer

 收藏

立即使用

Vision-Transformer

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



Vision TroubleShooting

Vision TroubleShooting

Untitled Diagram

Untitled Diagram

Influences on the vision

Influences on the vision

Strategy Flow Through Budgeting Process

Strategy Flow Through Budgeting Process

transformer架构

Business Planning for Artists – The Planning Process

Business Planning for Artists – The Planning Process

必收藏！GNN五大模型架构(GCN、GAT、GraphSAGE、图Transformer、时空图网络)

必收藏！GNN五大模型架构(GCN、GAT、GraphSAGE、图Transformer、时空图网络)