CLIP多模态预训练模型
2025-03-26 00:22:27 0 举报
CLIP(Contrastive Language-Image Pre-training):是一种多模态预训练神经网络。通过对比学习将图像和文本映射到共享特征空间,支持零样本分类和跨模态检索,广泛应用于图文匹配、生成式AI等领域。
作者其他创作
大纲/内容
对比学习(构建相似性矩阵)
输入处理(分别提取文本、图像特征向量)
I₁·T₂
阶段1:Contrastive pre-training
...
I₁·T₃
文本编码器(基于Transformer模型)
图像编码器(基于ResNet或ViT架构)
ImageEncoder
I₁·T₁
I₂
I₁
I₃
T₂
T₁
T₃
Tₙ
pepper the aussie pup
TextEncoder
I₁·Tₙ
I₃·T₃
dog
阶段3:Use for zero-shot predictiion
I₂·T₂
I₂·T₁
A photo ofa dog.
I₂·T₃
CLIP(Contrastive Language-Image Pre-training)模型的训练分为三个阶段:1、Contrastive pre-training:预训练阶段,使用图片-文本对进行对比学习训练;2、Create dataset classifier from label text:提取预测类别文本特征;3、Use for zero-shot predictiion:进行零样本推理预测。
I₃·T₂
plane
I₃·T₁
A photo ofa [object].
阶段2:Create dataset classifier from label text
Iₙ
Iₙ·T₂
Iₙ·T₁
Iₙ·T₃
Iₙ·Tₙ
I₃·Tₙ
I₂·Tₙ
bird
CLIP 多模态模型结构图
car
0 条评论
下一页