首页  流程图  详情

CLIP多模态预训练模型

2025-03-26 00:22:27   1  举报





CLIP（Contrastive Language-Image Pre-training）：是一种多模态预训练神经网络。通过对比学习将图像和文本映射到共享特征空间，支持零样本分类和跨模态检索，广泛应用于图文匹配、生成式AI等领域。

CLIP

多模态

预训练模型

神经网络

算法架构

作者其他创作

大纲/内容

对比学习（构建相似性矩阵）

输入处理（分别提取文本、图像特征向量）

I₁·T₂

阶段1：Contrastive pre-training

...

I₁·T₃

文本编码器（基于Transformer模型）

图像编码器（基于ResNet或ViT架构）

ImageEncoder

I₁·T₁

I₂

I₁

I₃

T₂

T₁

T₃

Tₙ

pepper the aussie pup

TextEncoder

I₁·Tₙ

I₃·T₃

dog

阶段3：Use for zero-shot predictiion

I₂·T₂

I₂·T₁

A photo ofa dog.

I₂·T₃

CLIP（Contrastive Language-Image Pre-training）模型的训练分为三个阶段：1、Contrastive pre-training：预训练阶段，使用图片-文本对进行对比学习训练；2、Create dataset classifier from label text：提取预测类别文本特征；3、Use for zero-shot predictiion：进行零样本推理预测。

I₃·T₂

plane

I₃·T₁

A photo ofa [object].

阶段2：Create dataset classifier from label text

Iₙ

Iₙ·T₂

Iₙ·T₁

Iₙ·T₃

Iₙ·Tₙ

I₃·Tₙ

I₂·Tₙ