Stable Diffusion

2023-06-28 19:06:46   7  举报





稳定扩散（Stable Diffusion）是一种描述物质在空间中随时间均匀分布的自然现象。这种现象通常发生在没有外力作用、温度和压力恒定的环境中。在这种条件下，物质分子之间的相互作用使得它们能够以相同的速度向各个方向移动，从而实现均匀分布。稳定扩散是许多自然过程和工程应用的基础，如大气中的气体扩散、溶液中的溶质扩散以及半导体材料中的杂质扩散等。通过研究稳定扩散现象，人们可以更好地理解物质在复杂环境中的行为，为工程设计和环境保护提供理论支持。

stableDiffus

作者其他创作

大纲/内容

Decoder

Random imageinformation tensor

Image Information Creator（UNet+Scheduler）

Diffusion

······

VAriational Autoencoder（VAE）

Tokenembeding

名词说明：1、CLIP model：是deep learning模型，Open AI开发，用于计算机文字转图片（Contrastive Language-Image Pre-Training model）将text prompt转化成tokenizer，将taken转化成向量，然后生成noise。2、Embedding：是基于CLIP模型训练的模型生成的一个向量3、Latent diffusion model：生成速度快、对计算资源和内存消耗需求小的扩散模型。依据seed的数值随机生成tensor，4、VAE：是neural network，把图片转码成Latent或者将latent解码成图片5、U-Net model：预测并生成noise数据。把embedding向量通过Text transformer（的程序运行机制）转化成noise分布预测值。 (1)Noise is sequentially added at each step. (2)Noise predictor estimates the total noise added up to each step.6、Fine-tuned models：是针对某个风格的图片而训练的模型7、Text Conditioning：通过转化prompt生成noise数据，从而指导生成图片样式8、设置参数： (1)sampler：The diffusion sampling method ，Default is “K_lms”。sample特性取决于小模型的训练方式和数据集 (2)seed: The seed used to generate your image。noise数据，强关联图片效果 (3)steps:How many steps to spend generating(diffusing) your image。设置重复的演算的次数，呈现结果 (4)CFG scale: CFG scale adjusets how much the image will be like your prompt。

seed

U-NetStep1

Encoder

Text Encoder（CLIPText）

Processed imageinformation tensor

U-NetStep50

Latent space

U-NetStep2

step

VAE transforms the image to and from the latent space

ImageDecoder（Autoencoderdecoder）

CFG scale