Stable Diffusion 主要核心概念
2024-05-17 14:36:42 1 举报
AI智能生成
简单该要介绍Stable Diffusion 的主要核心概念
作者其他创作
大纲/内容
绘图大模型
Checkpoint
Checkpoint 大模型是一种深度学习模型,是stable diffusion的主模型,包含了大量的场景素材,所以它的体积很大
(2G-7G),其它模型都是在它基础上做一些细节的定制。文件后缀名:cpt、safetensors
(2G-7G),其它模型都是在它基础上做一些细节的定制。文件后缀名:cpt、safetensors
打比方:Checkpoint就是一个底模,出图都是基于它,没他不行,把它当一个人,裸着的人。
SDXL
SDXL(Stable Diffusion XL) 是Stable Diffusion系列的最新版本,是最新的图像生成模型。与以前的 SD 模型(包括 SD 2.1)相比,它专为更逼真的输出而定制,具有更详细的图像和构图。根据官网介绍,SDXL1.0 是目前世界上最好的图像生成模型。对电脑配置要求更高(显存必须8G,最好16G以上;内存32G以上)
是一个二阶段的级联扩散模型,包括Base模型和Refiner模型
Base模型:主要工作和Stable Diffusion一致,具备文生图,图生图,图像inpainting等能力。(由U-Net,VAE,CLIP Text Encoder(两个)三个模块组成)
Refiner模型:对Base模型生成的图像Latent特征进行精细化,其本质上是在做图生图的工作。(由U-Net,VAE,CLIP Text Encoder(一个)三个模块组成)
使用方法
1、需要下载两个模型文件sd_xl_base_1.0.safetensors和sd_xl_refiner_1.0.safetensors,以及SDXL VAE文件。将下载的模型文件放到SD文件夹的_stable-diffusion-webui/models/Stable-Diffusion_路径下,并将VAE文件放到_stable-diffusion-webui/models/VAE_路径下。
2、在WebUI中,使用提示词与反向提示词进行文生图,或使用img2img进行图生图。注意,由于SDXL的基础模型是在1024x1024分辨率下设置的,因此需要设置分辨率为1024x1024或更大,采样步数为30,采样方法为DPM++ 2M Karras或其他DPM++采样器。
绘图小模型
Lora
LoRA(Low-Rank Adaptation)是一种大语言模型低秩适配器,属于微调模型,可以看作是大模型的补充。,一般用于控制画风、控制生成的角色、控制角色的姿势等等,相比于主模型,lora模型更加轻巧(只有几十MB),训练效率也更高。
打比方:修饰模型,梳妆打扮用的,把他当成你穿的衣服、配饰、围巾等等。
文件后缀名:cpt、safetensors、pt 常见大小几十MB
LoRA的引入极大地降低了训练的门槛,扩大了产出模型的适用范围。这意味着即使是非专业人员也可以在家用电脑上尝试训练自己的LoRA模型,从而更灵活地适应不同的任务和需求。
可以将大型模型比作素颜的人,因为它们通常生成的图片与原始数据相似,但可能缺乏一些细节或特定的特征。而LoRA模型则像是进行了化妆、整容或cosplay,它们能够通过增加细节、调整风格或改变外观,使生成的图片更加精美或符合特定的要求。
可以将不同画风的SD LoRA模型以不同的比例混合,从而进一步增加生成图片的多样性和可控性。
使用方法:WebUI中点击左侧的小红灯,然后在LoRA菜单中点击使用。也可以直接使用Prompt调用。
LyCORIS
属于微调模型,一般用于控制画风、控制生成的角色、控制角色的姿势等等。
文件后缀:.safetensors,
使用方法:WebUI中点击左侧的小红灯,然后在LoRA菜单中点击使用。也可以直接使用Prompt调用。
VAE(大模型已自带,基本不太用的到)
变分自编码器(Variational Autoencoder,VAE)。是一个美化模型,类似于颜色滤镜的工具,用于调整和改善生成图片的色彩,现在一般已包含在很多Checkpoint大模型中。文件名后缀:cpt、pt, 名字中带有VAE
用于图片亮度和饱和度的修正、画面较正和以及补光等。一般在绘图时如果出现图片亮度过低、发灰等问题时就需要用到。
选择是否使用VAE模型通常对最终生成的图片效果并没有太大的影响。相比之下,VAE模型并不像其他模型(比如LORA模型)那样在绘图中的作用和效果十分明显。在测试中尝试了几个常用的大型模型,发现使用或不使用VAE模型对最终生成的图片效果的区别并不明显。
Embedding
Embedding也称Textual Inversion,可以理解为一组数量众多提示词的集合,是一个嵌入模型,Embedding模型的主要作用是调教文本理解能力。将很多提示词汇总到一个Eembedding文件中。当需要使用这些提示词时,只需调用一个词(即引用这个Embedding文件),就达到了输入很多提示词的作用。
文件名后缀:pt, 常见大小 几十KB
Embedding可以用于正向提示词,也可以用于负向提示词。但在大多数情况下,它通常用于负向提示词,因为负向提示词的数量通常很多,而且复用性较高。例如,在人物绘图时,对于描述手指可能会使用诸如“坏的手指”、“多余的手指”、“缺失的手指”等多个负向提示词,同样的情况也适用于其他身体部位如腿、手等。这导致在绘图时需要频繁输入这么多的负向提示词,因此有时候负向提示词的数量远远超过正向提示词。
使用方法:WebUI小红灯中的Textual Inversion,也可以使用Prompt调用。
Hypernetwork(用不太到)
是一个超网络模型。Hypernetwork模型的主要功能是定制生成图片的画风和风格。用于调整模型神经网络权重,进行风格的微调。通过使用Hypernetwork模型,可以对生成的图片进行更加细致的风格调整和定制化处理
文件名后缀:pt, 常见大小几十KB
Controlnet
ControlNet是一个及其强大的控制模型,它可以做到画面控制、动作控制、色深控制、色彩控制等等。使用时需要安装相应的扩展才可(Extensions页面搜索 ControlNet 扩展,然后 Install 并 Reload UI),
文件后缀:.safetensors
下载资源
C站
civitai.com
以上来源自以下学习资料
https://blog.csdn.net/matt45m/article/details/136180796
https://blog.csdn.net/u011936655/article/details/130942540
https://blog.csdn.net/weixin_47748259/article/details/135541372
https://zhuanlan.zhihu.com/p/649755020
https://zhuanlan.zhihu.com/p/671406369
欢迎一起组群交流Stable Diffusion,微信 bigbod (请说明来意:加群讨论AI)
自由主题
0 条评论
下一页