stable diffusion-基础知识收录
2024-06-13 20:49:29 0 举报
Stable Diffusion是一种深度学习模型,主要用于生成高质量的图像。该模型基于变分自编码器(VAE)和扩散概率模型(DPM)进行训练,具有强大的生成能力。 它使用PyTorch框架实现,并使用大规模文本-图像对进行预训练。Stable Diffusion在处理文本提示时能生成符合要求的图像,而且它还可以处理图像编辑任务,如空间定位和物体旋转等。 Stable Diffusion模型文件通常包括模型权重和训练代码,可以处理各种图像生成任务。但是,使用过程中需要注意版权问题,因为模型训练的数据来源可能涉及到知识产权问题。
作者其他创作
大纲/内容
安装
常用功能
采样方法
ControlNet 扩展
出图尺寸
总批次数&单批数量
提示词相关性CFG Scale
随机种子 Seed
模型
Hash 哈希值:模型的身份证号。如果 2 个模型的哈希值相同,说明它们本质上是同一个模型文件
功能类型
主模型
扩展模型
常用模型
文件后缀
tag
要求
Stable-Diffusion-WebUI 格式强调符号 () 与 NovelAI 格式强调符号 {}
位置靠前的标签拥有更高权重
比如景色Tag在前,人物就会小,相反的人物会变大或半身。
英文输入法,英文逗号分隔,支持断行、字母大小写
提示词的内容并非越多越好
万能公式
主体内容
这里是用于描述画面的主体内容,比如说是人或者动物,人物的着装、表情,动物的毛发、动作等,物体的材质等。一般同一画面中的主体内容不要超过2个,Stable Diffusion对多个物体的组合生成能力较弱,如果对画面内容有特定要求,可以先挨个生成主体素材进行拼合,然后用controlNet插件约束进行出图。
环境背景
这个很好理解,就是设定周围的场景和辅助元素,比如天空的颜色、四周的背景、环境的灯光、画面色调等,这一步是为了渲染画面氛围,凸显图片的主题。
构图镜头
主要用来调节画面的镜头和视角,比如强调景深,物体位置等,黄金分割构图、中全景、景深。
主要用来调节画面的镜头和视角,比如强调景深,物体位置等,黄金分割构图、中全景、景深。
图像设定
是增强画面表现力的常用词汇,我们经常在一些惊艳的真实系AI图片中看到比如增加细节、摄影画质、电影感等词,可以一定程度上提升画面细节。但注意最终图像的分辨率和精细度主要还是由图像尺寸来决定的,而本地运行的Stable Diffusion支持的绘图尺寸很大程度决定于显卡性能。如果电脑显卡算力跟不上,再多的关键词也弥补不了硬件差距,当然在Stable Diffusion中也有一些实现高清修复的小技巧,我会在后面的文章中为大家介绍。
参考风格
用于描述画面想呈现的风格和情绪表达,比如加入艺术家的名字、艺术手法、年代、色彩等。其实参考风格关键词在Stable Diffusion中使用的并不多,平时我们出图,多数情况下都是先选好特定风格的模型,然后根据模型作者提供的触发词强化风格。因为在Stable Diffusion中,图像风格基本是由模型决定的,如果此前该模型并没有经过艺术风格关键词的训练,是无法理解该艺术词含义的。
最好还是直接使用对应风格的模型来绘图,会比单纯使用提示词有效的多。
权重
参数
支持多层叠加
花括号{1.05}
方括号[0.9]
圆括号(1.1)
直接填写数值(tag:0.5~1.5)
降低案例
tag,[[tag]],tag降低权重1.1*1.1 =1.21倍
tag, [tag],tag降低权重1.1倍
加强案例
tag,(tag),tag 小括号权重加1.1倍
tag,((tag)),tag1.1*1.1=1.21倍
tag,(tag:1.2),tag也是1.2倍
步数
分步绘制
参数N大于1时,表示具体采样送代步数,如N=3时表示3步;
step>1 步数 step<1 占比
参数N小于1时,表示占整个采样送代步数的百分比
如采样送代步数设置为30步时:N=0.3=30%x30=9步
[man:girl:0.9] 让百分之99之前都是画男的
[tagA:tagB:step] 到达指定步数前执行tagA 然后执行tagB
[white:red:10] hair 使用整数就是代表步数 ,这个就是十步之前就用白色
(blue hair:floral headwear:10)(蓝色头发:花朵头饰:10)十步前执行头发,十步后执行后花
图例
停止绘制
图例
[ water :: N ]
N表示采样选代过程中前期绘制的占比,比如 N=0.3 时,表示前面的 30%都有绘制[water],而当步数达到 30%时则不再绘制
结合分步绘制和停止绘制的案例来看, 在Stable Diffusion中模型绘制图像内容并非按照完美百分比的步骤进行绘制,画面内容在前面20步左右时已基本定型,后续的迭代步数更多是丰富细节,基本不会再添加或减少主体内容。
混合
融合提示词:A AND B
到这里有的朋友可能会问,模型本身就是将一段提示词结合起来理解,为什么要额外加上【AND】呢?看完下面这个例子就很好理解了,可以发现如果只是通过逗号分隔,模型绘制时只是简单将黄色和绿色进行填充拼接,而加上【AND】后,模型会将黄色和绿色当作一个词来理解,最终绘制出草绿色。
在提示词间加上AND(必须大写)可以关联前后的元素特征,最终形成具备融合图像的效果AND前后的提示词支持增加权重,比如 ct :12AND dog AND tiger:2.1 由此可以自由控制不同关键词在运算时侧重占比
打断提示词:A BREAK B
在提示词间加上关键词BREAK(必须大写),可以打断前后提示词的联系,在一定程度上减少提示词污染的情况
Stable Diffusion模型在理解提示词时,并非像人类一样逐字逐句的阅读,而是会结合上下文内容来统一理解,这就导致在运行过程中有时候会出现前后关键词相互影响的情况,也就是我们俗称的污染。
交替绘制:[ A/ B ...]
[white:red:0.5] hair 0.5代表百分之五十 渐变
red|blue hair 红色 竖杠 蓝色头发 混合
使用中竖线[1]分隔多个提示词,在外侧加上方括号,运算时模型会在A和B内容间交替切换交替绘制每次绘制只理解单独的关键词,而并非同时将前后提示词一起理解,因此最终的效果只能融合视觉特征,而无法针对颜色等信息进行融合,通常用于绘制猎奇、魔幻等克苏鲁风格。
其他混合
(tagA,tagB:0.9) 表示 A B的 比例是9:1 例如,(sliver,pink:0.9) 银色跟粉色的比例是9:1
[cow|horse] 牛马混合物
矩阵排列:A/B··
配合提示词矩阵Prompt matrix来使用
该语法需要配合提示词矩阵Prompt matrix来使用(脚本中开启),开启后按语法输入,模型会将关键词进行矩阵排列,每个组合的提示词都会生成一张对应的图像,若没有开启则会随机生成其中一张
使用[1]分隔多个提示词,模型会自动将提示进行交叉组合(第一段提示词默认保留),每个组合的提示词都会生成张对应的图像
提示词介绍
反向
常用人体
nsfw, paintings, cartoon, anime, sketches, worst quality, low quality, normal quality, lowres, watermark, monochrome, grayscale, ugly, blurry, Tan skin, dark skin, black skin, skin spots, skin blemishes, age spot, glans, disabled, distorted, bad anatomy, morbid, malformation, amputation, bad proportions, twins, missing body, fused body, extra head, poorly drawn face, bad eyes, deformed eye, unclear eyes, cross-eyed, long neck, malformed limbs, extra limbs, extra arms, missing arms, bad tongue, strange fingers, mutated hands, missing hands, poorly drawn hands, extra hands, fused hands, connected hand, bad hands, wrong fingers, missing fingers, extra fingers, 4 fingers, 3 fingers, deformed hands, extra legs, bad legs, many legs, more than two legs, bad feet, wrong feet, extra feets,
综合人体
nsfw, paintings, cartoon, anime, sketches, worst quality, low quality, normal quality, lowres, watermark, monochrome, grayscale, ugly, blurry, Tan skin, dark skin, black skin, skin spots, skin blemishes, age spot, glans, disabled, bad anatomy, amputation, bad proportions, twins, missing body, fused body, extra head, poorly drawn face, bad eyes, deformed eye, unclear eyes, cross-eyed, long neck, malformed limbs, extra limbs, extra arms, missing arms, bad tongue, strange fingers, mutated hands, missing hands, poorly drawn hands, extra hands, fused hands, connected hand, bad hands, missing fingers, extra fingers, 4 fingers, 3 fingers, deformed hands, extra legs, bad legs, many legs, more than two legs, bad feet, extra feets, badhandv4, easynegative, FastNegativeV2, negative_hand-neg,ng_deepnegative_v1_75t, verybadimagenegative_v1.3
与AI沟通作画内容、质量的语言
分类、书写方式
书写方式
以词组为基本单位,不必需要完整句子
prompt之间输入分隔符,分隔符:英语逗号
分类
内容型
人物及主题特征
穿搭、发型、五官、表情、动作……
场景特征
室内外、大场景(forest,city,street...)、小细节(tree,bush,white flower...)
光照环境
白天黑夜、特定时段(morning,sunset...)、光环境(sunlight,bright,dark...)、天空(blue sky,starry sky...)
画幅视角
距离(close-up,distant)、人物比例(full body,upper body)、观察视角(from above,view of back)、镜头类型(wide angle,Snoy A7 III)
标准化型
画质
通用高画质
best quality,ultra-detailed,masterpiece,hires,8k...
特定高分辨率类型
extremely detailed CG unity 8k wallpaper,unreal engine rendered...
画风
插画风
illustration,painting,paintbrush...
二次元
anime,comic,game CG...
写实
photorealistic,realistic,photograph...
权重与负面提示词
增强提示词权重
加英文括号
每套一层括号权重×1.1,如(((black hair))),权重为1.1的三次方
数字权重
加一重括号后,在提示词后输入英文冒号后直接输入权重倍数,如(black hair:1.5)
负面提示词
避免不想要的元素出现或崩坏等
可尝试用负面提示词生成特殊风格图片
出图参数
采样迭代步数
迭代步数越大,成像越清晰,但步数>20时,往后提升效果并不明显且会消耗更多时间;步数过少(<10)成像效果差
采样方法
AI进行图像生成时使用的算法
宽/高:出图分辨率
硬件允许可适当提升分辨率以提高成像质量
分辨率过高易出现多人多手多脚的成像问题
可先进行一次低分辨率生成,再通过高清修复放大算法放大图片分辨率解决
面部修复
对人物脸部进行修复(写实风格效果较好)
平铺/分块
用以生成无缝贴满屏幕的纹理图片
提示词相关性
提示词相关性越高AI忠实于提示词的程度越高
随机种子
生成批次/数量
同批绘制多图会将多个图片看作一张更大的图片一次性成图,容易爆显存
可降低每批数量,提升生成批次解决
0 条评论
下一页