AI绘画软件Stable Diffusion保姆级教程：原理功能到技巧全解析

作者：每日干货分享

发布时间：2025-11-05 16:28:11 浏览量：49 0

由于AI技术取得进步，致使我们的工作面临更多挑战，举例来说，好多人兴许对新冒出来的AI绘画软件应用，感到不太娴熟。在本篇文章当中，作者针对这款AI绘画软件的运用，输出了这份“保姆级教程”，一块儿来瞧瞧本文所进行的解读。

码文字这件事不容易，有关于SD的保姆级教程，它从原理功能开始，接着到案例输出展示，最后还有简述的使用技巧，图文篇幅大概在1万5千字左右，阅读所需时长大约是20分钟～。

的基本介绍

除了官方给出的解释。

它和MJ有什么区别？

为了更方便的理解，我们将与做一个对比：

一、基础介绍1. 提示词

提示词分为两个部分。

1）正向提示词

在进行图像生成这个行为的时候，我们借助正向提示词这种方式来把心目中期望生成的那种图像予以明确指定，可以是脑海里构想出来的一幅画面或者是一句话，把它分解成为不一样的关键词，并且用逗号间隔当作输入。

ii. 要留意，相同指令于不同模型库以及参数状况下，所生成的输出图像或许会存在差异。另外，提示词顺序极为关键，因该顺序会对生成图像的权重产生影响。一般情形下，越靠前的提示词权重越大，越靠后的提示词权重越小。

2）排除词

你画面中不想出现的东西，是输入框内输入的标签内容，像低质量的，缺手指，五官不齐等等。

下图给大家做一个案例演示。

3）提示词拆分

对于那些用提示词去生成图像的小伙伴而言，当看见了自己喜欢的图像，或者脑海当中浮现出诸多画面，然而却不清楚该怎么用提示词将其准确描述出来，此刻存在三种方法，能够助力大家快速地进行拆分以及生成图像。

其自带反堆功能，能够经由把想要拆分的图像拖进反堆，再点击按钮来获取生成该图像的提示词。初次使用之时可能会有一些慢，得稍微等候一会儿。

需要留意的是，这些提示词要实行后期的优化，常见的办法是经由百度翻译后予以增删改，或者输入至GPT里开展优化，优化完毕后把提示词置入相应的框内来进行图像输出。

二，第二种办法我们能够借助三方网站，来予以拆分，拆分完毕后，跟第一条情形相同，开展一次增删改，接着我们针对两种办法实施比较，经由比较之后，我们能够展开词汇的筛选以及合并。

iii.借助gpt或者文心等有关工具，把想要表达的长句子输进去，在最后添加一句说明，把这句话拆解成的提示语，当不满意时能够持续恢复优化提示语，又或者更换一堆相关表述，接着把转换好的提示语像i那样进行增删改变。

2. 符号的使用

鉴于在前文当中已经有所讲述，词汇于提示里所处的位置越是靠近前面，那么它所占据的权重也就会越大。为了能够对提示关键词的权重做进一步的调整，我们能够借助以下的语法去设置关键词的权重：当选中关键词之际，按下键盘上面的Ctrl加上方向键上可以快速地调整权重。每一次调整的权重数值是0.1，建议把权重数值控制在0.7至1.4之间。

总之，把每一个提示词视作一个个单独的个体单位，权重被默认设定为1，而后边的数值等同于在对这个默认取值进行更改。当然啦，我们能够把权重调节为负数状态，因而在此期间在提示里面制造出与原本意思恰恰相反的效验。

借由这样的方式，我们能够更为精准地把控提示关键词的权重，进而达成更佳的提示效果，与此同时的是，我们同样要留意维持提示内容的流畅性以及自然性，防止过度的修改致使提示内容的语义出现不连贯或者不符合实际情形的状况。

3. 图像的输出

输出图片的大小决定着画面的信息量，在全身构图里，存在一些细节，像脸部、饰品以及复杂的纹样，唯有在较大的图像之中，才能够获取到充分的展示空间，要是图像过小，脸部、手部以及一些细节就会被压缩成一团，没办法得到充分的表现，拿以下图的风景来说，画幅越大的时候，展示的内容就会越多。

二、界面部分1. 采样迭代步数

输出那般画面所需的步数，每一回采样的步数，皆是于前一回的迭代步骤之基础上，去绘制进而生成一幅全新的图片，通常来讲，采样迭代其步数保持在18至30左右便可以了，较低的采样步数是会致使画面计算没完成的，而较高的采样步数仅仅是在细致之处予以优化，与输出速度相比得不偿失呦。

2. 采样方法的介绍

有三种是常用的，其一为Euler a，其二为DPM++2S a，其三为DDI 。

Euler a：

用于控制时间步长大小的可调参数是Euler a，中采用的时间步长采样方法是Euler。适当的Euler a值能捕捉细节与纹理，然而若值太大，会致使过度拟合，生成图像出现噪点等不良状况。

ii. 一句话概括：采样生成速度是最快的，然而要是在高细节图增加采样步数的情况下，就会出现不可控突变，像人物脸扭曲、细节扭曲这类情况。

适合：ICON，二次元图像，小场景。

下图为大家展示同提示词不同步幅。

DPM++2S a ：

一、采用DPM++2S a采样方式来生成具备高质量的图像，此方法于每个时间步长期间会执行诸多操作，在同等分辨率情形下所呈现的细节会更为丰富，举例来说能够在较小尺寸的图像里容纳全身，然而其代价则是采样的速度会变得更为缓慢。

ii. 适合：写实人像，复杂场景刻画。

如下的图，将elura a，与提示词，在不同步幅状况下的输出图像予以展现，能够见到，步幅越是高，细节方面的刻画就越是好。

DDIM

其一，DDIM采样方法用来生成高质量图像时速度能够很快，它比别的采样方法效率要高不少，打算尝试数目极高的步数之际能够运用它，随着所进行的步数增多这样能够叠加出细节。

ii. 适合：写实人像，复杂场景刻画。

图如下方所示为各位呈现出DDIM随不同提示词，而步幅各异时情况下的输出图像，能够明确看到，伴随着步幅不断提升，细节以及丰富程度渐渐得以提高。

3. 提示词相关性

关于中的提示词相关性，其指的是输入提示词给生成图像所带来的影响程度。当我们去提升该提示词相关性的时候，所生成的图像将会更契合提示信息所展现的样子；反之，要是提示词相关性偏低，与之对应的权重同样较小，那么所生成的图像就会愈发随机。所以，借助调整提示词相关性，能够引导模型生成更符合预期的样本，进而提升生成的样本质量。

一、于具体运用之中，针对于人物类别之提示词而言，通常会把提示词相关性限定于7至15之间。

ii. 对于建筑等大场景类的提示词，一般控制在3至7左右。如此一来，能够在一定程度上突出随机性，与此同时不会影响生成图像的可视化效果。因而，提示词相关性有助于我们借助引导模型生成更契合预期的样本，进而提高生成的样本质量。

4. 随机种子

对于随机种子而言，它是这样一个值，这个值能够锁定生成图像的初始状态。一旦使用相同的随机种子以及其他参数，我们就能够生成完全一样的图像。去设置随机种子有这样的作用，它可以提升模型的可比性，还能够增强可重复性，与此同时，它也可被用于调试以及优化模型，进而能够观察不同参数对于图像所产生的影响。

ii. 在其中，常用的随机种子存在-1以及其他数值。当输入-1，或者点击旁边的骰子按钮时，所生成的图象是全然随机的，不存在任何规律可讲。而当输入其他随机数值时，就等同于锁定了随机种子对画面的影响，如此每次生成的图象仅仅会有微小的变化。所以，运用随机种子能够控制生成图象的变化程度，进而更好地探究模型的性能以及参数的影响。

于工作产出里，要是进行细微调整，随之我们会将某个种子参数予以固定，而后展开批量生成。

三、，VAE，和lora的使用详解

1. 安装路径自查

2. 的介绍

对于模型作者来讲，训练模型一般是指生成文件，它们涵盖了模型参数以及优化器状态等信息，是在训练进程里定期留存的状态抓拍，存在于文件之中，这些文件是训练环节定期保存的状态快照。

二、对于使用者来讲，能够把文件视作一种风格滤镜，像油画风格、漫画风格、写实风格等等。经由挑选相应的文件，你能够把模型生成的结果转化为你所挑选的特定风格。要留意的是，有些文件可能得跟特定的低码率编码器（就比如说Lora）搭配使用，从而获取更好的效果。

在将文件进行下载这个行为的时候，您能够对相应模型的简介来进行查看哦，一般而言呢，作者会把与之对应的文件以及说明事项加以提供，目的是可以辅助您能够更加良好地对该文件去进行使用同时理解它呀。

总之，文件是在模型训练进程里定期予以保存的状态快照，使用者能够把它理解成一种风格滤镜，用来把模型输出结果转变为特定的风格。在使用该文件之际，要留意文件的匹配以及相应的使用说明。

3. VAE的介绍

一、能够把VAE视作针对模型的滤镜予以加微调，不一样的VAE没准存在某些方面儿的差异了，然而并不会对输出的效果产生影响的。

它能够增强模型的表现，存在一些模型文件已然自带了VAE效果，所以不需要毫无头绪地去挂载，能够选择自动模式以简化日常使用。

4. 的介绍

倘若你曾具备做UI的经历，那你理应晓得组件的观念。而于其中，技术能够被领会成一种组件，它能够把输入数据转化成向量呈现，以便利模型予以处理和生成。

ii. 比如说，要是我们打算去生成一只呈现开心状态的皮卡丘模样的形象，一般来讲是需要去输入好多用于描述的词汇的，像身上毛茸茸的黄毛，类似老鼠的外形轮廓，那对长长的耳朵，以及脸颊两边类似粉色圆晕的腮红等等诸如此类的描述词。然而呢，要是把皮卡丘的概念给引入进来，我们所需要做的仅仅是输入两个词：皮卡丘和开心。皮卡丘它自身已经将所有关于皮卡丘这一特定形象的特征描述给整合打包起来了，如此一来我们便无需每一回还需要众多单词来对生成的画面进行人为控制了。

在日常运用期间，技术常常被用来调控人物的动作以及特征，要么是去生成特定的画风。相较于其他模型，像LORA，它所占空间大小仅有几十KB，并非几百兆或者几GB，虽说在还原度方面比lora要逊色些许，然而在存储以及使用层面更为便利。

总体而言，技术把输入数据转变为向量表示，给模型的处理以及生成创造了便利条件。借助使用，我们能够更为轻易地生成契合预期的样本，而无需手动去输入众多的描述词汇。

5. LORA的介绍

LORA与之在本质方面存在类似之处，鉴于其携带了数量众多的训练数据，故而LORA针对人物以及细节特征的复刻会显得更为细腻。

使用技巧：

通常来讲，每一个LORA模型，都存在与之对应的底膜以及触发词汇，我们能够去查看LORA作者所产出的相关图片，于其中获取模型信息，并且从中挑选一些提示词以及排除词，以此来指定生成图像的方向，需要留意的是，每一个LORA模型对于输出图像的权重设置是极为重要的，权重设置越大，对画面的影响因素就越浅，通常情形下，权重应当控制在0.7至1之间，要是权重过高，会大幅度影响出图的质量。

ii. 为获取最佳效果，我们能够依据各异的LORA模型挑选适宜的提示词以及排除词，并且于设置权重之际予以调整。与此同时，我们还能够参考别的作者的经验与技巧，以便更为妥善地借助LORA生成图像。

四、图生图下的功能详解

简介：

存在这样一种生成图像的方式，当中，那是能够借助对已然存在的图像展开修改或者变形操作，进而生成新颖图像的法子。于其中，我们能够把垫图具备的图象视作一张“当初的图像”，借由经历众多回的迭代，针对它予以修改以及变形，一步步生成和垫图风格相较却为自己想要的图片。

需注意的是图生图相对于文生图多出两个功能。

重绘幅度：

图像在每次迭代里被重新绘制的状况，或者说幅度，这就是i所指的，其实际上是新生成的图像，跟上次迭代生成的图像之间的差异程度。

ii. 它的取值处在0至1这个范围当中。当值为0之际，新产生的图像跟上次迭代所生成的图像全然相同，也就是不存在重新绘制的情况，。

当那个值等于1的时候，新产生的图像跟前面上一次迭代时候所生成的图像全然不一样，也就是要开展完全重新的绘制操作。

需要留意的是，重绘幅度的大小会对生成图像的质量以及逼真程度产生影响。就是在重绘幅度比较小的时候，所生成的图像有可能会比较模糊，或者比较粗糙，。

当重绘幅度较大时，生成的图像可能会出现明显的噪点或瑕疵。

缩放模式：

直接缩放：

把图像缩小，这一行为是指，对图像开展简单的缩放操作，也就是直接把原始的那种图像，按照要求缩放到目标尺寸大小。

在某种情况下，若生成的图像尺寸跟原始图像尺寸不一样，那就得开展缩放处理。存有这样一种情况是，将原始图像直接缩放到目标尺寸，不做任何额外处理，这是一种简单粗暴的缩放方式。这种方式的优点在于简单且快速，然而缺点是，有可能导致图像失真或者模糊，尤其是在缩放比例比较大的时候。

1. 图生图

专门起到用于图片放大的作用，以及用于造型背景的改变，或者是在三次元转变为二次元的时候所运用的，向来是搭配起来予以使用的。

2. 绘图

通过手动绘制，或对图像的局部区域予以修改，以此指导生成器进而生成更契合用户期望的图像，使用期间能够借助绘图工具，像笔刷、橡皮擦等这般，针对图像的局部区域开展修改。修改过后的图像会被当作下一次迭代的初始图像，如此一来便会影响后续的图像生成过程。

首先，ii. 这一项，接着，借助绘图这种方式，其次，能够更为精细地去控制生成图像的细节以及特征，进而，最终，便可获得更符合预期输出的结果。

3. 局部重绘

其一，它还被称之为上传蒙版法，事先要在作图软件当中，运用画笔去涂抹好那部分需要重新进行绘制的区域，其中黑色的区域意味着是需要修复的区域，而白色的区域则表明是不需要修复的区域。

留意着，因而仅供唯有于所需修复的区域涂抹成黑色，其余的区域能够涂抹成白色或者留存原始的颜色。要是进行上传蒙版的操作，那么也仅是在绘图软件当中把需要修复的区域涂抹为黑色便行了。

第二点，局部重绘有着这样的目的，那就是要尽可能地去保留原始图像的结构，以及纹理的特征，通过这样的方式，从而使得修复之后的图像，变得更加自然，更加真实。

4. 批量处理

所指的是运用已存在的图像去生成全新的图像，并且针对图生图的批量处理而言，它指的是在同一时候对很多张输入的图像进行图生图的操作，进而生成与之相对应的很多张输出图像。

五、的使用1. 一图搞定插件安装

权重：

的权重与图生图权重的对比关系时：

预处理器与模型的关系：

在使用预处理器之际，需将其与模型逐个对应起来，举例而言，要是与处理器所选择的是canny，那么与之相对应的那个模型同样得选择canny。

ii. 预处理器与模型于其中呈现出相辅相成的态势，预处理器凭借针对输入图像加以预处理及数据增强这一方式，给模型予以了更为优良的输入，而模型借助对输入展开特征提取以及生成高品质图像，为预处理器提供了更为出色的反馈。

介入时机和退出时机：

其一，介入的时机，指的是代表着是第几步进行介入从而会对画面产生的影响；其二，退出的时机，指的是代表着是第几步实施退出进而会对画面造成的影响。

ii. 如，现在是一个生成步幅为30步的图像：

2. Canny 边缘检测

我。Canny属于一种经典的边缘检测算法，它能够极为出色地识别出图像里的边缘信息，就图像生成任务而言，其可以助力模型更优良地生成具备清晰边缘的图像。

ii. 处理图片的方式乃是把图片转变为线稿，对于画面细节不繁杂的图像而言挺好，然而在处理复杂图像之际，主体易于被除主题元素之外的元素所影响。

一是在细节刻画方面，存在这样一种情况，即分辨率越高，线条就越清晰，阈值越少，相应的细节也就会越多。

4. Hed 边缘检测，细节保留

一、此算法具备这样的特性，那就是它能够在同一时间，针对多个不同尺度的边缘展开预测，进而使得边缘检测所得出的精度得以有效提升，并且对于那些边缘清晰程度较高的图像而言，其生成的效果会更好。

二、在把草图转为上色状态的时候，能够于绘图软件那儿，把描边弄得更粗更深一点，这样一来，就能够更加便利地获取边缘，。

5. MLSD 线性检测

i. 一种名为mlsd的模型，它能够开展直线检测工作，借助对图片线条结构予以分析的方式，从而构建出建筑外框，此模型适宜用于建筑设计领域。

ii. 可以配合canny一起使用，效果更佳。

6. Open pose-人物摆pose

甄别主图里的主体动作，接着把动作添附到主图上，通常与open pose相配合。

7. LeRes深度信息估算

对有场景深度的图片效果更佳，生成的图像景深更易区分。

六、结语

借着AI技术飞速发展的势头，图像生成领域当中的大型模型正开始成为研究的热度所在，但因该领域具备的相对新颖以及复杂性，与之相关的教程和资源当下倒是相对匮乏。期许着本文能够对各位设计师予以助力，使其能够迅速开始入门，而且还能为您供给一些具备有用性的参考资料。

期望在不太远的未来时段，某些切实存在着商业价值的大型模型会接连不断地呈现出来，继而给设计以及别的一些领域送去更多的创新成果与效益收获，最终，祈愿大家能够持续不断地展开探索并且进行学习，从而领会掌握更多的技能以及知识内容，以此为设计增添助力！

AI写作工具

AI办公助手

AI图像处理工具

AI视频生成工具

AI音乐音频工具

AIGC内容检测工具

AI法律助手

社媒账号

跨境电商获客工具

全球电商平台

币圈工具

海外app集合

AI绘画软件Stable Diffusion保姆级教程：原理功能到技巧全解析

相关文章推荐

取消回复欢迎你发表评论:

评论列表

热门文章

文章目录

最新收录

标签列表

AI绘画软件Stable Diffusion保姆级教程：原理功能到技巧全解析

相关文章推荐

取消回复 欢迎 你 发表评论:

评论列表

热门文章

文章目录

最新收录

标签列表

取消回复欢迎你发表评论: