第五部分:SD文生图参数精讲之 SD生成图片原理

  • admin
  • 2026-04-30 11:32:53

前面已经讲解了Stable Diffusion各类型模型和提示词编写技巧,接下来,开始进入了Stable Diffusion第三个重要的功能点模块---各种参数配置。要想更好地去理解这些参数是怎么产生影响的,我们就得先了解Stable Di

前面已经讲解了Stable Diffusion各类型模型和提示词编写技巧,接下来,开始进入了Stable Diffusion第三个重要的功能点模块---各种参数配置。要想更好地去理解这些参数是怎么产生影响的,我们就得先了解Stable Diffusion生成图片原理。

一、Stable Diffusion的图片原理

Stable Diffusion 是一种基于扩散模型的文本到图像生成模型。它的核心思想是:将一张图像逐渐添加噪声直至变成完全随机的噪声(下图1),然后通过模型学习如何从完全随机的噪声中还原出原始图像(下图2)。

具体过程可分为以下几个步骤:
1、前向扩散过程(上图1):
(1)添加噪声: 将一张清晰的图像逐步添加高斯噪声,直到图像变得完全随机。
(2)学习噪声分布: 模型通过学习大量图像-噪声对,了解在不同噪声水平下,图像的噪声分布情况。

2、反向扩散过程(上图2):
(1)初始化: 从一个完全随机的噪声图像开始。
(2)迭代去噪: 模型根据学习到的噪声分布,逐步从噪声图像中去除噪声,生成越来越清晰的图像。
(3)条件生成: 在去噪过程中,模型会参考输入的文本描述,确保生成的图像与文本描述相匹配。

3、模型结构:
(1)U-Net: 模型的核心组件,负责图像的编码和解码。
(2)文本编码器: 将文本描述转换为模型可以理解的数值表示。
(3)交叉注意力机制: 将文本信息与图像信息结合起来,确保生成的图像符合文本描述。

二、更容易理解的比喻

1、想象一个雕塑家正在创作一尊雕像。
(1)准备材料: 雕塑家首先准备了一块巨大的橡皮泥(相当于随机噪声)。
(2)逐步成形: 雕塑家开始从橡皮泥中去除多余的部分,逐渐塑造出雕像的轮廓、细节(相当于SD不断去噪点的过程)。
(3)参考模型: 雕塑家在创作过程中,会不断参考自己的设计图(相当于提示词描述),确保雕塑符合设计要求。
(4)最终完成: 经过多次雕琢,一尊栩栩如生的雕像就完成了(最终清晰的图片作品)。


2、Stable Diffusion 就如同这位雕塑家一样:
(1)随机噪声:相当于原始的橡皮泥。
(2)模型:相当于雕塑家。
(3)提示词描述:相当于设计图。
(4)生成图像:相当于最终的雕像。

模型通过学习大量的图像和文本对,掌握了从随机噪声中雕刻出符合文本描述的图像的技巧。

三、为什么需要前向扩散过程

前向扩散就是把一张清晰的图片不断加噪点、加噪点,直到整张图片变成都是噪点,不可辨认。那么为什么需要这个过程,而不是直接就从噪点图去噪直接生成清晰图像呢?原因如下:

1、建立噪声与图像的对应关系: 通过不断向图像添加噪声,模型可以学习到不同噪声水平下,图像的特征和噪声之间的关系。
2、为反向过程提供基础: 前向扩散过程相当于为反向过程(从噪声生成图像)建立了一个“蓝本”。模型在反向过程中,会尝试逆转前向扩散的过程,从噪声中恢复出原始图像。

前面教程我们说过,Stable Diffusion大模型训练时,是会拿很多图片数据来进行学习的,那么这个加噪点的过程,其实就是让SD大模型在学习各类图片特征的过程。学习得足够好的大模型,在拿到设计要求的时候(提示词),才能通过一块原始的橡皮泥,不断得雕琢(去噪),最后呈现出优质的作品。

看看别人的观点?

也留下自己的观点?

精彩评论

暂无评论,快来抢沙发~