本篇将引导了解 AI 绘图中,文生图的概念,并在 ComfyUI 中完成文生图工作流生成。本篇目的主要带你初步了解 ComfyUI 的文生图的工作流,并初步了解一些 ComfyUI 相关节点的功能和使用。
在本篇文档中我们将完成以下内容:
- 完成一次文生图工作流
- 简单了解扩散模型原理
- 了解工作流中的节点的功能和作用
- 初步了解 SD1.5 模型
我们将会先进行文生图工作流的运行,然后进行相关内容的讲解,请按你的需要选择对应部分开始。
关于文生图
文生图(Text to Image) ,是 AI 绘图中的基础流程,通过输入文本描述来生成对应的图片,它的核心是 扩散模型。
在文生图过程中我们需要以下条件:
- 画家: 绘图模型
- 画布: 潜在空间
- **对画面的要求(提示词):**提示词,包括正向提示词(希望在画面中出现的元素)和负向提示词(不希望在画面中出现的元素)
这个文本到图片图片生成过程,可以简单理解成你把你的绘图要求(正向提示词、负向提示词)告诉一个画家(绘图模型),画家会根据你的要求,画出你想要的内容。
ComfyUI 文生图工作流示例讲解
1. 开始开始前的准备
请确保你已经在 ComfyUI/models/checkpoints
文件夹至少有一个 SD1.5 的模型文件,如果你还不了解如何安装模型,请参开始 ComfyUI 的 AI 绘图之旅章节中关于模型安装的部分说明。
2. 加载文生图工作流
请下载下面的图片,并将图片拖入 ComfyUI 的界面中,或者使用菜单 工作流(Workflows) -> 打开(Open) 打开这个图片以加载对应的 workflow
也可以从菜单 工作流(Workflows) -> 浏览工作流示例(Browse example workflows) 中选择 Text to Image 工作流
3. 加载模型,并进行第一次图片生成
在完成了对应的绘图模型安装后,请参考下图步骤加载对应的模型,并进行第一次图片的生成
请对应图片序号,完成下面操作
- 请在Load Checkpoint 节点使用箭头或者点击文本区域确保 v1-5-pruned-emaonly-fp16.safetensors 被选中,且左右切换箭头不会出现null 的文本
- 点击
Queue
按钮,或者使用快捷键Ctrl + Enter(回车)
来执行图片生成
等待对应流程执行完成后,你应该可以在界面的**保存图像(Save Image)**节点中看到对应的图片结果,可以在上面右键保存到本地
请对应图片序号,完成下面操作
- 请在Load Checkpoint 节点使用箭头或者点击文本区域确保 v1-5-pruned-emaonly-fp16.safetensors 被选中,且左右切换箭头不会出现null 的文本
- 点击
Queue
按钮,或者使用快捷键Ctrl + Enter(回车)
来执行图片生成
等待对应流程执行完成后,你应该可以在界面的**保存图像(Save Image)**节点中看到对应的图片结果,可以在上面右键保存到本地
4. 开始你的尝试
你可以尝试修改CLIP Text Encoder处的文本
其中连接到 KSampler 节点的Positive
为正向提示词,连接到 KSampler 节点的Negative
为负向提示词
下面是针对 SD1.5 模型的一些简单提示词原则
- 尽量使用英文
- 提示词之间使用英文逗号
,
隔开 - 尽量使用短语而不是长句子
- 使用更具体的描述
- 可以使用类似
(golden hour:1.2)
这样的表达来提升特定关键词的权重,这样它在画面中出现的概率会更高,1.2
为权重,golden hour
为关键词 - 可以使用类似
masterpiece, best quality, 4k
等关键词来提升生成质量
下面是几组不同的 prompt 示例,你可以尝试使用这些 prompt 来查看生成的效果,或者使用你自己的 prompt 来尝试生成
1. 二次元动漫风格
正向提示词:
负向提示词:
2. 写实风格
正向提示词:
负向提示词:
3. 特定艺术家风格
正向提示词:
负向提示词:
文生图工作原理
整个文生图的过程,我们可以理解成是扩散模型的反扩散过程,我们下载的 v1-5-pruned-emaonly-fp16.safetensors 是一个已经训练好的可以 从纯高斯噪声生成目标图片的模型,我们只需要输入我们的提示词,它就可以通随机的噪声降噪生成目标图片。
我们可能需要了解下两个概念,
- 潜在空间: 潜在空间(Latent Space)是扩散模型中的一种抽象数据表示方式,通过把图片从像素空间转换为潜在空间,可以减少图片的存储空间,并且可以更容易的进行扩散模型的训练和减少降噪的复杂度,就像建筑师设计建筑时使用蓝图(潜在空间)来进行设计,而不是直接在建筑上进行设计(像素空间),这种方式可以保持结构特征的同时,又大幅度降低修改成本
- 像素空间: 像素空间(Pixel Space)是图片的存储空间,就是我们最终看到的图片,用于存储图片的像素值。