ComfyUI 文生图工作流

在本篇文档中我们将完成以下内容：

完成一次文生图工作流
简单了解扩散模型原理
了解工作流中的节点的功能和作用
初步了解 SD1.5 模型

我们将会先进行文生图工作流的运行，然后进行相关内容的讲解，请按你的需要选择对应部分开始。

关于文生图

文生图(Text to Image) ，是 AI 绘图中的基础流程，通过输入文本描述来生成对应的图片，它的核心是 扩散模型。

在文生图过程中我们需要以下条件：

画家： 绘图模型
画布： 潜在空间
**对画面的要求（提示词）：**提示词，包括正向提示词（希望在画面中出现的元素）和负向提示词（不希望在画面中出现的元素）

这个文本到图片图片生成过程，可以简单理解成你把你的绘图要求(正向提示词、负向提示词)告诉一个画家(绘图模型)，画家会根据你的要求，画出你想要的内容。

ComfyUI 文生图工作流示例讲解

1. 开始开始前的准备

请确保你已经在 ComfyUI/models/checkpoints 文件夹至少有一个 SD1.5 的模型文件，如果你还不了解如何安装模型，请参开始 ComfyUI 的 AI 绘图之旅章节中关于模型安装的部分说明。

2. 加载文生图工作流

请下载下面的图片，并将图片拖入 ComfyUI 的界面中，或者使用菜单 工作流（Workflows） -> 打开（Open） 打开这个图片以加载对应的 workflow

ComfyUI 文生图工作流

也可以从菜单 工作流（Workflows） -> 浏览工作流示例（Browse example workflows） 中选择 Text to Image 工作流

3. 加载模型，并进行第一次图片生成

在完成了对应的绘图模型安装后，请参考下图步骤加载对应的模型，并进行第一次图片的生成

ComfyUI 文生图工作流

请对应图片序号，完成下面操作

请在Load Checkpoint 节点使用箭头或者点击文本区域确保 v1-5-pruned-emaonly-fp16.safetensors 被选中，且左右切换箭头不会出现null 的文本
点击 Queue 按钮，或者使用快捷键 Ctrl + Enter(回车) 来执行图片生成

等待对应流程执行完成后，你应该可以在界面的**保存图像（Save Image）**节点中看到对应的图片结果，可以在上面右键保存到本地

ComfyUI 文生图工作流

请对应图片序号，完成下面操作

请在Load Checkpoint 节点使用箭头或者点击文本区域确保 v1-5-pruned-emaonly-fp16.safetensors 被选中，且左右切换箭头不会出现null 的文本
点击 Queue 按钮，或者使用快捷键 Ctrl + Enter(回车) 来执行图片生成

等待对应流程执行完成后，你应该可以在界面的**保存图像（Save Image）**节点中看到对应的图片结果，可以在上面右键保存到本地

4. 开始你的尝试

你可以尝试修改CLIP Text Encoder处的文本

ComfyUI 文生图工作流

其中连接到 KSampler 节点的Positive为正向提示词，连接到 KSampler 节点的Negative为负向提示词

下面是针对 SD1.5 模型的一些简单提示词原则

尽量使用英文
提示词之间使用英文逗号 , 隔开
尽量使用短语而不是长句子
使用更具体的描述
可以使用类似 (golden hour:1.2) 这样的表达来提升特定关键词的权重，这样它在画面中出现的概率会更高，1.2 为权重，golden hour 为关键词
可以使用类似 masterpiece, best quality, 4k 等关键词来提升生成质量

下面是几组不同的 prompt 示例，你可以尝试使用这些 prompt 来查看生成的效果，或者使用你自己的 prompt 来尝试生成

1. 二次元动漫风格

正向提示词：

anime style, 1girl with long pink hair, cherry blossom background, studio ghibli aesthetic, soft lighting, intricate details
masterpiece, best quality, 4k

负向提示词：

low quality, blurry, deformed hands, extra fingers

2. 写实风格

正向提示词：

(ultra realistic portrait:1.3), (elegant woman in crimson silk dress:1.2), 
full body, soft cinematic lighting, (golden hour:1.2), 
(fujifilm XT4:1.1), shallow depth of field, 
(skin texture details:1.3), (film grain:1.1), 
gentle wind flow, warm color grading, (perfect facial symmetry:1.3)

负向提示词：

(deformed, cartoon, anime, doll, plastic skin, overexposed, blurry, extra fingers)

3. 特定艺术家风格

正向提示词：

fantasy elf, detailed character, glowing magic, vibrant colors, long flowing hair, elegant armor, ethereal beauty, mystical forest, magical aura, high detail, soft lighting, fantasy portrait, Artgerm style

负向提示词：

blurry, low detail, cartoonish, unrealistic anatomy, out of focus, cluttered, flat lighting

文生图工作原理

整个文生图的过程，我们可以理解成是扩散模型的反扩散过程，我们下载的 v1-5-pruned-emaonly-fp16.safetensors 是一个已经训练好的可以 从纯高斯噪声生成目标图片的模型，我们只需要输入我们的提示词，它就可以通随机的噪声降噪生成目标图片。

ComfyUI 文生图工作流

我们可能需要了解下两个概念，

潜在空间： 潜在空间（Latent Space）是扩散模型中的一种抽象数据表示方式，通过把图片从像素空间转换为潜在空间，可以减少图片的存储空间，并且可以更容易的进行扩散模型的训练和减少降噪的复杂度，就像建筑师设计建筑时使用蓝图（潜在空间）来进行设计，而不是直接在建筑上进行设计（像素空间），这种方式可以保持结构特征的同时，又大幅度降低修改成本
像素空间： 像素空间（Pixel Space）是图片的存储空间，就是我们最终看到的图片，用于存储图片的像素值。

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。