1.模型组成
衣服特征与文本描述生成模型
类似于 ComfyUI 里的风格模型,该模型的主要作用是从服装图像和文本描述中提取关键特征。对于服装图像,通过 VAE 编码器、图像编码器(如 CLIP 图像编码器)和投影层(Q - Former)等组件,提取出服装的纹理、颜色、款式、风格等特征;对于文本描述,则利用文本编码器将其转化为语义特征向量。这些特征能够精准地刻画服装的属性和风格,为后续的操作提供基础。
图像生成模型
负责最终生成模特换衣服后的图像。它以去噪 Unet 为核心,接收来自衣服特征与文本描述生成模型的特征信息,以及模特图像经处理后的潜在表示。去噪 Unet 根据这些输入,对加噪的潜在表示进行去噪处理,逐步恢复出清晰的、符合要求的图像。在这个过程中,去噪 Unet 通过多次迭代去噪,不断调整图像的细节,最终通过 VAE 解码器将潜在表示转换为可见的图像。
2.特征结合方法
局部重绘
确定模特图像中需要更换衣服的区域,通过遮罩(Mask)标记出来。在潜在空间中,仅对遮罩区域的潜在表示进行修改,利用从衣服特征与文本描述生成模型中提取的服装特征,结合去噪 Unet 进行去噪和生成操作。而对于非遮罩区域,则尽量保留模特原始图像的潜在表示,以保证模特的其他部分不受影响,从而实现精准的衣服替换。(在这篇论文中,用的是人的姿态框架来定位需要替换衣服的mask部分)
内补模型条件
整合多种信息,包括服装特征、文本描述以及模特的姿态、体型等信息,形成综合条件向量。这个综合条件向量作为去噪 Unet 的额外输入,参与去噪过程的计算。通过交叉注意力机制和自适应层归一化(AdaIN)等技术,去噪 Unet 根据综合条件向量调整潜在表示的特征分布,使得生成的衣服能够与模特的整体形象协调一致,满足多模态条件下的图像生成需求。
3.去噪扩散过程
在整个流程中,去噪扩散是关键环节。在训练阶段,向潜在表示中逐步添加高斯噪声,去噪 Unet 学习预测添加的噪声,通过最小化预测噪声与真实噪声之间的均方误差来优化模型参数。在推理阶段,从高度噪声化的潜在表示开始,去噪 Unet 根据整合的各种特征和综合条件向量,逐步去除噪声。通过多次迭代去噪,不断调整图像的潜在表示,最终生成清晰、逼真的模特换衣服图像。
风格模型应用
在 ComfyUI 中,风格模型用于提取衣服的风格特征,并将其融入生成的图像中。通常基于卷积神经网络(CNN)或 CLIP 视觉编码器来实现。以基于 CNN 的风格模型为例,它通过多层卷积操作,从衣服图像中提取不同层次的风格特征,如颜色分布、纹理模式等。假设风格模型为S,输入衣服图像Ic。
这些卷积层就像是一层层的过滤器,不断地对衣服图像进行特征提取,从颜色分布、纹理模式等多个角度,抽取出不同层次的风格特征。假设风格模型为s,经过这些处理后,最终输出风格特征向量S(Ic),这些特征向量包含了衣服独特的风格信息,是后续生成具有特定风格服装图像的关键依据。
局部重绘
局部重绘是实现模特换衣服的关键步骤,它通过遮罩(Mask)确定需要修改的衣服区域,仅对该区域进行基于多模态信息的去噪和生成操作,从而保留模特其他部分的原始信息。在 ComfyUI 中,首先需要生成一个遮罩M,可以通过手动绘制、基于图像分割模型(如 Segment Anything Model,SAM)自动生成等方式得到M。遮罩标记了模特图像中需要替换衣服的区域。然后,将模特图像Im和衣服图像Ic的潜在表示Zm和Zc与遮罩M相结合。在潜在空间中,对遮罩区域的潜在表示进行修改,使用衣服图像的特征和多模态条件信息进行去噪和生成,而对非遮罩区域则尽量保留原始的潜在表示。
对于遮罩区域,去噪 U - Net 根据衣服图像的特征、文本描述以及模特姿态等多模态信息进行去噪和生成,确保生成的衣服符合要求;对于非遮罩区域,去噪 U - Net 尽量保持原始的潜在表示不变。在 ComfyUI 中,通过特定的节点(如 LoadImage 加载模特图、OOTDGenerate 生成服装方案、Generate FitDiT Mask 生成遮罩等)和参数设置(如在 FitDiT Try - On 节点中设置分辨率与融合参数),实现局部重绘的操作流程,将衣服图像的特征准确地应用到模特图像的衣服区域,同时保留模特的其他部分不变。
内补模型条件
内补模型条件并非传统意义上独立的模型或框架,而是一种用于引导图像生成和编辑的条件处理机制。它整合了多种信息,包括文本描述、衣服图片特征、模特姿态等,以指导遮罩区域(衣服区域)的生成,使生成的衣服与模特整体协调一致。在 ComfyUI 中,内补模型条件首先利用 CLIP 文本编码器将文本描述转换为语义向量,同时提取衣服图片的特征向量和模特的姿态向量。然后,通过拼接或加权求和等方式将这些向量融合为一个综合条件向量。