一、OmniGen2简介:
OmniGen2是一款强大且高效的统一多模态模型。与 OmniGen v1相比,OmniGen2为文本和图像模态分别设置了独立的解码路径,采用未共享参数和解耦的图像标记器。OmniGen2在具有以下四项主要核心优势:
- 视觉理解:OmniGen2集成并集成了Qwen-VL-2.5视觉大基础模型解读和分析图像内容的强大能力。
- 文生图生成:同时OmniGen2包含基本的文生图能力,能够根据文本提示创建高保真且美观的图像。
- 指令引导图像编辑:以高精度执行基于指令的复杂图像修改,属于优秀的开源图像融合模型。
- 上下文生成:能够处理并灵活组合包括人物、参考对象和场景在内的多种输入,生成新颖且连贯的视觉输出。
二、插件及模型安装
OmniGen2插件地址:https://github.com/Yuan-ManX/ComfyUI-OmniGen2
将此仓库克隆到你的 ComfyUI 的 custom_nodes 目录中:
cd ComfyUI/custom_nodes
git clone https://github.com/Yuan-ManX/ComfyUI-OmniGen2.git
下载OmniGen模型
在/ComfyUI/models/Omnigen目录中,下载OmniGen模型。可以从Hugging Face的仓库中下载:
# 替换以下命令中的路径为您实际的OmniGen模型目录
cd /ComfyUI/models/Omnigen
git clone https://huggingface.co/Shitao/OmniGen-v1
三、插件功能演示及工作流
OmniGen2说明:
要在 OmniGen2 中取得最佳效果,你可以根据具体使用场景调整以下关键超参数。
text_guidance_scale
:控制输出严格遵循文本提示的程度(无分类器引导)。image_guidance_scale
:此参数控制最终图像应与输入参考图像相似的程度。- 权衡 :较高的值使输出更忠实于参考图像的结构和风格,但可能会忽略部分文本提示。较低的值(~1.5)则赋予文本提示更多影响力。
- 提示 :对于图像编辑任务,我们建议将其设置为 1.2 到 2.0 之间;对于上下文生成任务,较高的 image_guidance_scale 将保持输入图像中的更多细节,我们建议将其设置为 2.5 到 3.0 之间。
max_pixels
: 当图像的总像素数(宽度 × 高度)超过此限制时,会自动调整图像大小,同时保持其宽高比。这有助于管理性能和内存使用。- 提示 : 默认值为 1024*1024。如果你遇到内存问题,可以降低此值。
max_input_image_side_length
: 输入图像的最大边长。negative_prompt
: 告知模型在图像中不希望看到的内容。- 示例 : 模糊,低质量,文字,水印
- 提示 : 为获得最佳效果,尝试使用不同的负面提示。如果不确定,只需使用默认的负面提示。
enable_model_cpu_offload
: 可减少 VRAM 使用量近 50%,且对速度影响微乎其微 。- 这是通过在模型权重不使用时将其卸载到 CPU 内存中实现的。
enable_sequential_cpu_offload
:将 VRAM 使用量降至 3GB 以下,但性能会显著变慢。- 这种方式通过将模型卸载到子模块中,并按需将它们顺序加载到 GPU 上工作。
- 这种方式通过将模型卸载到子模块中,并按需将它们顺序加载到 GPU 上工作。
一些提高生成质量的建议:
- 使用高分辨率和高质量的图像。图像太小或模糊也会导致输出质量低。我们建议尽可能确保输入图像大小大于512。
- 提供详细说明。对于上下文生成任务,请指定模型应使用哪个图像中的哪些元素。
- 尽可能多地使用英语,因为目前 OmniGen2 在英语方面的表现优于中文。