OmniGen2：迈向统一多模态生成的未来引擎，通吃所有AIGC神操作

一、OmniGen2简介：

OmniGen2是一款强大且高效的统一多模态模型。与 OmniGen v1相比，OmniGen2为文本和图像模态分别设置了独立的解码路径，采用未共享参数和解耦的图像标记器。OmniGen2在具有以下四项主要核心优势：

视觉理解：OmniGen2集成并集成了Qwen-VL-2.5视觉大基础模型解读和分析图像内容的强大能力。
文生图生成：同时OmniGen2包含基本的文生图能力，能够根据文本提示创建高保真且美观的图像。
指令引导图像编辑：以高精度执行基于指令的复杂图像修改，属于优秀的开源图像融合模型。
上下文生成：能够处理并灵活组合包括人物、参考对象和场景在内的多种输入，生成新颖且连贯的视觉输出。

二、插件及模型安装

OmniGen2插件地址：https://github.com/Yuan-ManX/ComfyUI-OmniGen2

将此仓库克隆到你的 ComfyUI 的 custom_nodes 目录中：

cd ComfyUI/custom_nodes
git clone https://github.com/Yuan-ManX/ComfyUI-OmniGen2.git

下载OmniGen模型

在/ComfyUI/models/Omnigen目录中，下载OmniGen模型。可以从Hugging Face的仓库中下载：

# 替换以下命令中的路径为您实际的OmniGen模型目录
cd /ComfyUI/models/Omnigen
git clone https://huggingface.co/Shitao/OmniGen-v1

OmniGen2：迈向统一多模态生成的未来引擎，通吃所有AIGC神操作

三、插件功能演示及工作流

OmniGen2：迈向统一多模态生成的未来引擎，通吃所有AIGC神操作

OmniGen2说明：

要在 OmniGen2 中取得最佳效果，你可以根据具体使用场景调整以下关键超参数。

text_guidance_scale：控制输出严格遵循文本提示的程度（无分类器引导）。
image_guidance_scale：此参数控制最终图像应与输入参考图像相似的程度。
- 权衡：较高的值使输出更忠实于参考图像的结构和风格，但可能会忽略部分文本提示。较低的值（~1.5）则赋予文本提示更多影响力。
- 提示：对于图像编辑任务，我们建议将其设置为 1.2 到 2.0 之间；对于上下文生成任务，较高的 image_guidance_scale 将保持输入图像中的更多细节，我们建议将其设置为 2.5 到 3.0 之间。
max_pixels: 当图像的总像素数（宽度 × 高度）超过此限制时，会自动调整图像大小，同时保持其宽高比。这有助于管理性能和内存使用。
- 提示 : 默认值为 1024*1024。如果你遇到内存问题，可以降低此值。
max_input_image_side_length: 输入图像的最大边长。
negative_prompt: 告知模型在图像中不希望看到的内容。
- 示例 : 模糊，低质量，文字，水印
- 提示 : 为获得最佳效果，尝试使用不同的负面提示。如果不确定，只需使用默认的负面提示。
enable_model_cpu_offload: 可减少 VRAM 使用量近 50%，且对速度影响微乎其微 。
- 这是通过在模型权重不使用时将其卸载到 CPU 内存中实现的。
enable_sequential_cpu_offload：将 VRAM 使用量降至 3GB 以下，但性能会显著变慢。
- 这种方式通过将模型卸载到子模块中，并按需将它们顺序加载到 GPU 上工作。