通义实验室发布 Qwen-Image-Edit-2509,作为 Qwen-Image-Edit 系列的月度迭代版本。该模型已在 Qwen Chat 平台上线,用户可通过“图像编辑”功能直接体验。阿里通义千问推出Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练,成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。
本次更新聚焦三大能力提升:多图输入支持、单图编辑一致性增强、原生集成 ControlNet 条件控制,进一步拓展了在人物生成、商品设计、海报制作等场景的应用潜力。
Qwen-Image-Edit-2509 的主要特性包括:
-
✅多图编辑支持: 对于多图输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 结构,通过拼接方式进一步训练,从而进行了支持。提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法。
-
✅单图一致性增强: 对于单图输入,Qwen-Image-Edit-2509 显著提高了一致性,主要体现在以下方面:
- 人物编辑一致性增强: 增强人脸ID保持,支持各种形象照片、姿势变换;
- 商品编辑一致性增强: 增强商品ID保持,支持商品海报编辑;
- 文字编辑一致性增强: 除了支持文字内容修改外,还支持多种文字的字体、色彩、材质编辑;
- 原生支持ControlNet: 包括深度图、边缘图、关键点图等
二:模型与环境安装
本文使用ComfyUI本体和Comfyui-QwenEditUtils插件体验。模型和工作流文末网盘下载!
-
仅需更新ComfyUI本体即可。 - Comfyui-QwenEditUtils:https://github.com/lrzjason/Comfyui-QwenEditUtils
-
Qwen-Image-Edit-2509: 下载模型并放置 /ComfyUI/models/diffusion_models 目录下。
三、工作流
功能展示:
Qwen-Image-Edit-2509 的主要更新是支持多图像输入。
让我们先看一个“人 + 人”的例子:
这是一个“人 + 场景”的例子:
下面是一个“人 + 物体”的例子:
实际上,多图像输入也支持常用的 ControlNet 关键点图——例如,改变一个人的姿势:
同样,以下示例展示了使用三张输入图像的结果:
Qwen-Image-Edit-2509 的另一个主要更新是增强了编辑的一致性。
首先,在人像一致性方面,Qwen-Image-Edit-2509 相比 Qwen-Image-Edit 有显著提升。以下是一些生成不同肖像风格的例子:
例如,改变一个人的姿势同时保持极好的身份一致性:
利用这一改进以及Qwen-Image独特的文本渲染能力,我们发现Qwen-Image-Edit-2509在创建表情包图片方面表现出色:
当然,即使文本较长,Qwen-Image-Edit-2509仍然能够渲染并保持人物的身份:
人物一致性在旧照片修复中也得到了体现。以下是两个例子:
自然地,除了真实人物外,生成卡通角色和文化创作也是可能的:
其次,Qwen-Image-Edit-2509特别增强了产品的一致性。我们发现该模型可以自然地从纯背景的产品图片生成产品海报:
甚至简单的标志也可以生成:
第三,Qwen-Image-Edit-2509特别增强了文本的一致性,并支持编辑字体类型、字体颜色和字体材质:
此外,精确文本编辑的能力也得到了显著增强:
值得注意的是,文本编辑通常可以与图像编辑无缝集成——例如,在这个海报编辑案例中:
Qwen-Image-Edit-2509 的最终更新是原生支持常用的ControlNet图像条件,如关键点控制和草图: