一、Qwen-Image介绍
Qwen-Image是一个200亿参数的MMDiT模型,可生成写实、动漫、赛博朋克、科幻、极简、复古、超现实、水墨等几十种类型的图片,支持图片的风格迁移、增删改、细节增强、文字编辑,人物姿态调整等常规操作。Qwen-Image也可以生成OpenAI的GPT-4o爆火全网的吉卜力风格图片。根据「AIGC开放社区」实际测试二者差距很小,尤其是在超复杂中文提示词理解、文字嵌入方面Qwen-Image更好。
Qwen-Image 是阿里巴巴通义千问团队发布的首个图像生成基础模型,这是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。该模型在复杂文本渲染和精确图像编辑方面取得了显著进展,无论是英语还是中文等多种语言都能实现高保真输出。
模型亮点:
- 卓越的多语言文本渲染:支持英语、中文、韩语、日语等多种语言的高精度文本生成,保持字体细节和布局一致性
- 多样化艺术风格:从照片级真实到印象派绘画,从动漫美学到极简设计,流畅适应各种创意提示
二、相关安装(文末网盘)
今天本地就分享Comfyui官方插件调用方法
(注:想要体验官方版本的,需要把内核更新到最新版本,至少是8月5号的版本。)
下载模型了,模型我都放网盘了,写了官方版的这个目录下的模型就是:
Comfyui正式支持Qwen-image
将Comfyui的内核更新到V0.3.49及以上
模型依次放入指定ComfyUI目录:
───📂 models/
│ ├───📂 unet/
│ │ ├─── qwen_image_bf16.safetensors
│ │ └─── qwen_image_fp8_e4m3fn.safetensors
│ ├───📂 text_encoders/
│ │ └─── qwen_2.5_vl_7b.safetensors
│ │ └─── qwen_2.5_vl_7b_fp8_scaled.safetensors
│ └───📂 vae/
│ └── qwen_image_vae.safetensors
三、工作演示:
目前,阿里免费提供Qwen-Image,甚至不用注册账号访客模式也能使用。打开文末地址,然后选择下方的“图像生成”就可以开始了。
四、能力演示:
五、总结
卓越的文本渲染能力:Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。一致性的图像编辑能力:通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。强大的跨基准性能表现:在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
除了文本渲染,Qwen-Image在图像编辑方面也展现了非凡实力。通过增强的多任务训练范式,模型在编辑过程中能出色保持一致性,支持风格迁移、物体增减、细节增强及人物姿态调整等多种操作。这使得普通用户也能轻松实现专业级的图像编辑,大大降低了视觉内容创作的技术门槛。
在多个公开基准测试中,Qwen-Image的表现更是令人瞩目。从通用图像生成的GenEval、DPG和OneIG-Bench,到图像编辑的GEdit、ImgEdit和GSO,Qwen-Image均取得了最先进的性能,展现了其在图像生成与编辑方面的全面优势。特别是在中文文本渲染上,Qwen-Image大幅领先现有最先进模型,凸显了其作为先进图像生成模型的独特地位。