flux模型完善生态下使用三重控制实现物体的高度一致性重绘,实现了电商产品图生成、LOGO迁移、模特上装、自由转移生图等多个应用场景。
功能:实现logo/图案转移到指定物体上。
基于flux模型的三重控制物体一致性生图的原理:
第一重,利用flux redux模型原生的高强度微调图片能力。因为之前我们测试过官方出的redux风格模型,发现它对于参考图的参考非常强,如果不加高级redux控制强度,基本就是微调图像达到图片修复、图片微调、图片优化的功能。所以,正是利用它的强参考性来实现第一重的控制。
第二重,利用flux fill出色的局部重绘能力。fill的能力,我们之前也介绍了,它是黑森林官方出的重绘模型,对于flux模型是非常友好地,同时有很好的提示词理解甚至有推理的能力。所以,我们基本不用写提示词,它就能很好地完美高效地补全画面。这里,我们就是利用它理解的能力实现第二重的控制。
第三重是结合阿里巴巴团队的IC-lora的思路。也就是同一画面生成多张图片能使物体保持一致性的思路。它其实就是flux模型对于自然语言提示词的理解能力。只要在同一时间同一张画面中生成的物体,它是具有高度相似性的。正是IC-lora的出现,给与了我们一种启发,通过这种方式实现物体一致性的转移。当时,有能力的可以基于IC-lora来进行物体LORA的训练,但它存在一定的难度和门槛。所以其实如果外加一个物体的IC-lora,能更好实现物体一致性的生成。这个就是第四重了。但第四重的控制可有但非必要。