Florence2是一款革命性的AI绘图工具,它将LLM(大型语言模型)的强大功能与AI绘图技术完美结合。本文将介绍Florence2的五大核心功能:提示反推、对象检查、蒙版识别、文字识别及咨询建议,以及如何使用一个模型轻松搞定这些功能,助力您的AI绘图创作。
在LLM大语言模型快速发展下,视觉大模型已成为主流,能够精准的识别图片信息、检查图片对象、提取文字等,甚至可以根据输入图像实现代码编程、咨询建议、物理世界识别等,模拟现实世界物理运动反馈和回应。同时以SD、MJ为首的绘图模型在扩散模型(包括近期 的的DiT架构) 下也得到的快速的发展,模仿垫图一直是绘图过程中重要需求之一。大家常用的提示词反推工具有:ComfyUI-WD14-Tagger,但它并不是非常的精准。今天的主题则是使用微软发布的Florence2视觉大模型集成ComfyUI助力AI绘图。当然它不止提示词反推,还包括:对象检查、蒙版识别、OCR文字识别、文档视觉问题解答等。
Florence-2是一个微软发布的高级视觉基础模型,它采用基于提示的方法来处理广泛的视觉和视觉-语言任务。Florence-2 可以解释简单的文本提示,执行如字幕、目标检测和分割等任务。它利用FLD-5B 数据集训练,包含 5.4 亿个注释跨足 1260 万张图像,以精通多任务学习。该模型的序列到序列架构使其在零样本和微调设置中都表现出色,试验结果证明了Florence-2 是一个具有竞争力的视觉基础模型。
Florence-2具有多版本发布。其中base和base-ft体积小(约400MB)适合低显存用户 ,large和large-fit 体积大(约1G)更精准智能。
Florence-2模型ComfyUI体验
首选ComfyUI中利用插件管理器搜索ComfyUI-Florence2, 并点击安装,此插件无需安装任何模型,在首次运行时会自动下载。重启ComfyUI既可开始体验。
/ComfyUI/models/LLM/Florence-2-base-ft
目录下。如无法自动下载可以使用git lfs clone下载(切记CD到正确目录):
工作流界面
插件中最终的选项是Task任务选项,一共包含11个任务:
- region_caption:简单的对象检测,识别图像中的基本元素。对象检测标记。
- dense_region_caption:更详细的对象检测,提供更丰富的描述。
- region_proposal:纯粹的区域识别,没有语义描述。
- caption:对图片进行简单描述,反推提示词。
- detailed_caption:提供更详细的图像描述。
- more_detailed_caption:进一步增加图像描述的细节。适合适用于图像提示词反推。
- caption_to_phrase_grounding:将图像描述与短语关联起来。
- referring_expression_segmentation:根据指示性表达分割图像。图像预期分隔制作蒙版。
- Ocr:识别图像中的文本。
- ocr_with_region:结合区域信息的文本识别。
- docvqa:文档问答咨询。图像识别建议方案。
Florence-2的未来展望
Florence-2的出现让我们离"通用人工智能"又近了一步。想象一下,未来我们可能会有这样的场景:
- 你拍了一张美食照片,AI不仅能告诉你这是什么菜,还能给出详细的食谱和营养分析。
- 你在旅游时拍下一张风景照,AI能为你讲解这个地方的历史、文化背景,甚至推荐附近的景点。
- 在医疗领域,AI可以帮助医生更全面地分析医学影像,提高诊断的准确性。
总的来说,Florence-2就像是一个充满潜力的年轻运动员。它已经展现出了惊人的天赋,但还需要更多的训练和改进。相信在不久的将来,我们会看到更加成熟和全面的AI视觉理解系统出现。让我们一起期待AI技术给我们带来的更多惊喜吧!