大家会把Alpha Two叫做Joy2,然后把新的喊成joy3,其实就是今天的Beta One。JoyCaption 目前处于 Beta One 阶段。这意味着 1.0 版本的工作已接近完成。
在 ComfyUI 的图像反推插件里,JoyCaption 一直是圈内公认的顶配。无论是还原图像细节、识别风格标签,还是做提示词逆向生成,它的表现都很稳。这次 Beta1 版本更新,我第一时间上手测试了几天,说实话,这一波变化,属于实打实的版本跃迁。
一、JoyCaption介绍
JoyCaption一直是ComfyUI里面最强图片反推插件,这个宝座无人可替代,最近JoyCaption自己又迭代了一版,发布了新的beta-one版本,真的牛啊。
此次发布beta-one版本是在之前Alpha Two的基础上进行了多项改进,包括:
- 更多训练:Beta One 的训练时间是 Alpha Two 的两倍,总计达 240 万个训练样本。
- 直接模式:Alpha Two 有九种不同的“模式”,或图像标题生成的方法(以及 17 条额外指令来进一步指导标题)。而Beta One 增加了直接模式;这是在冗长的“描述性”模式与更简洁、混乱的“稳定扩散提示”模式之间的折中。
- Booru 标签调整:Alpha Two 包含“Booru 标签”模式,生成图像的逗号分隔标签列表。然而,这一模式不稳定,容易出现重复循环。beta-one版本对这一模式进行了多项调整,使其更稳定并提高实用性。
- 水印准确性:通过开发更准确的水印检测模型,JoyCaption 的训练数据已更新以包含更准确的水印提及。
- VQA:添加一些 VQA 数据有助于扩展 Beta One版本模型,可以遵循的指令范围。尽管与全面成熟的 VLM 相比仍然有限,但在自定义captions编写方面有了更大的自由度。
- 标签增强:Beta One 现在支持可以指定需要在响应中包含的 Booru 标签列表。这对于加强模型以提高准确性;确保模型提及重要概念;影响模型的词汇尤其有用。
- 强化学习:Beta One 是 JoyCaption 的首个经过强化学习的版本。这有助于解决 Alpha Two 的两个主要问题:偶尔生成错误类型的标题(例如,在请求提示时写了描述性标题),以及在更复杂的“训练提示”和“Booru 标签”
二、Beta1 vs Alpha Two:实测对比结果
用五组图像跑了一轮盲测,核心差异一图看懂:
测试项 | Beta1 表现 | Alpha Two 缺陷 |
---|---|---|
手势识别 | 能识别出手指角度、动作细节 | 经常忽略手部结构 |
风格标签 | 能同时识别多重风格(如“数字绘画 + 超现实主义”) | 识别结果偏单一 |
水印处理 | 自动识别并提示“左下角二维码水印” | 无法识别隐藏式水印 |
相机参数还原 | 输出完整的“f/2.8, ISO400” | 多为模糊描述 |
NSFW内容识别 | 自动屏蔽不合规内容标签 | 偶尔误标或漏标 |
三、相关安装
相关网盘模型工作流都有提供:文末网盘模型下载
想体验最新的 beta-one ,插件有两种:
ComfyUI_LayerStyle_Advance:https://github.com/chflame163/ComfyUI_LayerStyle_Advance
joycaption_comfyui:https://github.com/fpgaminer/joycaption_comfyui
本地部署方案(硬件党看这里)
- 插件选择:推荐搭配
ComfyUI_LayerStyle_Advance
,适配性好,8G 显存起步 - 模型路径:
/ComfyUI/models/LLavacheckpoints/llama-joycaption-beta-one-hf-llava
- 精度选择:支持
nf4 / int8 / bf16
,根据你电脑性能选就行
模型挺大的,一共15.8G,我的硬盘又要告急了。
模型下载地址(文末带网盘下载):https://huggingface.co/fancyfeast/llama-joycaption-beta-one-hf-llava
JoyCaption Beta One 提供多种生成模式,以满足不同的需求,Descriptive Caption 和 Straightforward 是最有用的,其他模式很有趣,但不太稳定。
我们一起来了解下:
- Descriptive Caption 以正式或随意的语气为图像编写描述性标题
- Straightforward Caption 比 Descriptive 更简洁、客观的风格。
- Stable Diffusion Prompt 尝试模仿用户通常编写 Stable Diffusion 提示的方式,混合使用自然语言和类似 booru 的标签。
- MidJourney 类似于 Training Prompt 模式,但更像 MidJourney 提示。
- Danbooru tag list 写入镜像的 Danbooru 标签列表。
- e621 tag list 写入镜像的 e621 标签列表。
- Rule34 tag list 写入镜像的 Rule34 标签列表。
- Booru-Like Tag List 类似于 Booru Tag List 模式,但会在 boorus 使用的严格标签列表之外写入。
- Art Critic Analysis 像艺术评论家一样撰写图像分析。
- Product Listing 为图像编写 Product Listing 样式的标题。
- Social Media Post 为图片撰写适合社交媒体帖子的标题。
**下面是头5个Descriptive
、Descriptive(Casual)
、Straightforward
、Stable Diffusion Prompt
、MidJourney
的效果对比。
前三个的效果是比较接近的,推荐使用。
另外一个比较重要的节点是 Extra Options,这个节点可以将以下额外说明附加到提示符中。
- 如果图像中有人物/角色,则必须将其称为 {name}。
- 不要包含有关无法更改的人物/角色的信息(如种族、性别等),但仍要包含可更改的属性(如发型)。
- 包括有关照明的信息。
- 包括有关摄像机角度的信息。
- 包括有关是否有水印的信息。
- 包括有关是否存在 JPEG 伪影的信息。
- 如果是照片,您必须包含有关可能使用的相机以及光圈、快门速度、ISO 等详细信息的信息。
- 不要包含任何性内容;保持 PG。
- 不要提及图像的分辨率。
- 您必须包含有关图像的主观审美质量的信息,从低到非常高。
- 包括有关图像构图样式的信息,如引导线、三分法或对称性。
- 请勿提及图像中的任何文本。
- 指定景深以及背景是聚焦还是模糊。
- 如果适用,请提及可能使用人工或自然光源。
- 不要使用任何模棱两可的语言。
- 包括图像是 sfw、suggestive 还是 nsfw。
- 仅描述图像中最重要的元素。
- 如果是艺术作品,请勿包含艺术家的姓名或作品名称。
- 确定图像方向(纵向、横向或正方形)和纵横比(如果很明显)。
- 使用粗俗的俚语和亵渎性语言,例如(但不限于)“fucking”、“slut”、“cock”等。
- 不要使用礼貌的委婉语——倾向于使用直率、随意的措辞。
- 包括有关任何人物/角色年龄的信息(如果适用)。
- 说明图像是否描绘了极度特写、特写、中特写、中景、牛仔、中广角、广角或极广角。
- 不要提及图像的情绪/感觉/等。
- 明确指定有利位置高度(视线水平、低角度虫眼、鸟瞰、无人机、屋顶等)。
- 如果有水印,一定要提。
- 您的响应将被文本到图像模型使用,因此请避免使用无用的元短语,例如“此图像显示...”、“您正在查看...”等。
写在最后
一句话总结:Beta1 是目前我体验过最稳定、最聪明、最像“懂图”的反推工具。
如果你是视觉创作者,值得花时间调一调;如果你是纯工具使用者,来云平台体验一下,也会有惊喜。
(附图部分建议加上实际截图对比图,建议展示指令输出、描述准确率变化等维度)