
一、什么是 Florence2?
Florence2 是微软开源的大型多模态模型,具备图像理解与生成文本描述(Image Captioning)能力。在 ComfyUI 中,Florence2 可通过特定节点实现“关键词反推”功能,即输入一张图片,模型自动识别并输出对应的文本描述、关键词或提示词(prompt),广泛用于提示词提取、图像分析、自动标注等任务。
二、关键词反推的典型应用场景
提示词学习:观察优秀图像的反推结果,理解提示词对构图、风格的影响。
二次创作:基于已有图像反推关键词,再进行微调生成新图。
图片归档与搜索:通过反推出的标签自动整理图片,提升检索效率。
数据增强与训练:用于提示词生成训练、数据标注等。
三、Florence2 关键词反推工作流结构
核心节点构成(以ComfyUI环境为例):
Load Image:加载输入图片。
Preprocess Image for Florence2:对图像进行分辨率调整和预处理。
Florence2(模型节点):加载 Florence2 模型文件并进行分析。
Florence2 Caption Output:输出图像的文本描述结果(prompt)。
Preview Text(可选):展示文本结果。
流程说明:
将目标图像拖入 Load Image 节点;
使用 Preprocess Image for Florence2 节点进行必要的图像转换;
加载 Florence2 模型(需在管理器中安装模型及其权重);
将图像输入 Florence2 节点,自动获取图像描述;
输出结果用于参考、保存或作为后续工作流提示词。
四、安装与配置要点
安装插件支持:
Florence2 工作流需安装相关插件,通常包括:
Florence2 节点插件(如comfyui-florence2)
依赖的模型权重(可通过 huggingface 下载,例如florence-v2-image-captioning-base)
常见配置路径:
模型路径配置通常在插件的 Florence2.yaml 或节点属性中完成;
建议使用分辨率 448x448 的图像输入,获得更好的识别效果。
五、使用建议与技巧
Florence2 更擅长对现实图像、摄影类内容进行识别,生成画作或 AI 绘图作品可能会出现偏差,可搭配 BLIP、GIT 等模型互补分析。
可配合 Translate Text 节点,将英文描述转为中文,便于理解。
可以将结果保存为元数据(如 JSON),用于构建图像管理系统。
如你希望,我还可以帮你生成一张 Florence2 关键词反推的完整 ComfyUI 工作流图,或提供 .json 工作流文件模板。是否需要?