ComfyUI ImageGen 是一款专为本地 ComfyUI 服务设计的图像生成技能,基于 Flux2 [klein] 9B 模型工作流,通过 API 方式实现高质量的 AI 图像创作。该技能的核心创新在于采用结构化 JSON 提示词系统,将自然语言请求转换为包含场景、主体、光照、构图、相机参数等维度的机器可读格式,直接作为 ComfyUI 的 positive prompt 参数传输,避免了传统文本转换过程中的信息损失与语义偏差。
该技能提供两种运行模式:异步模式(推荐)通过 sessions_spawn 启动子代理轮询任务,每 5 秒检查一次生成状态,完成后自动通过 Telegram 发送图像,相比主代理阻塞等待可节省约 10 倍 token 消耗,显著降低大模型上下文压力;同步模式则适用于快速验证和脚本化调用。支持自定义种子、采样步数(默认 5 步适合快速预览,质量模式建议 20-50 步)和输出路径,生成图像自动嵌入提示词元数据便于后续管理与追溯。
显著优势包括精确的结构化控制能力,用户可通过 JSON 精确定义画面中多个主体的位置、动作、艺术风格、色彩调色板等细节;与本地 ComfyUI 的深度集成确保数据隐私,所有生成过程在本地完成,提示词不会上传至第三方云端;轮询机制设计合理,实现低延迟(<5秒)状态感知的同时避免长时间阻塞对话上下文,支持批量任务并发处理。
局限性方面,该技能严格依赖本地运行的 ComfyUI 服务(默认 localhost:8188),未部署环境的用户完全无法使用;当前仅适配特定的 Flux2 工作流和 darkBeastFeb0826Latest_dbkBlitzV15 模型,缺乏多模型切换灵活性;结构化提示词需要一定的学习成本,对于简单快速生成场景可能显得繁琐;作为 T3 来源的个人开发者作品,长期维护更新与社区支持稳定性有待观察;此外,生成高分辨率图像(1920x1080)对本地 GPU 显存有较高要求。
适合目标群体包括:已在本地部署 ComfyUI 的 AI 绘画爱好者与专业设计师、需要批量生成图像的内容创作者与运营人员、对提示词构图精度有严格要求的技术用户,以及希望将图像生成深度集成到自动化工作流(如 Telegram Bot、定时任务)的开发者。
使用风险主要涉及本地服务可用性(ComfyUI 未启动或端口冲突会导致请求失败)、文件系统权限(需要写入权限保存生成图像至指定路径)、以及网络配置安全(--host 参数允许指向任意地址,若误配置至不可信的远程 ComfyUI 实例可能导致提示词泄露)。建议仅在可信的本地网络环境使用,定期检查输出目录磁盘空间,并避免在公共网络环境下暴露 ComfyUI 服务端口。