核心用法
AI Image Generation & Editor 是一个统一的多提供商图像生成接口,通过单一 MCP 服务器聚合 Nanobanana 2、Seedream 5.0、GPT Image、Midjourney V7(写实)、Midjourney Niji 7(动漫)及本地 ComfyUI 工作流。核心能力分为三层:
免费层(无需 API Key):search_gallery 支持语义搜索 1300+ 精选提示词;get_inspiration 获取完整提示与参考图;enhance_prompt 将简短想法扩展为包含光影、构图、材质的完整提示词,支持 realistic/anime/illustration 三种风格;list_models 查看可用模型。
生成层(需配置提供商):generate_image 自动路由最优提供商,支持比例、种子、参考图;本地文件路径可直接传入 referenceImages,自动压缩处理(≤2MB, 2048px)。comfyui_workflow 支持本地工作流的列出、查看、导入、修改与删除,可调整 steps、CFG、sampler 等参数而无需编辑 JSON。
工作流模式:涵盖单图生成、提示增强→生成、并行多方向生成(最多 4 张)、多步创意(基础设计+衍生)、图像编辑修改(传参考图+简短编辑指令)、灵感搜索、参考图风格迁移、ComfyUI 工作流调用共 8 种模式。
显著优点
1. 多提供商智能路由:自动选择最优后端,避免单点依赖,用户无需手动指定 model/provider。
2. 本地优先设计:ComfyUI 完全本地运行,无需外发 API;本地文件直接处理,压缩与格式转换在端侧完成。
3. 1300+ 提示词库:语义搜索降低创作门槛,灵感获取可复制修改。
4. 风格感知增强:enhance_prompt 针对不同模型优化输出,Niji 7 强制 anime 风格标签,避免风格错配。
5. 渐进式工作流:从免费搜索/增强到付费生成,降低试用成本;多步创意模式强制用户确认,避免资源浪费。
潜在缺点与局限性
1. 视觉黑箱:AI 无法看到生成结果,只能返回 URL 与路径,用户需自行打开验证质量。
2. Midjourney 参数锁死:stylize/chaos/weird/raw/iw/sw/sv 等高级参数为服务器端固定值,仅 sref 可通过提示词尾部 --sref <code> 调整,且仅限 Midjourney 官方风格码。
3. Niji 7 内容受限:强制 anime/illustration,无法用于写实、产品摄影,误用会导致输出风格错位。
4. ComfyUI 串行限制:本地工作流一次仅生成一张,并行生成仅限 API 提供商(最多 4 张)。
5. 参考图压缩损耗:自动压缩可能损失细节,对精细纹理任务有影响。
6. 依赖外部 Node 生态:需 npx、node、mcporter 二进制环境,配置门槛对非技术用户较高。
适合人群
- 设计师与创意工作者:需快速产出概念图、素材、mockup。
- AI 艺术爱好者:希望一键切换 Midjourney/GPT Image/本地模型对比效果。
- 开发者与自动化工作流:通过 MCP 将图像生成嵌入脚本、CI/CD、内容流水线。
- 隐私敏感用户:倾向本地 ComfyUI 运行,避免云端上传原图。
常规风险
- 版权与合规:生成内容可能涉及训练数据版权争议;商业使用前需确认各提供商 ToS(Midjourney 商业授权需付费计划,GPT Image 受 OpenAI 使用政策约束)。
- API 密钥管理:
MEIGEN_API_TOKEN、openaiApiKey需妥善存储于~/.clawdbot/.env或加密配置,避免泄露。 - 本地路径注入:
referenceImages接受本地路径,需确保传入路径经过验证,防止路径遍历读取敏感文件(尽管压缩处理在本地,恶意路径仍可尝试访问)。 - 成本失控:Midjourney V7/Niji 7 单次 15 积分约 60 秒,并行生成 4 张即 60 积分,高频调用需监控配额。