核心用法
该技能通过 runcomfy CLI 调用 RunComfy 托管的 OpenAI GPT Image 2 模型,提供文生图和图生图(编辑)两大功能:
- 文生图:
runcomfy run openai/gpt-image-2/text-to-image --input '{"prompt": "...", "size": "1024_1536"}' - 图生图:
runcomfy run openai/gpt-image-2/edit --input '{"prompt": "...", "images": ["https://..."]}'
仅支持三种固定尺寸(1024×1024、1024×1536、1536×1024),编辑模式可选 auto 保持原图比例。
显著优点
1. 指令遵循度极高:对多元素提示、布局描述、嵌入文字指令的理解优于同类模型
2. 文字渲染能力突出:支持英文、日文假名、西里尔文、阿拉伯文等多语言排版,短文本嵌入准确
3. 编辑保真性强:迭代修改时可稳定保持构图、主体姿态、品牌标识不变
4. 无需 OpenAI 密钥:通过 RunComfy 账户统一计费,简化多模型管理
潜在缺点与局限性
- 尺寸受限:仅 3 种固定比例,极端宽高比会被自动裁剪
- 文本长度上限:提示词中嵌入文字过长会导致渲染质量下降
- 非人像首选:超写实肖像表现弱于 Nano Banana Pro 等专业模型
- 多图编辑非 ControlNet:最多 10 张参考图提供辅助线索,而非精确控制
- 依赖第三方平台:需 RunComfy 账户及有效 token,存在服务可用性风险
适合人群
- 电商/广告设计师:需要品牌安全的商品图、带文案的营销素材
- 本地化团队:同一视觉资产生成多语言版本
- UI/UX 设计师:界面原型、示意图、标注清晰的插画
- 品牌创意:海报、包装 mockup、标牌设计
常规风险
- token 管理:
~/.config/runcomfy/token.json存储 API 凭证,需确保文件权限(0600)及环境隔离 - 外部图片 URL:编辑功能引用的图片由 RunComfy 服务器拉取,需警惕不可信来源的图片提示注入攻击
- 网络与计费:异步轮询机制可能因超时而产生费用,支持
Ctrl-C取消请求止损 - 输出下载限制:单文件 2 GiB 上限防止磁盘填满攻击