🫧 GPT Image 2 — Pro Pack on RunComfy

🫧 精准排版,文字可控的 AI 绘图专家

image-generation榜 #14

通过 RunComfy 平台调用 OpenAI GPT Image 2,无需 OpenAI 密钥即可生成精准可控、擅长嵌入文字与排版设计的图像。

收藏
5.6k
安装
2.7k
版本
0.1.4
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

该技能通过 runcomfy CLI 调用 RunComfy 托管的 OpenAI GPT Image 2 模型,提供文生图图生图(编辑)两大功能:

  • 文生图runcomfy run openai/gpt-image-2/text-to-image --input '{"prompt": "...", "size": "1024_1536"}'
  • 图生图runcomfy run openai/gpt-image-2/edit --input '{"prompt": "...", "images": ["https://..."]}'

仅支持三种固定尺寸(1024×1024、1024×1536、1536×1024),编辑模式可选 auto 保持原图比例。

显著优点

1. 指令遵循度极高:对多元素提示、布局描述、嵌入文字指令的理解优于同类模型
2. 文字渲染能力突出:支持英文、日文假名、西里尔文、阿拉伯文等多语言排版,短文本嵌入准确

3. 编辑保真性强:迭代修改时可稳定保持构图、主体姿态、品牌标识不变

4. 无需 OpenAI 密钥:通过 RunComfy 账户统一计费,简化多模型管理

潜在缺点与局限性

  • 尺寸受限:仅 3 种固定比例,极端宽高比会被自动裁剪
  • 文本长度上限:提示词中嵌入文字过长会导致渲染质量下降
  • 非人像首选:超写实肖像表现弱于 Nano Banana Pro 等专业模型
  • 多图编辑非 ControlNet:最多 10 张参考图提供辅助线索,而非精确控制
  • 依赖第三方平台:需 RunComfy 账户及有效 token,存在服务可用性风险

适合人群

  • 电商/广告设计师:需要品牌安全的商品图、带文案的营销素材
  • 本地化团队:同一视觉资产生成多语言版本
  • UI/UX 设计师:界面原型、示意图、标注清晰的插画
  • 品牌创意:海报、包装 mockup、标牌设计

常规风险

  • token 管理~/.config/runcomfy/token.json 存储 API 凭证,需确保文件权限(0600)及环境隔离
  • 外部图片 URL:编辑功能引用的图片由 RunComfy 服务器拉取,需警惕不可信来源的图片提示注入攻击
  • 网络与计费:异步轮询机制可能因超时而产生费用,支持 Ctrl-C 取消请求止损
  • 输出下载限制:单文件 2 GiB 上限防止磁盘填满攻击

安全解读

核心用法

本 Skill 是 RunComfy 官方提供的 GPT Image 2(ChatGPT Images 2.0)调用封装,通过本地 runcomfy CLI 与 RunComfy Model API 交互,无需 OpenAI API Key。支持两种调用模式:

  • text-to-image:纯文生图,固定 3 种尺寸(1024×1024、1024×1536、1536×1024)
  • edit:参考图编辑,最多支持 10 张输入图,可保留原始构图进行局部修改

典型调用示例:

runcomfy run openai/gpt-image-2/text-to-image \
  --input '{"prompt": "...", "size": "1024_1536"}' \
  --output-dir /path/to/save

CLI 自动轮询任务状态,完成后下载结果到指定目录。

显著优点

1. 指令遵循精准:GPT Image 2 的核心优势是“画面内容可控性”——多元素提示、版式线索、嵌入文字指令的还原度优于同类模型。
2. 嵌入文字能力突出:支持英文、日文假名、西里尔、阿拉伯文等多语言直接渲染,引用时加引号即可提升准确率。

3. 编辑保真度高edit 端点通过自然语言指令修改,可显式声明“保持人物姿态/品牌标识/整体构图不变”,迭代时画面稳定性强。

4. 免运维托管:无需自行部署 GPU 或管理 OpenAI 账号,RunComfy 统一处理排队、计费、下载。

5. 输出场景匹配精准:电商产品图、广告 banner、UI mockup、科学插图等“品牌安全、文字清晰”场景尤为适合。

潜在缺点与局限性

  • 尺寸僵化:文生图仅 3 种固定比例,超宽或超长构图会被强制裁剪或压缩。
  • 文字长度受限:嵌入文字建议简短(单词/短句),长段落易乱码或排版崩坏。
  • 肖像真实感一般:与 Nano Banana Pro 等专攻人像的模型相比,皮肤质感、眼神细节稍弱。
  • 风格化能力中等:追求强烈艺术风格(油画、浮世绘、赛博朋克)时建议切 Flux 2 或 Seedream。
  • 网络依赖:全流程需联网,无法本地离线运行;生成图片 URL 有效期受平台策略限制。

适合人群

  • 电商运营/设计师:需要批量生成带品牌文案的产品主图、广告素材
  • 品牌市场团队:多语言本地化视觉素材,要求文字准确、风格统一
  • UI/UX 设计师:快速产出界面 mockup、插画占位图
  • 自动化工作流开发者:通过 runcomfy --output json 与 CI/CD、Airtable、Notion 等集成
  • 提示词工程师:研究“指令精准度”与“构图稳定性” trade-off 的实践者

常规风险

1. CLI 供应链风险:依赖 npm i -g @runcomfy/cli,需确认包名正确(防范 typosquatting)。
2. Token 泄露风险RUNCOMFY_TOKEN 环境变量在 CI 中可能被日志或子进程读取,建议使用专用密钥管理服务。

3. 输入图片安全edit 端点引用外部 URL 时,需确保图片来源可信,防范基于图像的 prompt injection。

4. 内容合规:GPT Image 2 本身具备 OpenAI 的内容过滤,但用户仍需遵守平台 AUP,避免生成敏感、侵权内容。

5. 成本累积:按量计费模型,批量自动化时建议设置预算告警与任务取消机制(Ctrl-C 可触发取消)。

🫧 GPT Image 2 — Pro Pack on RunComfy 内容

手动下载zip · 5.2 kB
SKILL.mdtext/markdown
请选择文件