使用说明

核心用法

该技能通过 runcomfy CLI 调用 RunComfy 托管的 OpenAI GPT Image 2 模型，提供文生图和图生图（编辑）两大功能：

文生图：runcomfy run openai/gpt-image-2/text-to-image --input '{"prompt": "...", "size": "1024_1536"}'
图生图：runcomfy run openai/gpt-image-2/edit --input '{"prompt": "...", "images": ["https://..."]}'

仅支持三种固定尺寸（1024×1024、1024×1536、1536×1024），编辑模式可选 auto 保持原图比例。

显著优点

1. 指令遵循度极高：对多元素提示、布局描述、嵌入文字指令的理解优于同类模型
2. 文字渲染能力突出：支持英文、日文假名、西里尔文、阿拉伯文等多语言排版，短文本嵌入准确
3. 编辑保真性强：迭代修改时可稳定保持构图、主体姿态、品牌标识不变
4. 无需 OpenAI 密钥：通过 RunComfy 账户统一计费，简化多模型管理

潜在缺点与局限性

尺寸受限：仅 3 种固定比例，极端宽高比会被自动裁剪
文本长度上限：提示词中嵌入文字过长会导致渲染质量下降
非人像首选：超写实肖像表现弱于 Nano Banana Pro 等专业模型
多图编辑非 ControlNet：最多 10 张参考图提供辅助线索，而非精确控制
依赖第三方平台：需 RunComfy 账户及有效 token，存在服务可用性风险

适合人群

电商/广告设计师：需要品牌安全的商品图、带文案的营销素材
本地化团队：同一视觉资产生成多语言版本
UI/UX 设计师：界面原型、示意图、标注清晰的插画
品牌创意：海报、包装 mockup、标牌设计

常规风险

token 管理：~/.config/runcomfy/token.json 存储 API 凭证，需确保文件权限（0600）及环境隔离
外部图片 URL：编辑功能引用的图片由 RunComfy 服务器拉取，需警惕不可信来源的图片提示注入攻击
网络与计费：异步轮询机制可能因超时而产生费用，支持 Ctrl-C 取消请求止损
输出下载限制：单文件 2 GiB 上限防止磁盘填满攻击

安全解读

核心用法

本 Skill 是 RunComfy 官方提供的 GPT Image 2（ChatGPT Images 2.0）调用封装，通过本地 runcomfy CLI 与 RunComfy Model API 交互，无需 OpenAI API Key。支持两种调用模式：

text-to-image：纯文生图，固定 3 种尺寸（1024×1024、1024×1536、1536×1024）
edit：参考图编辑，最多支持 10 张输入图，可保留原始构图进行局部修改

典型调用示例：

runcomfy run openai/gpt-image-2/text-to-image \
  --input '{"prompt": "...", "size": "1024_1536"}' \
  --output-dir /path/to/save

CLI 自动轮询任务状态，完成后下载结果到指定目录。

显著优点

1. 指令遵循精准：GPT Image 2 的核心优势是“画面内容可控性”——多元素提示、版式线索、嵌入文字指令的还原度优于同类模型。
2. 嵌入文字能力突出：支持英文、日文假名、西里尔、阿拉伯文等多语言直接渲染，引用时加引号即可提升准确率。
3. 编辑保真度高：edit 端点通过自然语言指令修改，可显式声明“保持人物姿态/品牌标识/整体构图不变”，迭代时画面稳定性强。
4. 免运维托管：无需自行部署 GPU 或管理 OpenAI 账号，RunComfy 统一处理排队、计费、下载。
5. 输出场景匹配精准：电商产品图、广告 banner、UI mockup、科学插图等“品牌安全、文字清晰”场景尤为适合。

潜在缺点与局限性

尺寸僵化：文生图仅 3 种固定比例，超宽或超长构图会被强制裁剪或压缩。
文字长度受限：嵌入文字建议简短（单词/短句），长段落易乱码或排版崩坏。
肖像真实感一般：与 Nano Banana Pro 等专攻人像的模型相比，皮肤质感、眼神细节稍弱。
风格化能力中等：追求强烈艺术风格（油画、浮世绘、赛博朋克）时建议切 Flux 2 或 Seedream。
网络依赖：全流程需联网，无法本地离线运行；生成图片 URL 有效期受平台策略限制。

适合人群

电商运营/设计师：需要批量生成带品牌文案的产品主图、广告素材
品牌市场团队：多语言本地化视觉素材，要求文字准确、风格统一
UI/UX 设计师：快速产出界面 mockup、插画占位图
自动化工作流开发者：通过 runcomfy --output json 与 CI/CD、Airtable、Notion 等集成
提示词工程师：研究“指令精准度”与“构图稳定性” trade-off 的实践者

常规风险

1. CLI 供应链风险：依赖 npm i -g @runcomfy/cli，需确认包名正确（防范 typosquatting）。
2. Token 泄露风险：RUNCOMFY_TOKEN 环境变量在 CI 中可能被日志或子进程读取，建议使用专用密钥管理服务。
3. 输入图片安全：edit 端点引用外部 URL 时，需确保图片来源可信，防范基于图像的 prompt injection。
4. 内容合规：GPT Image 2 本身具备 OpenAI 的内容过滤，但用户仍需遵守平台 AUP，避免生成敏感、侵权内容。
5. 成本累积：按量计费模型，批量自动化时建议设置预算告警与任务取消机制（Ctrl-C 可触发取消）。

image-generation text-to-image image-editing typography multilingual cli-tool api-gateway e-commerce branding

🫧 GPT Image 2 — Pro Pack on RunComfy 内容

手动下载zip · 5.2 kB

SKILL.mdtext/markdown

请选择文件