使用说明

核心用法

GPT Image 2（即 ChatGPT Image 2.0）是 OpenAI 第二代图像模型，通过 RunComfy CLI 调用 openai/gpt-image-2/text-to-image 或 /edit 端点，无需 OpenAI API key。支持三档固定尺寸（1:1、2:3、3:2），edit 端点可引用最多 10 张参考图，支持自然语言编辑指令与元素保留声明。

显著优点

业界最强文字渲染：嵌入引号中的文本（标题、Logo、多语言标识）可直接渲染，支持拉丁、西里尔、日文假名、阿拉伯语等
指令精准度高：多元素提示、布局提示、排版指令遵循率优于同类模型
迭代稳定性：单次修改一个属性时，构图保持稳定，适合品牌资产多轮精修
多图合成：edit 端点支持最多 10 张参考图，可用自然语言指定各图贡献（如「图 1 的主体 + 图 2 的光影」）
多语言本地化：同一视觉资产可快速生成多语言文本变体

潜在缺点与局限

仅 3 种固定尺寸，不支持自定义比例或超高分输出（需后处理放大）
提示长度有限，长段落嵌入文本会降低渲染质量
人像真实感非强项，超写实肖像建议换用其他模型
依赖外部 CLI：需安装 @runcomfy/cli 并配置 RUNCOMFY_TOKEN
无种子参数，无法精确复现结果，需锁定提示词重新生成

适合人群

电商/广告设计师（需产品图 + 文案一体化生成）
品牌视觉团队（多语言素材本地化）
UI/UX 原型制作（界面 mockup、标注图）
海报/包装/ signage 设计师（文字精准排版需求）

常规风险

API Token 需妥善保管，CLI 已采用 0600 权限存储
外部图片 URL 由 RunComfy 服务器获取，建议使用可信来源
生成内容需人工审查，避免不当输出

安全解读

核心用法

该 Skill 是 GPT Image 2（OpenAI ChatGPT Images 2.0）的 RunComfy 托管版本封装，通过本地 CLI 调用云端 API 完成图像生成与编辑。核心命令为 runcomfy run openai/gpt-image-2/text-to-image 生成新图，或 /edit 端点基于最多 10 张参考图进行编辑。支持三种固定尺寸（1:1、2:3 竖版、3:2 横版），编辑端点可保留输入比例。

显著优点

1. 业界最强文本渲染：GPT Image 2 是目前多语言排版能力最强的图像模型，能准确渲染引号内的文字、品牌标识、多语言标识（拉丁、西里尔、日文假名、阿拉伯文等），解决传统 AI 绘图"乱码文字"痛点。

2. 指令遵循精准：对布局提示（三分法、特写、 aerial view）、风格锚定、元素位置控制响应稳定，适合需要精确构图的商业场景。

3. 迭代稳定性：单变量修改时保持画面结构不变，便于品牌资产的多轮精修与多语言本地化变体生成。

4. 零 OpenAI 账户门槛：通过 RunComfy 托管调用，用户只需 RunComfy 账号，无需直接管理 OpenAI API 密钥与额度。

潜在缺点与局限性

尺寸受限：仅支持 1024×1024、1024×1536、1536×1024 三种分辨率，无法原生输出 4K 或自定义比例，高分辨率需后续超分。
人像写实非最优：超写实人像生成非其强项，应路由至专门的人像模型。
提示词长度限制：长段落文本渲染质量下降，建议精简嵌入文字。
外部依赖：功能完全依赖 RunComfy 服务可用性与 CLI 工具维护状态。

适合人群

电商运营：需要带准确标签文字的产品主图
品牌设计师：快速生成多语言版本的品牌海报、包装 mockup
广告创意：高转化率素材需图文一体化呈现
UI/UX 设计师：界面 mockup 与科学插图需精确标注

常规风险

Token 泄露风险：RUNCOMFY_TOKEN 需妥善保管，避免提交至版本控制
外部 URL 安全：编辑功能引用的图像 URL 由用户提供，不验证来源安全性
服务依赖：RunComfy 服务中断或定价变更将影响 Skill 可用性
内容合规：生成内容受 RunComfy/OpenAI 使用政策约束，商业用途需确认授权范围

image-generation text-rendering typography multilingual brand-assets e-commerce cli-tool api-integration openai runcomfy gpt-image-2

🫧 GPT Image 2 — Pro Pack on RunComfy 内容

手动下载zip · 5.5 kB

SKILL.mdtext/markdown

请选择文件