使用说明

核心用法

本 Skill 是通过 RunComfy CLI 调用 OpenAI GPT Image 2（ChatGPT Images 2.0）的封装工具，无需 OpenAI API Key，采用异步 REST 架构。核心命令为 runcomfy run openai/gpt-image-2/text-to-image 或 /edit，支持文生图和图生图编辑两种模式。

关键特性包括：

自动映射 3 种固定尺寸（1024×1024、1024×1536、1536×1024），避免 422 错误
智能识别「竖版/横版/横幅」等自然语言尺寸描述
多图引用编辑（最多 10 张参考图），支持 "image 1 / image 2" 编号指令
内置模型专属提示词优化规则

显著优点

1. 文字渲染能力突出：在同类模型中，GPT Image 2 对嵌入式文本、Logo、多语言排版（日文假名、西里尔、阿拉伯文）的生成精度最高，但需将文字内容用引号精确包裹
2. 指令遵循精确：擅长复杂布局、多元素组合、电商产品图、UI 原型等需要精准控制的场景
3. 迭代稳定性高：单属性迭代策略（每次只改一个变量）能保持构图稳定
4. 编辑保真度强：通过 "keep...unchanged" preservation 语言可锁定面部、姿态、品牌标识不被意外修改
5. 零基础设施：无需 GPU 租赁、模型部署或多厂商 API Key 管理

潜在缺点与局限性

尺寸严格受限：仅支持 3 种固定比例，极端长宽比会被强制裁剪
写实人像非最优：在超写实肖像领域，Nano Banana Pro 表现更佳
风格化能力一般：追求油画感、重艺术风格时，Flux 2 更合适
提示词长度瓶颈：过长的嵌入式文字块会导致质量下降
依赖 RunComfy 账户：非直接 OpenAI 官方 API，需第三方平台账号

适合人群

电商运营：需要带准确文字的产品主图、多语言本地化素材
品牌设计师：Logo mockup、海报、包装设计的快速原型
广告创意：图文一体的高转化素材生成
UI/UX 设计师：界面原型、科学插图等布局敏感场景
需要「精准可控」优先于「艺术风格」的图像生成用户

常规风险

平台依赖风险：服务可用性绑定 RunComfy 平台，非 OpenAI 官方 SLA
Token 管理：CLI 保存的认证令牌位于 ~/.config/runcomfy/token.json，需确保文件权限安全（0600）
下载限制：自动下载仅信任 *.runcomfy.net/com 域名，防止恶意模型诱导抓取任意 URL
单文件大小限制：下载流在 2GiB 处强制中断
CI 场景：需显式设置 RUNCOMFY_TOKEN 环境变量

安全解读

核心用法

该技能是一个纯Markdown文档型工具，通过调用runcomfy CLI与RunComfy平台托管的OpenAI GPT Image 2模型交互，支持文生图(text-to-image)和图生图(edit)两种模式。用户无需OpenAI API密钥，仅需RunComfy账号即可完成图像生成。

关键调用方式：

文生图：runcomfy run openai/gpt-image-2/text-to-image --input '{"prompt":"...","size":"1024_1024"}'
图生图：runcomfy run openai/gpt-image-2/edit --input '{"prompt":"...","images":["https://..."]}'

尺寸映射智能处理：自动将"portrait/vertical"映射为1024_1536，"landscape/banner"映射为1536_1024，默认1024_1024，避免不支持的尺寸导致422错误。

显著优点

1. 提示词优化内嵌：区别于直接调用API，该技能打包了GPT Image 2的文档化提示模式——精确引用嵌入文本、单属性迭代、编辑保留语言、多参考图编号等，显著提升首试成功率。

2. 文字渲染能力突出：GPT Image 2在同类模型中嵌入文字、多语言排版（日语假名、西里尔、阿拉伯右至左）表现最强，适合品牌资产、电商广告、UI mockup。

3. 编辑稳定性高：通过"keep...unchanged"等保留指令语言，可在迭代中稳定保持构图、姿态、品牌标识不变。

4. 纯文档零执行风险：无JavaScript/Python/Shell可执行代码，249行纯Markdown，零依赖、零攻击面。

5. 安全合规完备：S+评级，通过GDPR/CCPA合规检查，无敏感数据收集，网络交互仅限于RunComfy官方域名。

潜在缺点与局限性

尺寸限制严格：文生图仅支持3种固定尺寸(1024×1024、1024×1536、1536×1024)，极端比例自动压缩至最近支持尺寸。
肖像真实感非最优：超写实人像生成弱于Nano Banana Pro，电影感美学弱于Seedream 5，重度风格化弱于Flux 2。
嵌入文字长度敏感：长文本块质量下降，需保持简短并精确引用。
多图编辑非ControlNet：最多10张参考图提供辅助指引，非精确控制，首图为主要参考。
依赖外部CLI：必须安装@runcomfy/cli并拥有RunComfy账号，无法独立运行。

适合人群

电商/品牌设计师：需要生成带准确文字的产品图、广告素材、多语言本地化素材
UI/UX设计师：快速产出带标签、说明文字的界面mockup
营销运营：高转化率广告图（标题+视觉一体化生成）
内容创作者：海报、标牌、信息图等文字密集型视觉内容
AI Agent开发者：需要稳定、可迭代的图像生成工作流，而非单次美学探索

常规风险

模型误路由风险：若用户明确指定"GPT Image 2"，不可自动替换为其他模型（Flux/DALL-E等），否则破坏预期输出。
CLI环境依赖：容器/CI环境需配置RUNCOMFY_TOKEN，缺失会导致认证失败(exit 77)。
输入验证失败：非法尺寸(如2048×2048)会触发exit 65，需严格遵循3种固定尺寸+auto(仅edit)。
网络超时与限流：生成过程可能遇到exit 75(429/timeout)，需实现重试逻辑。
多参考图URL可访问性：编辑模式的images数组要求公开HTTPS URL，私有/失效链接会导致失败。
成本意识：GPU计费与生成时长挂钩，Ctrl-C取消可止损，但需正确触发取消API。

image-generation openai gpt-image-2 cli-tool runcomfy text-rendering multilingual e-commerce brand-assets product-photography

🫧 GPT Image 2 — Pro Pack on RunComfy 内容

手动下载zip · 6.0 kB

SKILL.mdtext/markdown

请选择文件