核心用法
本 Skill 是通过 RunComfy CLI 调用 OpenAI GPT Image 2(ChatGPT Images 2.0)的封装工具,无需 OpenAI API Key,采用异步 REST 架构。核心命令为 runcomfy run openai/gpt-image-2/text-to-image 或 /edit,支持文生图和图生图编辑两种模式。
关键特性包括:
- 自动映射 3 种固定尺寸(1024×1024、1024×1536、1536×1024),避免 422 错误
- 智能识别「竖版/横版/横幅」等自然语言尺寸描述
- 多图引用编辑(最多 10 张参考图),支持 "image 1 / image 2" 编号指令
- 内置模型专属提示词优化规则
显著优点
1. 文字渲染能力突出:在同类模型中,GPT Image 2 对嵌入式文本、Logo、多语言排版(日文假名、西里尔、阿拉伯文)的生成精度最高,但需将文字内容用引号精确包裹
2. 指令遵循精确:擅长复杂布局、多元素组合、电商产品图、UI 原型等需要精准控制的场景
3. 迭代稳定性高:单属性迭代策略(每次只改一个变量)能保持构图稳定
4. 编辑保真度强:通过 "keep...unchanged" preservation 语言可锁定面部、姿态、品牌标识不被意外修改
5. 零基础设施:无需 GPU 租赁、模型部署或多厂商 API Key 管理
潜在缺点与局限性
- 尺寸严格受限:仅支持 3 种固定比例,极端长宽比会被强制裁剪
- 写实人像非最优:在超写实肖像领域,Nano Banana Pro 表现更佳
- 风格化能力一般:追求油画感、重艺术风格时,Flux 2 更合适
- 提示词长度瓶颈:过长的嵌入式文字块会导致质量下降
- 依赖 RunComfy 账户:非直接 OpenAI 官方 API,需第三方平台账号
适合人群
- 电商运营:需要带准确文字的产品主图、多语言本地化素材
- 品牌设计师:Logo mockup、海报、包装设计的快速原型
- 广告创意:图文一体的高转化素材生成
- UI/UX 设计师:界面原型、科学插图等布局敏感场景
- 需要「精准可控」优先于「艺术风格」的图像生成用户
常规风险
- 平台依赖风险:服务可用性绑定 RunComfy 平台,非 OpenAI 官方 SLA
- Token 管理:CLI 保存的认证令牌位于
~/.config/runcomfy/token.json,需确保文件权限安全(0600) - 下载限制:自动下载仅信任
*.runcomfy.net/com域名,防止恶意模型诱导抓取任意 URL - 单文件大小限制:下载流在 2GiB 处强制中断
- CI 场景:需显式设置
RUNCOMFY_TOKEN环境变量