核心用法
GPT Image 2(即 ChatGPT Image 2.0)是 OpenAI 第二代图像模型,通过 RunComfy CLI 调用 openai/gpt-image-2/text-to-image 或 /edit 端点,无需 OpenAI API key。支持三档固定尺寸(1:1、2:3、3:2),edit 端点可引用最多 10 张参考图,支持自然语言编辑指令与元素保留声明。
显著优点
- 业界最强文字渲染:嵌入引号中的文本(标题、Logo、多语言标识)可直接渲染,支持拉丁、西里尔、日文假名、阿拉伯语等
- 指令精准度高:多元素提示、布局提示、排版指令遵循率优于同类模型
- 迭代稳定性:单次修改一个属性时,构图保持稳定,适合品牌资产多轮精修
- 多图合成:edit 端点支持最多 10 张参考图,可用自然语言指定各图贡献(如「图 1 的主体 + 图 2 的光影」)
- 多语言本地化:同一视觉资产可快速生成多语言文本变体
潜在缺点与局限
- 仅 3 种固定尺寸,不支持自定义比例或超高分输出(需后处理放大)
- 提示长度有限,长段落嵌入文本会降低渲染质量
- 人像真实感非强项,超写实肖像建议换用其他模型
- 依赖外部 CLI:需安装
@runcomfy/cli并配置RUNCOMFY_TOKEN - 无种子参数,无法精确复现结果,需锁定提示词重新生成
适合人群
- 电商/广告设计师(需产品图 + 文案一体化生成)
- 品牌视觉团队(多语言素材本地化)
- UI/UX 原型制作(界面 mockup、标注图)
- 海报/包装/ signage 设计师(文字精准排版需求)
常规风险
- API Token 需妥善保管,CLI 已采用 0600 权限存储
- 外部图片 URL 由 RunComfy 服务器获取,建议使用可信来源
- 生成内容需人工审查,避免不当输出