核心用法
GPT Image 2 是一款桥接型技能,允许用户在 Claude Code 环境中直接调用其已订阅的 ChatGPT Plus/Pro 账户中的图像生成能力(GPT Image 2 / ChatGPT Images 2.0)。该技能通过本地安装的 codex CLI 工具执行,支持三种主要工作模式:
1. 文生图(Text-to-Image):直接传递自然语言提示词生成新图像
2. 图生图(Image-to-Image):上传参考图像并基于提示词进行编辑、重绘或风格转换
3. 多参考合成(Multi-reference Composition):通过重复 --ref 参数引用多张图像进行复杂构图
命令执行通过 bash scripts/gen.sh 完成,核心机制为:快照 ~/.codex/sessions/ 目录 → 调用 codex exec --enable image_generation → 对比会话文件差异 → 提取 base64 图像数据 → 解码输出 PNG。该设计确保仅读取本次调用产生的新会话数据,不触碰历史文件。
显著优点
- 零额外成本:复用现有 ChatGPT 订阅,无需单独申请 OpenAI API、无需 Fal/Replicate 等第三方 token、无按图计费
- 原生能力接入:直接调用 ChatGPT 最新的 Image 2 模型,支持复杂排版、信息图表(infographics)和文字渲染
- 隐私可控:纯本地执行,图像数据仅流经用户已登录的 Codex CLI,技能本身不发起网络请求、不收集遥测
- 灵活输出:支持自定义输出路径,默认按时间戳命名避免覆盖
潜在缺点与局限性
- 硬性依赖门槛:必须同时满足(1)ChatGPT Plus/Pro 订阅;(2)本地
codexCLI 安装且已登录;(3)python3环境。任一缺失即无法运行 - 功能标志限制:需显式传递
--enable image_generation,该功能仍处于开发阶段,存在未来变更风险 - 非持久化设计:禁止使用
--ephemeral标志(否则无法提取图像),导致会话文件必须落盘 - 串行执行:基于文件系统快照的 diff 机制决定了并发调用会被序列化
- 错误码暴露有限:失败时仅返回单句错误层级描述(如认证、网络、配额问题),无详细调试信息
适合人群
- 已订阅 ChatGPT Plus/Pro 且希望在开发工作流(Claude Code)中无缝集成图像生成的开发者
- 对 API 申请流程感到繁琐、希望"即开即用"的个人用户
- 需要频繁进行风格迁移、图像编辑而非单纯文生图的场景
- 注重数据隐私、偏好本地处理而非云端 SaaS 替代方案的用户
常规风险
1. 订阅状态波动:ChatGPT 的图像生成功能可能受区域、配额或功能标志调整影响,技能通过 exit code 7 暴露"能力被拒绝"状态
2. 本地凭证安全:依赖 codex login 的会话有效性,若用户长期未使用导致登录失效,需手动重新认证
3. 文件系统残留:虽设计有 mktemp 日志自动清理,但会话 JSONL 文件由 Codex CLI 管理,可能长期占据 ~/.codex/sessions/
4. 模型行为变更:Image 2 作为新模型,其提示词理解、风格表现可能随 OpenAI 迭代而变化,技能本身不做版本锁定
5. 无降级路径:若用户未满足前提条件,技能明确拒绝执行,不会自动回退至其他图像模型或 HTML mockup