核心用法
GPT Image 2 技能允许用户在 Claude Code 环境中直接调用 ChatGPT Plus 或 Pro 订阅包含的 GPT Image 2(ChatGPT Images 2.0)图像生成能力。通过本地 codex CLI 工具执行图像生成任务,无需单独申请 OpenAI API、无需按量计费,也无需第三方平台(如 Fal、Replicate)的 token。
支持两种主要模式:
- 文生图(Text-to-Image):直接根据文本描述生成图像
- 图生图(Image-to-Image):以上传图片为参考,进行重绘、风格迁移、编辑等操作,支持多参考图组合
调用方式简洁,通过 bash scripts/gen.sh 脚本封装,自动处理会话快照、图像提取和文件输出。脚本会扫描 codex exec 生成的会话文件,提取 base64 编码的图像数据并解码保存。
显著优点
- 零额外成本:复用现有 ChatGPT 订阅,无单独计费
- 无需 API 管理:不依赖 OpenAI 开发者账号或 API key
- 本地化执行:通过 Codex CLI 在本地运行,数据不经过第三方中转
- 功能完整:支持 GPT Image 2 全特性,包括复杂图文排版、多参考图合成
- 透明数据:仅读取本次调用产生的会话文件,不触碰历史数据
潜在缺点与局限性
- 硬性依赖:必须同时满足 ChatGPT Plus/Pro 订阅 + 本地安装并登录 Codex CLI 两个条件
- 功能开关限制:需显式启用
--enable image_generation,该功能仍在开发中,可能不稳定 - 无并发支持:单次调用串行执行,文件系统快照机制不支持并发
- 平台限制:Codex CLI 主要面向 macOS/Linux,Windows 支持可能有限
- 故障排查复杂:退出码涵盖从认证失败到模型拒绝的多种情况,用户需自行判断层级
适合人群
- 已订阅 ChatGPT Plus/Pro 且希望在工作流中集成图像生成的开发者
- 不想管理多套 API 凭证、偏好使用现有订阅的技术用户
- 需要图生图编辑、风格迁移等高级功能的创意工作者
- 注重数据本地化、不希望图像数据经过第三方平台的隐私敏感用户
常规风险
- 订阅失效风险:ChatGPT 订阅到期或 OpenAI 调整功能策略将直接导致技能不可用
- CLI 版本漂移:Codex CLI 快速迭代,特定 flag(如
--ephemeral禁用要求)可能随版本变化 - 认证状态依赖:
codex login会话过期或被封禁会中断服务,且错误信息可能模糊(退出码 5/7 涵盖多种失败场景) - 功能灰度风险:
image_generation为开发中功能,存在被移除或调整的可能 - 本地环境依赖:Python 3 和 codex 二进制必须可用,跨设备迁移需重新配置
- 无 fallback 机制:文档明确要求不得自动切换至其他模型或 HTML mockup,硬性失败时体验中断