核心用法
GPT Image 2 是一款桥接型技能,让已订阅 ChatGPT Plus 或 Pro 的用户直接在 Claude Code 内调用 OpenAI 最新的图像生成模型(Image 2.0)。无需 OpenAI API key、无需按量计费、无需第三方平台账号。
触发方式:用户明确提及 "GPT Image 2"、"ChatGPT Images 2.0"、"image 2" 等关键词时激活,不自动替代其他生图请求。
调用模式:
- 文生图:
bash scripts/gen.sh --prompt "描述" --out /path/to/output.png - 图生图/风格迁移:添加
--ref /path/to/ref.png支持多参考图合成 - 通过本地
codexCLI 执行,复用已登录的 ChatGPT 会话,开启--enable image_generation特性标志
技术原理:脚本先快照 ~/.codex/sessions/,执行 codex exec 后对比会话目录变化,从新生成的 JSONL rollout 中提取 base64 图像数据(支持 PNG/JPEG/WebP),解码后输出。
显著优点
1. 零边际成本:复用现有 ChatGPT 订阅,无 API 计费焦虑
2. 本地执行:图像数据不落第三方服务器,仅通过 OpenAI 官方通道
3. 功能完整:支持文本渲染、信息图表、时间线等复杂布局;多参考图合成可保持构图换风格
4. 提示词直通:不过度修饰用户原始描述,保留创作意图
5. 细粒度退出码:8 种错误状态便于快速定位(认证、网络、配额、文件缺失等)
潜在缺点与局限
- 硬依赖:必须同时满足①本地安装 Codex CLI ②有效 ChatGPT Plus/Pro 登录③账号具备 image_generation 权限,缺一不可
- 无回退机制:若用户未订阅或权限未开通,技能直接失败(exit code 5/7),不会自动切换至 DALL·E 或 HTML mockup
- 串行执行:基于文件系统快照 diff,无法并发调用
- 平台限制:目前仅支持 macOS/Linux(Codex CLI 依赖),Windows 需 WSL
- 功能 flag 不稳定:
--enable image_generation仍为开发中特性,可能随 OpenAI 更新失效
适合人群
- 已付费 ChatGPT Plus/Pro 且高频使用图像生成的开发者
- 希望在 IDE 工作流内闭环完成"代码+图像"创作的技术用户
- 对 API 按量计费敏感、偏好订阅制打包权益的个人或小团队
常规风险
| 风险类型 | 说明 |
|---------|------|
| 授权失效 | ChatGPT 订阅到期或 Codex 登录态过期时,生成会静默失败 |
| 隐私暴露 | 提示词和参考图经 Codex CLI 发送至 OpenAI,受 OpenAI 隐私政策约束 |
| 配额限制 | 即使订阅有效,Image 2 可能有未公开的速率/用量上限 |
| 会话残留 | 虽然脚本只读取本次生成的 rollout,但 `~/.codex/sessions/` 目录本身可能积累历史数据 |
| 供应链风险 | 依赖 OpenAI 官方 CLI 的行为变更,技能维护者需跟进版本适配 |
替代方案
无本地条件或订阅的用户,可改用 RunComfy 托管服务(需独立账号):
- 文生图:https://www.runcomfy.com/models/openai/gpt-image-2/text-to-image
- 图生图:https://www.runcomfy.com/models/openai/gpt-image-2/edit