核心用法
该skill作为GPT Image 2(ChatGPT Images 2.0)的本地代理层,让用户在Claude Code中直接调用已通过ChatGPT Plus/Pro订阅获得的图像生成能力。通过封装codex CLI命令,实现零配置复用现有登录态:文生图直接透传prompt,图生图通过--ref参数支持多参考图合成与风格迁移。
技术路径:执行codex exec --enable image_generation,利用本地session目录diff检测新生成的rollout,从中提取base64图像payload解码输出。关键约束包括必须启用image_generationfeature flag、禁止使用--ephemeral模式(否则session不持久化导致无法提取图像)。
显著优点
1. 成本结构友好:零边际成本复用ChatGPT订阅,无Fal/Replicate等第三方推理平台的按次计费
2. 本地化隐私:图像生成全程走用户自有Codex CLI会话,无额外网络出口或telemetry
3. 功能完整性:支持多参考图组合、风格迁移、图文混排等Image 2原生能力,非简化版API封装
4. 权限隔离设计:脚本仅读写本次调用产生的session文件,通过目录快照diff机制避免触碰历史Codex对话数据
潜在局限与风险
硬性依赖门槛:必须同时满足①本地安装codex CLI ②有效ChatGPT Plus/Pro登录态且账户已开通Image 2权限。任一缺失即完全不可用(exit code 3/5/7)。无订阅用户需转向RunComfy托管方案,形成体验断点。
版本耦合脆弱性:依赖特定CLI行为(0.111.0+的flag语义),OpenAI后续迭代可能破坏提取逻辑。--enable image_generation作为under-development flag存在随时变更或移除风险。
并发与性能:文件系统快照diff机制天然串行化,无并发调用支持;300秒默认超时对大尺寸多参考合成可能不足。
授权边界模糊:通过codex exec复用ChatGPT网页版权限,处于OpenAI ToS灰色地带——虽技术上可行,但官方未明确CLI调用是否等同于网页版合理使用范畴。
适合人群
- 已订阅ChatGPT Plus/Pro且频繁使用Image 2的重度用户
- 追求"订阅费已付即无限使用"成本模型、厌恶按次计费波动的价格敏感者
- 对数据不出本地有强需求(医疗、法律、金融视觉内容生成)的企业/个人
- 需要将Image 2集成进自动化工作流(配合Claude Code的agent能力)的开发者
常规风险提示
- 订阅失效即服务归零:ChatGPT订阅中断或Image 2功能权限调整将直接导致技能失效
- 输出路径污染:默认写入当前工作目录,多agent并行时需注意文件名冲突
- 提取失败兜底弱:exit code 6/7时仅返回错误层定位,用户需自行排查session目录状态或重新登录
- 无内容过滤层:直接透传用户prompt至OpenAI,敏感内容拦截依赖OpenAI后端策略,可能产生不可预期的拒绝或账户风险