核心用法
gemini-image-proxy 是一个通过 OpenAI Python SDK 调用 Gemini 3 Pro Image API 的图片生成与编辑技能。用户只需安装 openai 包并配置两个环境变量(GOOGLE_PROXY_API_KEY 和 GOOGLE_PROXY_BASE_URL),即可通过命令行完成图片生成或编辑任务。
生成新图片:python3 generate.py "prompt" output.png
编辑现有图片:python3 generate.py "edit instructions" output.png --input source.png
支持 PNG、JPG、JPEG、GIF、WEBP 格式输入,输出自动创建目录结构。
显著优点
1. 极简依赖:仅需 openai 一个 pip 包,无需 google-genai、、pillow` 等额外依赖,大幅降低环境冲突风险
2. 部署友好:专为 Fly.io 等受限容器环境优化,解决同类工具常见的容器兼容性问题
3. SDK 兼容:复用成熟的 OpenAI Python SDK 接口,降低学习成本,便于现有 OpenAI 项目迁移
4. 模型灵活:内置 Gemini 3 Pro Image、Imagen 4.0 系列、Gemini 2.5 Flash 等多模型支持,可手动切换
5. 代码透明:核心脚本仅约 100 行,无封装黑盒,易于审计和二次开发
潜在缺点与局限性
1. 代理依赖:必须自行搭建或寻找可信的 Gemini API 代理端点,增加了基础设施成本
2. 无内置重试:脚本未实现网络错误重试机制,API 不稳定时需手动处理
3. Prompt 无过滤:用户输入直接透传至 API,依赖后端服务进行内容安全审核
4. 功能单一:仅支持生成和基础编辑,无批量处理、风格预设、历史管理等高级功能
5. 环境变量硬编码:模型选择需修改脚本源码,无法通过参数动态指定
适合的目标群体
- 容器化部署用户:Fly.io、Heroku 等受限 PaaS 平台的开发者
- OpenAI 生态迁移者:希望将现有 OpenAI 图片生成代码无缝切换至 Gemini 的团队
- 极简主义开发者:追求最小依赖、快速验证原型的个人或小型团队
- 运维敏感场景:对 pip 依赖树有严格管控要求的企业环境
使用风险
- API 端点可信性:图片数据将发送至用户配置的第三方代理端点,存在数据泄露和中间人攻击风险,务必使用 HTTPS 并验证证书
- 密钥管理:环境变量方式在部分容器平台可能通过日志或调试接口泄露,建议配合密钥管理服务
- 网络稳定性:无本地缓存或离线能力,完全依赖外部 API 可用性
- 内容合规:Gemini API 的内容政策可能与用户所在地区法规存在差异,需自行评估合规性