gemini-image-proxy

🎨 极简部署的 Gemini 图像生成器

基于 OpenAI SDK 调用 Gemini 3 Pro Image API 的轻量级图片生成与编辑工具,代码简洁无隐藏逻辑,适合受限环境部署。

收藏
18.9k
安装
4.1k
版本
v1.0.0
CLS 安全性认证2026-05-01
点击查看完整报告 >

使用说明

核心用法

gemini-image-proxy 是一个通过 OpenAI Python SDK 调用 Gemini 3 Pro Image API 的图片生成与编辑技能。用户只需安装 openai 包并配置两个环境变量(GOOGLE_PROXY_API_KEYGOOGLE_PROXY_BASE_URL),即可通过命令行完成图片生成或编辑任务。

生成新图片python3 generate.py "prompt" output.png
编辑现有图片python3 generate.py "edit instructions" output.png --input source.png

支持 PNG、JPG、JPEG、GIF、WEBP 格式输入,输出自动创建目录结构。

显著优点

1. 极简依赖:仅需 openai 一个 pip 包,无需 google-genaipillow` 等额外依赖,大幅降低环境冲突风险
2. 部署友好:专为 Fly.io 等受限容器环境优化,解决同类工具常见的容器兼容性问题

3. SDK 兼容:复用成熟的 OpenAI Python SDK 接口,降低学习成本,便于现有 OpenAI 项目迁移

4. 模型灵活:内置 Gemini 3 Pro Image、Imagen 4.0 系列、Gemini 2.5 Flash 等多模型支持,可手动切换

5. 代码透明:核心脚本仅约 100 行,无封装黑盒,易于审计和二次开发

潜在缺点与局限性

1. 代理依赖:必须自行搭建或寻找可信的 Gemini API 代理端点,增加了基础设施成本
2. 无内置重试:脚本未实现网络错误重试机制,API 不稳定时需手动处理

3. Prompt 无过滤:用户输入直接透传至 API,依赖后端服务进行内容安全审核

4. 功能单一:仅支持生成和基础编辑,无批量处理、风格预设、历史管理等高级功能

5. 环境变量硬编码:模型选择需修改脚本源码,无法通过参数动态指定

适合的目标群体

  • 容器化部署用户:Fly.io、Heroku 等受限 PaaS 平台的开发者
  • OpenAI 生态迁移者:希望将现有 OpenAI 图片生成代码无缝切换至 Gemini 的团队
  • 极简主义开发者:追求最小依赖、快速验证原型的个人或小型团队
  • 运维敏感场景:对 pip 依赖树有严格管控要求的企业环境

使用风险

  • API 端点可信性:图片数据将发送至用户配置的第三方代理端点,存在数据泄露和中间人攻击风险,务必使用 HTTPS 并验证证书
  • 密钥管理:环境变量方式在部分容器平台可能通过日志或调试接口泄露,建议配合密钥管理服务
  • 网络稳定性:无本地缓存或离线能力,完全依赖外部 API 可用性
  • 内容合规:Gemini API 的内容政策可能与用户所在地区法规存在差异,需自行评估合规性

安全解读

核心用法

Gemini Image Proxy 是一个轻量级图像生成技能,通过 OpenAI Python SDK 调用 Gemini 3 Pro Image 模型,支持文生图和图生图编辑两种模式。

快速上手
1. 安装依赖:python3 -m pip install openai

2. 配置环境变量:GOOGLE_PROXY_API_KEYGOOGLE_PROXY_BASE_URL

3. 生成图像:python3 generate.py "prompt" output.png

4. 编辑图像:python3 generate.py "edit instruction" output.png --input source.png

显著优点

| 优势 | 说明 |
|------|------|
| **极简依赖** | 仅需 `openai` 官方包,无需安装 `google-genai`、`pillow` 等复杂依赖 |
| **部署友好** | 在 Fly.io 免费容器、标准 Docker 环境中均可稳定运行,其他 Gemini 技能常因依赖问题失败 |
| **OpenAI兼容** | 使用标准 OpenAI SDK 接口(`images.generate` / `images.edits`),迁移成本低 |
| **模型丰富** | 支持 Gemini 3 Pro Image、Imagen 4.0 Ultra、Gemini 2.5 Flash 等多款模型 |

局限与缺点

  • 依赖外部代理:需要通过第三方代理服务(非 Google 官方直连)访问 Gemini API
  • 功能相对单一:专注于图像生成/编辑,无多模态对话、视频生成等高级功能
  • 无内置重试/限流:生产环境需自行处理 API 失败、速率限制等情况

适合人群

  • 需要在 资源受限环境(如免费容器)快速部署图像生成功能的开发者
  • 已使用 OpenAI SDK 技术栈,希望 统一接口 接入 Gemini 图像模型的团队
  • 追求 最小依赖、避免复杂 Python 包管理的个人项目

常规风险

| 风险点 | 等级 | 说明 |
|--------|------|------|
| API 端点安全 | 中 | 用户需自行确保 `GOOGLE_PROXY_BASE_URL` 可信,避免 API Key 泄露至恶意服务 |
| 个人开发者维护 | 低 | 维护者 yspcoder 为 T3 个人账号,建议代码审查后使用,关注长期更新 |
| 许可证不明 | 低 | 未声明开源许可证,使用/分发权利不明确 |
| 内容合规 | 低 | 生成内容需遵守 API 服务商政策,注意版权与合规性 |

gemini-image-proxy 内容

scripts文件夹
手动下载zip · 2.9 kB
generate.pytext/plain
请选择文件