Gemini Image Gen

🎨 零依赖 AI 图像生成引擎

creative榜 #6

基于 Gemini API 的零依赖图像生成工具,支持 Gemini 原生编辑、Imagen 3 引擎、10+ 风格预设与批量生成。

收藏
12.5k
安装
5.1k
版本
1.2.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Gemini Image Gen 是一个纯 Python 标准库实现的图像生成工具,通过命令行调用 Google Gemini API 完成文生图与图生图任务。基础用法为设置 GEMINI_API_KEY 后执行 python3 scripts/gen.py,默认生成 4 张随机提示词的图像。支持 --prompt 指定自定义描述、--engine 切换 Gemini 原生或 Imagen 3 引擎、--edit 对现有图像进行编辑修改、--style 调用 10 种预设风格(如 photo/anime/cyberpunk/watercolor 等),以及 --count 批量生成与自动 HTML 画廊输出。

显著优点

1. 零依赖部署:仅依赖 Python 3 标准库,无需安装额外包,部署成本极低
2. 双引擎支持:Gemini 原生(支持图像编辑)与 Imagen 3(高质量生成)灵活切换

3. 风格预设丰富:内置 10 种专业风格标签,降低提示词工程门槛

4. 批量工作流:单命令生成多图并输出可视化 HTML 画廊,适合内容创作流水线

5. 编辑能力:Gemini 引擎支持对现有图像进行语义级修改

潜在缺点与局限性

  • 功能边界:纯命令行工具,无 GUI 或 API 服务模式,集成到复杂系统需自行封装
  • 模型锁死:依赖 Google 独家模型,无本地或第三方模型备选方案
  • 编辑限制:图像编辑功能仅限 Gemini 引擎,Imagen 3 不支持
  • 成本不可控:Gemini/Imagen 3 均按调用计费,批量生成 --count 较大时费用累积快
  • 无内置重试/退避:遇到 429 限流需手动处理,生产环境需外部包装

适合人群

  • 快速原型设计师、内容创作者、独立开发者
  • 需要轻量、可脚本化图像生成管道的技术团队
  • 已持有 Google AI Studio/GCP 配额、熟悉命令行工作流的用户

常规风险

  • API 密钥泄露GEMINI_API_KEY 为唯一凭证,硬编码或日志泄露将导致配额盗刷
  • 内容合规:Google 生成模型内置安全过滤,特定提示词可能触发拒绝或空返回
  • 输出质量波动:同一提示词多次生成结果一致性不及 Midjourney 等封闭产品
  • 服务依赖:Google API 策略、定价、模型版本变更可能中断工作流

Gemini Image Gen 内容

暂无文件树

手动下载zip · 9.7 kB
contentapplication/octet-stream
请选择文件