核心功能
Gemini Image Gen 是一款轻量级命令行图像生成工具,基于纯 Python 标准库实现,零外部依赖。支持两大核心引擎:
- Gemini 原生模式(默认):基于
gemini-2.5-flash-image模型,支持图像生成与编辑双功能 - Imagen 3 模式:调用 Google Imagen 3 (
imagen-3.0-generate-002) 实现高质量图像生成
主要特性包括:批量生成(默认 4 张,可调)、自定义提示词或随机创意生成、图像编辑与风格迁移(仅限 Gemini 引擎)、多比例输出(1:1/16:9/9:16/4:3/3:4)、自动生成 HTML 预览画廊,以及完整的提示词-文件名映射记录。
显著优点
- 零依赖部署:纯 Python stdlib 实现,无需 PyTorch/TensorFlow 等重型框架
- 双引擎灵活切换:原生 Gemini 支持编辑功能,Imagen 3 专注生成质量
- 开发者友好:自动输出 HTML 画廊与 JSON 元数据,便于批量管理与预览
- 免费 API 入口:基于 Google AI Studio 免费额度,降低尝鲜门槛
潜在局限
- 平台锁定:完全依赖 Google Gemini/Imagen 服务,存在 API 可用性与政策变动风险
- 编辑功能受限:图像编辑仅 Gemini 引擎支持,Imagen 3 无法使用
- 无本地模型:必须联网调用云端 API,无法离线使用
- 功能边界:暂不支持 ControlNet、LoRA 等高级生成控制
适合人群
- 需要快速原型生成、批量素材制作的开发者与设计师
- 追求极简部署、不愿管理复杂依赖的环境(如容器/CI 场景)
- Google AI 生态用户,希望统一使用 Gemini 系列服务
常规风险提示
- API Key 安全:
GEMINI_API_KEY需妥善保管,避免泄露至版本控制 - 内容合规:Google API 受使用政策与内容安全过滤器约束,敏感题材可能被拦截
- 配额与成本:免费额度有速率与总量限制,生产环境需监控用量