使用说明

核心功能

Gemini Image Gen 是一款轻量级命令行图像生成工具，基于纯 Python 标准库实现，零外部依赖。支持两大核心引擎：

Gemini 原生模式（默认）：基于 gemini-2.5-flash-image 模型，支持图像生成与编辑双功能
Imagen 3 模式：调用 Google Imagen 3 (imagen-3.0-generate-002) 实现高质量图像生成

主要特性包括：批量生成（默认 4 张，可调）、自定义提示词或随机创意生成、图像编辑与风格迁移（仅限 Gemini 引擎）、多比例输出（1:1/16:9/9:16/4:3/3:4）、自动生成 HTML 预览画廊，以及完整的提示词-文件名映射记录。

显著优点

零依赖部署：纯 Python stdlib 实现，无需 PyTorch/TensorFlow 等重型框架
双引擎灵活切换：原生 Gemini 支持编辑功能，Imagen 3 专注生成质量
开发者友好：自动输出 HTML 画廊与 JSON 元数据，便于批量管理与预览
免费 API 入口：基于 Google AI Studio 免费额度，降低尝鲜门槛

潜在局限

平台锁定：完全依赖 Google Gemini/Imagen 服务，存在 API 可用性与政策变动风险
编辑功能受限：图像编辑仅 Gemini 引擎支持，Imagen 3 无法使用
无本地模型：必须联网调用云端 API，无法离线使用
功能边界：暂不支持 ControlNet、LoRA 等高级生成控制

适合人群

需要快速原型生成、批量素材制作的开发者与设计师
追求极简部署、不愿管理复杂依赖的环境（如容器/CI 场景）
Google AI 生态用户，希望统一使用 Gemini 系列服务

常规风险提示

API Key 安全：GEMINI_API_KEY 需妥善保管，避免泄露至版本控制
内容合规：Google API 受使用政策与内容安全过滤器约束，敏感题材可能被拦截
配额与成本：免费额度有速率与总量限制，生产环境需监控用量

安全解读

核心用法

gemini-image-gen 是一款纯 Python 标准库实现的命令行图像生成工具，通过调用 Google Gemini API 实现文本到图像的生成与编辑。无需安装任何外部依赖，仅需 Python 3 和 GEMINI_API_KEY 环境变量即可运行。

双引擎支持：

Gemini 原生（默认）：gemini-2.5-flash-image 模型，支持图像生成和图像编辑（如风格迁移、背景替换）
Imagen 3：imagen-3.0-generate-002 模型，专注于高质量图像生成，支持自定义宽高比

典型工作流：

# 快速生成4张随机创意图
python3 scripts/gen.py

# 指定提示词批量生成
python3 scripts/gen.py --prompt "赛博朋克猫骑霓虹摩托" --count 8

# 编辑现有图像
python3 scripts/gen.py --edit photo.jpg --prompt "转为水彩画风格"

输出包含 PNG 图像、prompts.json 映射文件及美观的 index.html 暗色主题画廊。

显著优点

1. 零依赖部署：纯 stdlib 实现，无 requests、PIL 等第三方包，部署极简
2. 双模能力：Gemini 引擎独有的"生成+编辑"一体化，Imagen 3 提供商用级画质
3. 批量友好：支持 --count 批量生成，自动生成 HTML 画廊便于浏览
4. 安全设计：API 密钥仅从环境变量读取，无硬编码风险

潜在局限

仅支持 Google 生态：依赖 Gemini/Imagen API，国内网络环境需自行解决
无本地模型：完全云端依赖，无网络即不可用
编辑功能受限：图像编辑仅 Gemini 引擎支持，Imagen 3 暂不支持
T3 来源：个人开发者维护，长期更新稳定性待观察

适合人群

需要快速集成 AI 图像能力的 Python 开发者
追求极简部署、厌恶依赖地狱的技术团队
希望批量生成素材并自动归档的内容创作者

常规风险

API 成本：Gemini/Imagen 按量计费，批量生成需注意配额
内容合规：Google API 受地区政策限制，生成内容需遵守使用条款
密钥管理：虽从环境变量读取，但仍需避免误提交到代码仓库

image-generation gemini imagen google-ai cli-tool python batch-processing api-based

Gemini Image Gen 内容

scripts文件夹

手动下载zip · 5.9 kB

gen.pytext/plain

请选择文件