使用说明

核心功能

Gemini Image Gen 是一款纯 Python 标准库实现的图像生成 CLI 工具，通过 Google Gemini API 提供两种生成引擎：

Gemini 原生引擎：支持文本生成图像及图像编辑（img2img），可基于现有图片进行修改
Imagen 3 引擎：Google 最新图像生成模型，支持多种宽高比（1:1、16:9、9:16、4:3、3:4）

主要特性

| 特性 | 说明 |

|------|------|

| 零依赖 | 仅使用 Python 标准库，无需额外安装包 |

| 批量生成 | 支持一次性生成多张图片（默认4张） |

| 风格预设 | 内置10种风格：photo、anime、watercolor、cyberpunk、minimalist、oil-painting、pixel-art、sketch、3d-render、pop-art |

| 智能输出 | 自动生成带时间戳的输出目录及 HTML 画廊页面 |

使用场景

适合开发者快速原型设计、内容创作者批量生成素材、设计师探索风格概念。命令行接口简洁，支持随机提示词自动生成创意灵感。

局限性与风险

技术局限：

依赖 Google API 可用性及网络连接
Imagen 3 不支持图像编辑功能
免费额度有限，高频使用需关注计费

安全风险：

API 密钥以环境变量明文存储，存在泄露风险
生成内容受 Google 安全策略约束，可能触发内容过滤
无本地模型支持，所有数据上传至云端处理

适合人群

熟悉命令行的开发者与技术用户
需要快速、批量图像生成的内容工作者
已拥有 Google AI Studio/GCP 账户的用户

常规风险提示

妥善保管 GEMINI_API_KEY，避免硬编码或日志泄露
注意 API 速率限制（429 错误），合理设置 --count
商用需确认 Google Gemini API 服务条款及授权范围

安全解读

功能概述

Gemini Image Gen 是一款轻量级图像生成工具，通过Google Gemini API实现文本到图像的转换，完全基于Python标准库开发，无需任何外部依赖。

核心用法

该工具提供命令行接口，支持两种生成引擎：

Gemini原生引擎：支持图像编辑功能，可基于现有图片进行修改
Imagen 3引擎：Google最新图像生成模型，支持多种宽高比（1:1、16:9、9:16等）

内置10种风格预设（photo、anime、watercolor、cyberpunk、oil-painting等），用户可通过--style参数快速应用。批量生成功能支持自定义数量，自动生成带时间戳的输出目录和HTML画廊页面。

显著优点

1. 零依赖架构：纯Python标准库实现（urllib、json、os等），消除供应链攻击风险，部署极其简便
2. 双引擎支持：灵活切换Gemini原生（支持编辑）与Imagen 3（高质量生成）
3. 开发者友好：清晰的CLI设计、完善的错误提示、支持子进程调用集成
4. 开源透明：MIT许可证，代码完全公开可审计

潜在局限

API依赖：必须配置有效的GEMINI_API_KEY，受Google服务可用性与速率限制影响
网络要求：所有处理均在云端完成，无法离线使用
编辑功能限制：图像编辑仅Gemini引擎支持，Imagen 3暂不可用
平台限制：目前仅支持通过Python子进程调用，无原生库封装

适合人群

需要快速批量生成概念图的独立开发者与设计师
追求极简部署、避免依赖地狱的技术团队
希望集成AI图像能力到自动化工作流的DevOps工程师
注重代码可审计性的安全敏感型用户

常规风险

| 风险类型 | 说明 | 缓释措施 |

|---------|------|---------|

| 数据出境 | 提示词与图像传输至Google美国服务器 | 避免输入敏感商业信息或个人隐私数据 |

| API密钥泄露 | 依赖环境变量配置，存在误配置风险 | 使用专用密钥、定期轮换、禁止硬编码 |

| 速率限制 | 免费/付费 tier 均有请求配额 | 合理设置`--count`、实现指数退避重试 |

| 内容合规 | 生成内容受Google AUP约束 | 遵守使用条款，避免生成违规内容 |

ai-image-generation gemini-api imagen-3 cli-tool python batch-processing image-editing zero-dependency

Gemini Image Gen 内容

scripts文件夹

手动下载zip · 8.4 kB

gen.pytext/plain

请选择文件