使用说明

核心用法

Gemini Image Gen 是一个纯 Python 标准库实现的图像生成工具，通过命令行调用 Google Gemini API 完成文生图与图生图任务。基础用法为设置 GEMINI_API_KEY 后执行 python3 scripts/gen.py，默认生成 4 张随机提示词的图像。支持 --prompt 指定自定义描述、--engine 切换 Gemini 原生或 Imagen 3 引擎、--edit 对现有图像进行编辑修改、--style 调用 10 种预设风格（如 photo/anime/cyberpunk/watercolor 等），以及 --count 批量生成与自动 HTML 画廊输出。

显著优点

1. 零依赖部署：仅依赖 Python 3 标准库，无需安装额外包，部署成本极低
2. 双引擎支持：Gemini 原生（支持图像编辑）与 Imagen 3（高质量生成）灵活切换
3. 风格预设丰富：内置 10 种专业风格标签，降低提示词工程门槛
4. 批量工作流：单命令生成多图并输出可视化 HTML 画廊，适合内容创作流水线
5. 编辑能力：Gemini 引擎支持对现有图像进行语义级修改

潜在缺点与局限性

功能边界：纯命令行工具，无 GUI 或 API 服务模式，集成到复杂系统需自行封装
模型锁死：依赖 Google 独家模型，无本地或第三方模型备选方案
编辑限制：图像编辑功能仅限 Gemini 引擎，Imagen 3 不支持
成本不可控：Gemini/Imagen 3 均按调用计费，批量生成 --count 较大时费用累积快
无内置重试/退避：遇到 429 限流需手动处理，生产环境需外部包装

适合人群

快速原型设计师、内容创作者、独立开发者
需要轻量、可脚本化图像生成管道的技术团队
已持有 Google AI Studio/GCP 配额、熟悉命令行工作流的用户

常规风险

API 密钥泄露：GEMINI_API_KEY 为唯一凭证，硬编码或日志泄露将导致配额盗刷
内容合规：Google 生成模型内置安全过滤，特定提示词可能触发拒绝或空返回
输出质量波动：同一提示词多次生成结果一致性不及 Midjourney 等封闭产品
服务依赖：Google API 策略、定价、模型版本变更可能中断工作流

安全解读

核心功能

gemini-image-gen 是一个纯Python标准库实现的AI图像生成工具，通过Google Gemini API提供完整的图像生成与编辑能力。核心特性包括：

双引擎支持：Gemini原生生成（支持图像编辑）与Imagen 3专业生成
10种风格预设：photo、anime、watercolor、cyberpunk、minimalist、oil-painting、pixel-art、sketch、3d-render、pop-art
批量生成：支持单次生成多张图像，自动生成带时间戳的HTML画廊
零依赖设计：378行纯Python代码，仅使用标准库urllib.request

显著优点

1. 极致轻量：无需pip安装任何依赖，单文件可执行，部署成本极低
2. 功能完整：覆盖提示生成、风格预设、批量处理、图像编辑、画廊输出全流程
3. 代码透明：MIT许可证开源，行为可审计，无黑盒操作
4. 网络安全：仅访问Google官方API（generativelanguage.googleapis.com），TLS 1.2+加密

局限性与注意事项

API成本：依赖Google Gemini/Imagen 3 API，需自备GEMINI_API_KEY，产生实际调用费用
速率限制：受Google API配额限制，高频批量生成可能触发429错误
无本地模型：必须联网使用，无法离线运行
功能边界：图像编辑仅Gemini引擎支持，Imagen 3不支持编辑功能

适合人群

需要快速原型AI图像的开发者与设计师
追求零依赖、可审计代码的安全敏感环境
希望批量生成+自动归档画廊内容的生产工作流
学习Google Gemini API集成的Python开发者

常规风险

API密钥泄露：GEMINI_API_KEY需安全存储，避免写入配置文件或提交版本控制
输出目录权限：默认在用户目录创建时间戳文件夹，需确认写入位置安全
内容合规：AI生成图像需遵守Google使用政策及当地法律法规

image-generation gemini imagen ai-art creative editing batch-processing zero-dependency cli-tool

Gemini Image Gen 内容

scripts文件夹

手动下载zip · 9.7 kB

gen.pytext/plain

请选择文件