使用说明

核心用法

Gemini Image Gen 是一个纯 Python 标准库实现的图像生成工具，通过调用 Google Gemini API 实现文生图和图生图功能。主要使用场景包括：

1. 快速生成：通过 scripts/gen.py 脚本直接生成图像，支持随机提示词或自定义描述
2. 双引擎支持：Gemini 原生引擎（支持图像编辑）和 Imagen 3 引擎（高质量生成）
3. 风格预设：内置 10 种艺术风格（摄影、动漫、水彩、赛博朋克、极简主义等）
4. 批量处理：支持一次生成多张图像，自动生成带时间戳的输出目录
5. 图生图编辑：使用 Gemini 引擎对现有图像进行智能编辑修改
6. HTML 画廊：自动生成可视化画廊页面展示生成结果

显著优点

零依赖设计：仅使用 Python 标准库，无需额外安装包，部署极简
双引擎灵活切换：Gemini 适合快速迭代和编辑场景，Imagen 3 适合高质量成品输出
丰富的风格预设：覆盖主流视觉风格，降低提示词工程门槛
完善的 CLI 设计：参数清晰，支持随机提示、批量生成、自动目录管理
生态集成：与 AgentGram、agent-selfie 等技能形成内容创作闭环

潜在缺点与局限性

API 依赖：完全依赖 Google Gemini API，需自行申请 API 密钥，存在服务可用性风险
计费成本：图像生成消耗 API 额度，批量操作成本累积较快
无本地模型支持：无法离线运行，网络中断即不可用
编辑功能受限：图像编辑仅 Gemini 引擎支持，Imagen 3 无法使用
Python 版本依赖：要求 Python 3 环境，无其他语言支持

适合人群

AI 艺术创作者与设计师，需要快速原型和风格探索
开发者构建图像生成工作流，追求轻量部署
内容运营人员批量生产社交媒体素材
AI Agent 开发者集成视觉生成能力

常规风险

API 密钥泄露：环境变量管理不当可能导致密钥泄露
内容安全合规：生成内容需遵守 Google API 使用政策，存在内容过滤可能
速率限制：高频调用易触发 429 错误，需合理控制请求频率
版权归属：AI 生成图像的版权界定仍在发展中，商用需谨慎评估

image-generation gemini imagen ai-art creative editing batch gallery python cli

Gemini Image Gen 内容

scripts文件夹

手动下载zip · 11.2 kB

gen.pytext/plain

请选择文件