使用说明

核心功能

gemini-image-gen 是一款轻量级 AI 图像生成工具，通过纯 Python 标准库实现，无需额外依赖。支持双引擎架构：Gemini 原生模型（支持图像编辑）与 Google Imagen 3 专用生成引擎，满足从创意探索到专业产出的不同需求。

显著优点

零依赖设计：仅依赖 Python3 标准库，部署极简，兼容性强
双引擎支持：Gemini 引擎支持文生图与图生图编辑；Imagen 3 引擎提供高质量专业生成，支持多比例输出（1:1、16:9、9:16、4:3、3:4）
丰富的风格预设：内置 10 种艺术风格（照片、动漫、水彩、赛博朋克、极简主义、油画、像素风、素描、3D 渲染、波普艺术），一键切换视觉风格
批量生成与可视化：支持批量生成并自动输出 HTML 画廊，便于浏览与分享
完善的生态集成：与 AgentGram、agent-selfie、opencode-omo 等技能形成创作-分享-工作流闭环

潜在局限

API 依赖：完全依赖 Google Gemini API，需自备有效 API Key，存在网络延迟与服务商可用性风险
速率限制：免费/低成本套餐易触发 429 限流，批量生成时需注意频率控制
编辑功能受限：图像编辑仅 Gemini 引擎支持，Imagen 3 暂不支持
无本地模型：不支持本地部署或离线使用，数据需上传至 Google 服务器处理

适合人群

AI 艺术创作者、内容运营人员、独立开发者、需要快速批量生成视觉素材的创意工作者，以及希望将图像生成整合进自动化工作流的技术用户。

常规风险提示

需妥善保管 GEMINI_API_KEY，避免硬编码提交至版本控制
生成内容需遵守 Google AI 使用政策，注意版权与合规风险
建议对敏感提示词内容进行本地审查，避免生成违规图像

安全解读

核心用法

Gemini Image Gen 是一款基于 Google Gemini API 的图像生成与编辑工具，采用纯 Python 标准库实现，无需任何外部依赖。支持两种生成引擎：Gemini 原生（支持图像编辑、多轮对话）和 Imagen 3（高质量生成、多比例输出）。提供 10 种风格预设（从水彩、赛博朋克到像素艺术），支持批量生成与自动 HTML 画廊输出。

显著优点

零依赖安全架构：完全基于 Python 标准库，彻底消除供应链攻击风险，代码仅 378 行，轻量透明
双引擎灵活切换：Gemini 引擎支持图像编辑功能，Imagen 3 引擎支持 1:1、16:9、9:16 等多种专业比例
开发者友好：CLI 设计直观，支持随机创意提示、风格预设快速调用，输出目录自动时间戳管理
生态集成：已与 AgentGram、agent-selfie、opencode-omo 等技能形成联动，支持社交分享与工作流编排

潜在局限

功能边界：图像编辑仅限 Gemini 引擎，Imagen 3 暂不支持编辑功能；风格预设为提示词前缀封装，非模型级微调
成本与速率：依赖 Google API 计费，批量生成时需自行控制并发，可能触发速率限制（429 错误）
平台绑定：当前仅支持 Google 生态，未集成 Midjourney、DALL-E 等其他图像生成服务

适合人群

注重供应链安全的技术团队与个人开发者
需要快速原型视觉内容的 AI 应用构建者
已在使用 Gemini API、希望统一技术栈的用户
对图像生成有批量化、自动化需求的运营与设计团队

常规风险

API 密钥管理：需妥善保管 GEMINI_API_KEY，避免泄露至版本控制或日志系统
内容合规：生成内容受 Google API 使用政策约束，需遵守生成式 AI 内容规范
个人维护项目：当前为 T3 级别个人开发者维护，长期更新承诺与社区支持弱于企业级项目，建议用户自行审计代码或关注仓库活跃度

image-generation gemini imagen ai-art creative editing batch gallery cli-tool python

Gemini Image Gen 内容

scripts文件夹

手动下载zip · 11.5 kB

gen.pytext/plain

请选择文件