核心用法
Gemini Image Gen 是一个纯 Python 标准库实现的图像生成工具,通过命令行调用 Google Gemini API 完成文生图与图生图任务。基础用法为设置 GEMINI_API_KEY 后执行 python3 scripts/gen.py,默认生成 4 张随机提示词的图像。支持 --prompt 指定自定义描述、--engine 切换 Gemini 原生或 Imagen 3 引擎、--edit 对现有图像进行编辑修改、--style 调用 10 种预设风格(如 photo/anime/cyberpunk/watercolor 等),以及 --count 批量生成与自动 HTML 画廊输出。
显著优点
1. 零依赖部署:仅依赖 Python 3 标准库,无需安装额外包,部署成本极低
2. 双引擎支持:Gemini 原生(支持图像编辑)与 Imagen 3(高质量生成)灵活切换
3. 风格预设丰富:内置 10 种专业风格标签,降低提示词工程门槛
4. 批量工作流:单命令生成多图并输出可视化 HTML 画廊,适合内容创作流水线
5. 编辑能力:Gemini 引擎支持对现有图像进行语义级修改
潜在缺点与局限性
- 功能边界:纯命令行工具,无 GUI 或 API 服务模式,集成到复杂系统需自行封装
- 模型锁死:依赖 Google 独家模型,无本地或第三方模型备选方案
- 编辑限制:图像编辑功能仅限 Gemini 引擎,Imagen 3 不支持
- 成本不可控:Gemini/Imagen 3 均按调用计费,批量生成
--count较大时费用累积快 - 无内置重试/退避:遇到 429 限流需手动处理,生产环境需外部包装
适合人群
- 快速原型设计师、内容创作者、独立开发者
- 需要轻量、可脚本化图像生成管道的技术团队
- 已持有 Google AI Studio/GCP 配额、熟悉命令行工作流的用户
常规风险
- API 密钥泄露:
GEMINI_API_KEY为唯一凭证,硬编码或日志泄露将导致配额盗刷 - 内容合规:Google 生成模型内置安全过滤,特定提示词可能触发拒绝或空返回
- 输出质量波动:同一提示词多次生成结果一致性不及 Midjourney 等封闭产品
- 服务依赖:Google API 策略、定价、模型版本变更可能中断工作流