gemini-image-gen

🎨 零依赖的 Gemini AI 绘图引擎

基于 Google Gemini API 的零依赖图像生成工具,支持原生生成、Imagen 3 引擎与批量处理,为创作者提供高质量 AI 绘图能力。

收藏
6.8k
安装
2.2k
版本
v1.3.1
CLS 安全性认证2026-05-06
点击查看完整报告 >

使用说明

核心用法

gemini-image-gen 是一款纯 Python 标准库实现的图像生成技能,通过调用 Google Gemini API 实现文生图与图生图功能。用户通过命令行界面操作,支持两种核心引擎:Gemini 原生模型(支持图像编辑)和 Imagen 3(专注高质量生成)。基础用法极为简洁,仅需设置 GEMINI_API_KEY 环境变量即可执行默认生成任务。进阶功能包括自定义提示词、批量生成(--count)、风格预设(--style)、图像编辑(--edit)以及 HTML 画廊输出。

该技能提供 10 种精心设计的风格预设,涵盖摄影、动漫、水彩、赛博朋克、极简主义、油画、像素艺术、素描、3D 渲染和波普艺术等视觉风格,大幅降低提示词工程门槛。输出采用自动时间戳目录管理,同时生成独立 PNG 文件与聚合式 HTML 画廊页面,便于浏览与分享。

显著优点

零依赖架构是该技能最突出的技术特性。完全基于 Python 标准库实现,彻底规避了供应链攻击风险,无需处理复杂的依赖版本冲突,部署成本极低。代码开源透明,GitHub 仓库可完整审计,符合安全敏感场景的要求。

双引擎策略兼顾灵活性与专业性。Gemini 原生引擎支持独特的图像编辑能力,可对现有图片进行局部修改或风格迁移;Imagen 3 引擎则在特定视觉任务上提供更优的生成质量。用户可根据场景自由切换。

开发者体验设计体现在细节层面:智能的默认行为(随机创意提示词)、直观的风格预设系统、合理的超时保护(120 秒)、清晰的错误提示,以及与 AgentGram、agent-selfie 等技能的生态联动能力。

潜在缺点与局限性

功能边界受限于 API 能力。图像编辑功能仅 Gemini 引擎支持,Imagen 3 无法使用; aspect 比例控制也仅限 Imagen 引擎。这种引擎能力的不对称性可能导致用户困惑。

无内置的 API 密钥管理。虽然通过环境变量读取避免了硬编码风险,但缺乏密钥有效性预检、余额查询或用量统计功能,用户需自行监控 Google Cloud 控制台。

网络依赖单一。所有功能强依赖 Google 官方 API 的可用性与响应速度,无离线降级方案。在 API 限流(429 错误)或区域网络受限场景下体验会显著下降。

高级功能缺失。相比专业图像生成工具,缺少 ControlNet 式精确控制、LoRA 模型加载、局部重绘蒙版、生成种子固定等进阶能力,更适合快速原型而非精细创作。

适合的目标群体

  • AI 应用开发者:需要快速集成图像生成能力,重视依赖简洁性与代码可审计性
  • 内容运营人员:批量生成社交媒体配图、博客插图,利用风格预设保持视觉一致性
  • 技术型设计师:熟悉命令行工作流,需要自动化图像生产管线
  • AI Agent 构建者:作为视觉能力模块嵌入多 Agent 系统,与 AgentGram 等技能协同
  • 教育与研究者:零依赖特性便于教学演示,开源代码适合作为 API 集成学习案例

使用风险

API 成本风险:Google Gemini API 按调用量计费,批量生成(--count 参数)可能快速消耗额度,建议配合预算告警使用。

内容合规风险:生成内容受 Google API 使用政策约束,特定提示词可能触发安全过滤导致生成失败,无本地绕过机制。

数据隐私考量:所有提示词与上传的编辑图像均传输至 Google 服务器处理,敏感场景需评估云端处理的可接受性。

输出存储管理:默认输出到临时目录,长期项目需显式指定 --out-dir 避免文件散落或误清理。

安全解读

核心功能与用法

Gemini Image Gen 是一款轻量级图像生成 CLI 工具,基于纯 Python 标准库实现,无需任何外部依赖。它直接调用 Google Gemini API,支持两大核心引擎:

  • Gemini Native:原生图像生成与编辑能力,支持上传现有图片进行修改(--edit 模式)
  • Imagen 3:Google 最新的专业级图像生成模型,支持多种宽高比(1:1, 16:9, 9:16, 4:3, 3:4)

典型工作流程

# 快速生成 4 张随机创意图
python3 scripts/gen.py

# 指定提示词与风格
python3 scripts/gen.py --prompt "赛博朋克猫咪骑霓虹摩托" --style cyberpunk

# Imagen 3 生成宽屏壁纸
python3 scripts/gen.py --engine imagen --aspect 16:9 --count 2

# 编辑现有图像
python3 scripts/gen.py --edit photo.png --prompt "将背景改为日落海滩"

工具内置 10 种风格预设(photo/anime/watercolor/cyberpunk/minimalist/oil-painting/pixel-art/sketch/3d-render/pop-art),自动将风格描述注入提示词,降低 prompt 工程门槛。批量生成时自动创建带时间戳的输出目录与 HTML 画廊,便于浏览与分享。

显著优点

1. 零依赖安全架构:纯 Python stdlib 实现,无 pip 依赖,彻底规避供应链攻击风险,代码 378 行完全可审计
2. 双引擎灵活切换:Gemini 适合快速迭代与编辑场景,Imagen 3 适合高质量商业输出

3. 开发者体验友好:风格预设系统、随机提示词生成、自动 HTML 画廊,降低创作摩擦

4. 隐私合规:仅读取 GEMINI_API_KEY 环境变量,无数据上报或遥测

5. 集成生态:与 AgentGram、agent-selfie 等技能形成 AI 视觉内容工作流

局限性与风险

| 维度 | 说明 |
|------|------|
| **来源可信度** | 个人开发者(IISweetHeartII/T3)维护,虽代码透明但建议生产环境前人工审计 |
| **功能边界** | 编辑功能仅限 Gemini 引擎;Imagen 不支持图像修改 |
| **API 成本** | 依赖 Google AI Studio API 配额,高频使用需注意计费 |
| **网络依赖** | 必须连接 Google 云服务,无法离线运行 |
| **模型迭代** | Gemini 2.5 Flash/Imagen 3 为 beta 服务,API 行为可能随官方更新变化 |

适用人群

  • AI 艺术创作者:快速原型、风格探索、批量生成素材
  • 开发者/自动化工作流:通过 subprocess 调用集成到更大系统
  • ClawHub/AgentGram 用户:与社交分享、头像生成技能联动
  • 安全敏感场景:对供应链安全有严格要求的企业(零依赖特性)

常规风险提示

  • API 密钥管理:确保 GEMINI_API_KEY 通过环境变量安全注入,避免硬编码或 shell 历史泄露
  • 内容合规:Google API 内置安全过滤,可能拒绝特定主题请求
  • 输出目录权限:生成文件默认保存至用户目录,建议检查文件权限防止未授权访问

gemini-image-gen 内容

scripts文件夹
手动下载zip · 11.2 kB
gen.pytext/plain
请选择文件