使用说明

核心用法

gemini-image-gen 是一款纯 Python 标准库实现的图像生成技能，通过调用 Google Gemini API 实现文生图与图生图功能。用户通过命令行界面操作，支持两种核心引擎：Gemini 原生模型（支持图像编辑）和 Imagen 3（专注高质量生成）。基础用法极为简洁，仅需设置 GEMINI_API_KEY 环境变量即可执行默认生成任务。进阶功能包括自定义提示词、批量生成（--count）、风格预设（--style）、图像编辑（--edit）以及 HTML 画廊输出。

该技能提供 10 种精心设计的风格预设，涵盖摄影、动漫、水彩、赛博朋克、极简主义、油画、像素艺术、素描、3D 渲染和波普艺术等视觉风格，大幅降低提示词工程门槛。输出采用自动时间戳目录管理，同时生成独立 PNG 文件与聚合式 HTML 画廊页面，便于浏览与分享。

显著优点

零依赖架构是该技能最突出的技术特性。完全基于 Python 标准库实现，彻底规避了供应链攻击风险，无需处理复杂的依赖版本冲突，部署成本极低。代码开源透明，GitHub 仓库可完整审计，符合安全敏感场景的要求。

双引擎策略兼顾灵活性与专业性。Gemini 原生引擎支持独特的图像编辑能力，可对现有图片进行局部修改或风格迁移；Imagen 3 引擎则在特定视觉任务上提供更优的生成质量。用户可根据场景自由切换。

开发者体验设计体现在细节层面：智能的默认行为（随机创意提示词）、直观的风格预设系统、合理的超时保护（120 秒）、清晰的错误提示，以及与 AgentGram、agent-selfie 等技能的生态联动能力。

潜在缺点与局限性

功能边界受限于 API 能力。图像编辑功能仅 Gemini 引擎支持，Imagen 3 无法使用； aspect 比例控制也仅限 Imagen 引擎。这种引擎能力的不对称性可能导致用户困惑。

无内置的 API 密钥管理。虽然通过环境变量读取避免了硬编码风险，但缺乏密钥有效性预检、余额查询或用量统计功能，用户需自行监控 Google Cloud 控制台。

网络依赖单一。所有功能强依赖 Google 官方 API 的可用性与响应速度，无离线降级方案。在 API 限流（429 错误）或区域网络受限场景下体验会显著下降。

高级功能缺失。相比专业图像生成工具，缺少 ControlNet 式精确控制、LoRA 模型加载、局部重绘蒙版、生成种子固定等进阶能力，更适合快速原型而非精细创作。

适合的目标群体

AI 应用开发者：需要快速集成图像生成能力，重视依赖简洁性与代码可审计性
内容运营人员：批量生成社交媒体配图、博客插图，利用风格预设保持视觉一致性
技术型设计师：熟悉命令行工作流，需要自动化图像生产管线
AI Agent 构建者：作为视觉能力模块嵌入多 Agent 系统，与 AgentGram 等技能协同
教育与研究者：零依赖特性便于教学演示，开源代码适合作为 API 集成学习案例

使用风险

API 成本风险：Google Gemini API 按调用量计费，批量生成（--count 参数）可能快速消耗额度，建议配合预算告警使用。

内容合规风险：生成内容受 Google API 使用政策约束，特定提示词可能触发安全过滤导致生成失败，无本地绕过机制。

数据隐私考量：所有提示词与上传的编辑图像均传输至 Google 服务器处理，敏感场景需评估云端处理的可接受性。

输出存储管理：默认输出到临时目录，长期项目需显式指定 --out-dir 避免文件散落或误清理。

安全解读

核心功能与用法

Gemini Image Gen 是一款轻量级图像生成 CLI 工具，基于纯 Python 标准库实现，无需任何外部依赖。它直接调用 Google Gemini API，支持两大核心引擎：

Gemini Native：原生图像生成与编辑能力，支持上传现有图片进行修改（--edit 模式）
Imagen 3：Google 最新的专业级图像生成模型，支持多种宽高比（1:1, 16:9, 9:16, 4:3, 3:4）

典型工作流程：

# 快速生成 4 张随机创意图
python3 scripts/gen.py

# 指定提示词与风格
python3 scripts/gen.py --prompt "赛博朋克猫咪骑霓虹摩托" --style cyberpunk

# Imagen 3 生成宽屏壁纸
python3 scripts/gen.py --engine imagen --aspect 16:9 --count 2

# 编辑现有图像
python3 scripts/gen.py --edit photo.png --prompt "将背景改为日落海滩"

工具内置 10 种风格预设（photo/anime/watercolor/cyberpunk/minimalist/oil-painting/pixel-art/sketch/3d-render/pop-art），自动将风格描述注入提示词，降低 prompt 工程门槛。批量生成时自动创建带时间戳的输出目录与 HTML 画廊，便于浏览与分享。

显著优点

1. 零依赖安全架构：纯 Python stdlib 实现，无 pip 依赖，彻底规避供应链攻击风险，代码 378 行完全可审计
2. 双引擎灵活切换：Gemini 适合快速迭代与编辑场景，Imagen 3 适合高质量商业输出
3. 开发者体验友好：风格预设系统、随机提示词生成、自动 HTML 画廊，降低创作摩擦
4. 隐私合规：仅读取 GEMINI_API_KEY 环境变量，无数据上报或遥测
5. 集成生态：与 AgentGram、agent-selfie 等技能形成 AI 视觉内容工作流

局限性与风险

| 维度 | 说明 |

|------|------|

| **来源可信度** | 个人开发者（IISweetHeartII/T3）维护，虽代码透明但建议生产环境前人工审计 |

| **功能边界** | 编辑功能仅限 Gemini 引擎；Imagen 不支持图像修改 |

| **API 成本** | 依赖 Google AI Studio API 配额，高频使用需注意计费 |

| **网络依赖** | 必须连接 Google 云服务，无法离线运行 |

| **模型迭代** | Gemini 2.5 Flash/Imagen 3 为 beta 服务，API 行为可能随官方更新变化 |

适用人群

AI 艺术创作者：快速原型、风格探索、批量生成素材
开发者/自动化工作流：通过 subprocess 调用集成到更大系统
ClawHub/AgentGram 用户：与社交分享、头像生成技能联动
安全敏感场景：对供应链安全有严格要求的企业（零依赖特性）

常规风险提示

API 密钥管理：确保 GEMINI_API_KEY 通过环境变量安全注入，避免硬编码或 shell 历史泄露
内容合规：Google API 内置安全过滤，可能拒绝特定主题请求
输出目录权限：生成文件默认保存至用户目录，建议检查文件权限防止未授权访问

image-gen content-media api automation creative productivity

gemini-image-gen 内容

scripts文件夹

手动下载zip · 11.2 kB

gen.pytext/plain

请选择文件