核心用法
Nano Banana Pro 是一款基于 Gemini Image API 的图像生成与编辑命令行工具,通过 Python 脚本封装实现。主要功能包括:
- 文生图:通过
--prompt描述生成图像,支持1K/2K/4K三种分辨率 - 图生图编辑:传入单张图片配合编辑指令进行局部或风格修改
- 多图合成:最多支持 14 张图片作为输入,实现场景融合或拼贴创作
典型工作流:编写自然语言提示词 → 指定输出文件名(建议带时间戳格式 yyyy-mm-dd-hh-mm-ss-name.png)→ 脚本自动调用 API 并保存结果。成功执行后会输出 MEDIA: 标记行,便于 OpenClaw 等客户端自动识别并附加媒体文件。
API 密钥配置灵活,支持环境变量 GEMINI_API_KEY 或 OpenClaw 配置文件中的 skills."nanobanana-pro-fallback".apiKey 字段。
显著优点
1. 模型自动降级:默认优先尝试 gemini-2.5-flash-image,失败自动回退至 gemini-2.0-flash-exp-image-generation,可通过 NANOBANANA_FALLBACK_MODELS 自定义降级链路
2. 多分辨率输出:从 1K 到 4K 可选,适配不同场景对画质与速度的需求
3. 批量多图输入:相比同类工具通常仅支持单图参考,14 张上限为多元素复杂构图提供便利
4. 零依赖部署:通过 uv 运行时即时获取依赖,无需预装复杂 Python 环境
潜在缺点与局限性
- 外部 API 依赖:完全依托 Google Gemini 服务,网络稳定性、区域可用性及 API 配额直接影响使用体验
- 密钥管理风险:需用户自行保管
GEMINI_API_KEY,误配置或泄露可能导致配额滥用 - 输出可控性有限:提示词遵循与图像质量受 Gemini 模型版本迭代影响,不同模型间风格可能存在漂移
- 无本地预览:脚本执行后仅返回保存路径,不自动读取图像内容供确认,需手动打开查看
适合人群
- 已拥有 Gemini API 访问权限的开发者与创作者
- 需要在 CLI/自动化工作流中集成图像生成的效率用户
- 对多图参考、高分辨率输出有明确需求的设计师
常规风险
- 配额与计费:Gemini 图像生成 API 可能按调用量计费,高频或高分辨率请求需关注成本控制
- 内容安全合规:生成内容受 Google 使用政策约束,存在被拦截或账号限制的可能性
- 模型可用性:实验性模型(如
gemini-2.0-flash-exp-image-generation)可能随时调整或下线 - 路径与权限:多图合成时输入路径需确保可读,输出目录需写入权限