gemini-image-remix

🎨 Gemini 驱动的 AI 图像创作引擎

🥥7总安装量 2评分人数 1
100% 的用户推荐

基于 Google 官方 Gemini API 的图像生成与重混工具,支持文生图、图生图及多图合成,为创作者提供高效 AI 绘画能力。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信来源(Github / Microsoft / 官方仓库)
  • ✅ 使用 Google 官方 `google-genai` SDK,来源可信无篡改风险
  • ✅ 无系统命令执行、无动态代码执行 (eval/exec)、无敏感文件越界读取
  • ✅ 无数据外传至第三方,网络通信仅限于 Google 官方 API 端点
  • ⚠️ API 密钥可通过命令行参数传递,存在潜在的 shell 历史泄露风险,建议优先使用环境变量
  • ⚠️ 输出文件路径由用户完全控制,可能意外覆盖现有文件,需自行确认路径安全

使用说明

核心用法

Gemini Image Remix 是一款基于 Google Gemini API 的图像生成与重混工具,提供三种核心工作模式:

1. 文本生成图像:通过 --prompt 参数输入描述,调用 Gemini 2.5 Flash Image 模型快速生成高质量图像,默认输出 1K 分辨率 PNG 文件。

2. 图像重混/修改:使用 -i 参数传入参考图像,实现风格迁移、背景替换、角色修改等高级编辑功能,支持复杂的图像到图像转换。

3. 多图像合成:最多可同时处理 14 张输入图像,将不同图像中的元素智能融合为单一连贯场景,适用于创意合成与概念设计。

工具支持灵活的参数配置,包括分辨率(1K/2K/4K)、宽高比(1:1、16:9、9:16 等)以及模型切换(可升级至 Gemini 3.0 Pro/Nano Banana Pro 获取更高保真度输出)。

显著优点

  • 官方 SDK 保障:基于 Google 官方 google-genai 库,API 稳定性与兼容性有充分保障
  • 多模型支持:从快速的 Flash 模型到专业的 Pro 模型,满足不同精度与效率需求
  • 强大的多图处理能力:14 张图像的上限在同类型工具中表现突出,适合复杂合成任务
  • 灵活的输出控制:支持多种分辨率与宽高比,适配不同应用场景
  • 开源透明:完整开源代码,可审计、可定制

潜在缺点与局限性

  • 网络强依赖:必须保持与 Google Gemini API 的连通性,离线无法使用
  • API 成本:图像生成消耗 API 配额,高频使用可能产生显著费用
  • 输出可控性:AI 生成结果存在随机性,复杂提示词可能需要多次迭代
  • 输入限制:仅支持图像文件输入,不支持其他媒体格式
  • 平台绑定:深度依赖 Google 生态,模型能力与可用性受 Google 政策影响

适合的目标群体

  • 数字艺术家与设计师:需要快速原型生成、风格探索或概念可视化
  • 内容创作者:社交媒体运营、博客配图、营销素材制作
  • 游戏/影视从业者:场景概念、角色设计、氛围图快速产出
  • 开发者与产品经理:需要程序化集成图像生成能力的项目团队
  • 教育与科研人员:AI 图像生成技术教学、视觉研究实验

使用风险

  • API 密钥安全:需妥善保管 GEMINI_API_KEY,避免泄露导致配额盗用
  • 文件覆盖风险:输出路径由用户指定,可能意外覆盖现有文件
  • 依赖项维护uv 包管理器与 Python 环境的版本兼容性需持续关注
  • 服务可用性:Google API 的服务状态与地区可用性可能影响正常使用

gemini-image-remix 内容

文件夹图标scripts文件夹
手动下载zip · 3.0 kB
remix.pytext/plain
请选择文件