Vision Sandbox

🔭 Gemini 沙箱驱动的精准视觉分析

基于 Gemini 原生代码执行沙箱的智能视觉分析工具,通过 Python 代码验证实现高精度空间定位、视觉数学计算与 UI 审核。

收藏
15.7k
安装
5.9k
版本
1.1.0
CLS 安全性认证2026-05-17
点击查看完整报告 >

使用说明

核心用法

Vision Sandbox 是一款调用 Google Gemini 原生代码执行能力的视觉分析技能。其核心机制是让模型针对输入图像自主编写 Python 代码,并在 Google 托管的沙箱环境中运行,以验证视觉推理结果。用户通过 CLI 传入图片路径和自然语言指令,模型将生成代码执行坐标计算、边界框检测、数值统计等任务,最终返回结构化数据。

典型工作流包括:1) 空间定位——识别 UI 元素并返回归一化坐标;2) 视觉数学——基于图像内容进行计数、求和等计算;3) UI 审核——检测元素重叠、对齐问题;4) 复杂计数——通过边界框分析验证手指、物体数量。

显著优点

  • 可验证的准确性:代码执行机制将视觉推理从"猜测"转为"计算",大幅降低幻觉风险,特别适合坐标、尺寸等需要精确数值的场景。
  • Agent 原生设计:输出 JSON 化坐标数据可直接喂给 OpenCode 等编程 Agent,实现"视觉感知→代码生成"的自动化闭环。
  • 零依赖部署:依托 Gemini 云端沙箱,本地无需配置 OpenCV、Pillow 等视觉库,仅需 uv 和 API Key。

潜在局限

  • 供应商锁定:深度依赖 Google Gemini 的代码执行功能,若 API 调整或定价变化会直接影响可用性。
  • 网络延迟:每张图片需上传至 Google 沙箱执行代码,实时性不如本地视觉模型。
  • 沙箱黑盒:Python 执行环境细节不透明,复杂图像处理可能受限于沙箱资源或库支持范围。
  • 坐标标准化:返回的 [0, 1000] 归一化坐标需二次转换才能适配实际屏幕分辨率。

适合人群

  • 自动化测试工程师:需要批量验证 UI 布局合规性
  • AI Agent 开发者:为编程 Agent 构建视觉感知层
  • 产品设计师:快速审核设计稿中的对齐、重叠问题
  • 教育/研究者:探索视觉推理与代码执行结合的新范式

常规风险

  • API 密钥泄露GEMINI_API_KEY 需妥善保管,避免提交至版本控制
  • 隐私合规:图像上传至 Google 云端处理,敏感截图需谨慎使用
  • 成本累积:代码执行调用按 token + 执行时间计费,批量处理需监控用量
  • 沙箱逃逸:虽概率极低,但执行 AI 生成的代码存在理论安全风险

安全解读

核心用法

Vision Sandbox 通过调用 Google Gemini API 的原生代码执行能力,让模型在 Google 托管的沙盒中编写并运行 Python 代码,以此验证视觉数据。用户只需提供图像路径和自然语言指令,即可获得精确的坐标定位、数量统计或布局分析结果。

典型使用场景包括:

  • 空间定位:识别 UI 元素并返回 [x, y] 标准化坐标
  • 视觉数学:计数图像中的对象并进行数值计算
  • UI 审计:检测元素重叠、计算边界框交集等布局问题
  • 逻辑验证:通过代码执行交叉验证视觉推理结果

显著优点

1. Agentic 能力:将视觉理解转化为可操作的代码执行,减少幻觉误差
2. 精确输出:返回结构化数据(JSON 坐标、数值结果),便于下游自动化工具(如 OpenCode)消费

3. 轻量集成:仅需环境变量配置,命令行即可运行

4. 多场景覆盖:从按钮定位到手指计数,覆盖交互设计、测试自动化、计算机视觉原型等多种需求

潜在缺点与局限性

  • 外部依赖:必须联网调用 Google API,无法离线运行
  • 数据出境:图像数据上传至 Google 服务器,不适合处理敏感或机密图像
  • 模型限制:依赖 Gemini 的视觉理解能力,对极端模糊或复杂场景可能失效
  • 成本考量:高频调用将产生 API 费用

适合人群

  • 前端开发者与 UI/UX 设计师(自动化布局检查)
  • QA 工程师(视觉回归测试)
  • AI Agent 开发者(为编程代理提供视觉 grounding 能力)
  • 研究人员(快速验证视觉推理假设)

常规风险

  • 隐私泄露:图像和提示词传输至第三方云服务
  • 来源可信度:维护者为个人开发者(T3),需关注仓库更新与代码审查
  • API 密钥管理:需妥善保管 GEMINI_API_KEY,避免泄露

安全认证亮点

经 CLS-Certify 扫描,代码无危险函数调用、无敏感信息硬编码、依赖无已知 CVE,静态与动态分析均通过,综合评分 78 分,安全等级 A

Vision Sandbox 内容

scripts文件夹
手动下载zip · 7.2 kB
__init__.pytext/plain
请选择文件