使用说明

核心用法

Vision Sandbox 是一款调用 Google Gemini 原生代码执行能力的视觉分析技能。其核心机制是让模型针对输入图像自主编写 Python 代码，并在 Google 托管的沙箱环境中运行，以验证视觉推理结果。用户通过 CLI 传入图片路径和自然语言指令，模型将生成代码执行坐标计算、边界框检测、数值统计等任务，最终返回结构化数据。

典型工作流包括：1) 空间定位——识别 UI 元素并返回归一化坐标；2) 视觉数学——基于图像内容进行计数、求和等计算；3) UI 审核——检测元素重叠、对齐问题；4) 复杂计数——通过边界框分析验证手指、物体数量。

显著优点

可验证的准确性：代码执行机制将视觉推理从"猜测"转为"计算"，大幅降低幻觉风险，特别适合坐标、尺寸等需要精确数值的场景。
Agent 原生设计：输出 JSON 化坐标数据可直接喂给 OpenCode 等编程 Agent，实现"视觉感知→代码生成"的自动化闭环。
零依赖部署：依托 Gemini 云端沙箱，本地无需配置 OpenCV、Pillow 等视觉库，仅需 uv 和 API Key。

潜在局限

供应商锁定：深度依赖 Google Gemini 的代码执行功能，若 API 调整或定价变化会直接影响可用性。
网络延迟：每张图片需上传至 Google 沙箱执行代码，实时性不如本地视觉模型。
沙箱黑盒：Python 执行环境细节不透明，复杂图像处理可能受限于沙箱资源或库支持范围。
坐标标准化：返回的 [0, 1000] 归一化坐标需二次转换才能适配实际屏幕分辨率。

适合人群

自动化测试工程师：需要批量验证 UI 布局合规性
AI Agent 开发者：为编程 Agent 构建视觉感知层
产品设计师：快速审核设计稿中的对齐、重叠问题
教育/研究者：探索视觉推理与代码执行结合的新范式

常规风险

API 密钥泄露：GEMINI_API_KEY 需妥善保管，避免提交至版本控制
隐私合规：图像上传至 Google 云端处理，敏感截图需谨慎使用
成本累积：代码执行调用按 token + 执行时间计费，批量处理需监控用量
沙箱逃逸：虽概率极低，但执行 AI 生成的代码存在理论安全风险

安全解读

核心用法

Vision Sandbox 通过调用 Google Gemini API 的原生代码执行能力，让模型在 Google 托管的沙盒中编写并运行 Python 代码，以此验证视觉数据。用户只需提供图像路径和自然语言指令，即可获得精确的坐标定位、数量统计或布局分析结果。

典型使用场景包括：

空间定位：识别 UI 元素并返回 [x, y] 标准化坐标
视觉数学：计数图像中的对象并进行数值计算
UI 审计：检测元素重叠、计算边界框交集等布局问题
逻辑验证：通过代码执行交叉验证视觉推理结果

显著优点

1. Agentic 能力：将视觉理解转化为可操作的代码执行，减少幻觉误差
2. 精确输出：返回结构化数据（JSON 坐标、数值结果），便于下游自动化工具（如 OpenCode）消费
3. 轻量集成：仅需环境变量配置，命令行即可运行
4. 多场景覆盖：从按钮定位到手指计数，覆盖交互设计、测试自动化、计算机视觉原型等多种需求

潜在缺点与局限性

外部依赖：必须联网调用 Google API，无法离线运行
数据出境：图像数据上传至 Google 服务器，不适合处理敏感或机密图像
模型限制：依赖 Gemini 的视觉理解能力，对极端模糊或复杂场景可能失效
成本考量：高频调用将产生 API 费用

适合人群

前端开发者与 UI/UX 设计师（自动化布局检查）
QA 工程师（视觉回归测试）
AI Agent 开发者（为编程代理提供视觉 grounding 能力）
研究人员（快速验证视觉推理假设）

常规风险

隐私泄露：图像和提示词传输至第三方云服务
来源可信度：维护者为个人开发者（T3），需关注仓库更新与代码审查
API 密钥管理：需妥善保管 GEMINI_API_KEY，避免泄露

安全认证亮点

经 CLS-Certify 扫描，代码无危险函数调用、无敏感信息硬编码、依赖无已知 CVE，静态与动态分析均通过，综合评分 78 分，安全等级 A。

computer-vision code-execution ui-testing spatial-grounding gemini agent-tool visual-reasoning sandbox

Vision Sandbox 内容

scripts文件夹

手动下载zip · 7.2 kB

__init__.pytext/plain

请选择文件