使用说明

核心用法

Vision Sandbox 是一款利用 Gemini 原生代码执行能力进行图像分析的工具。其核心机制是：模型接收图像后，自动生成并运行 Python 代码在 Google 托管的沙盒环境中对视觉数据进行验证，而非仅依赖视觉模型的直接推断。用户通过 CLI 传入图像路径和自然语言提示，模型会编写代码执行诸如坐标计算、边界框检测、数值统计等操作。

典型工作流：

空间定位：识别 UI 元素并返回归一化坐标
视觉数学：统计图像中的对象数量、计算可见数值
UI 审计：检测布局重叠、可读性问题
计数与逻辑：通过代码验证边界框实现精确计数

该工具特别设计为与 OpenCode 等自动化编码 Agent 集成，提供结构化的 UI 元数据（坐标、尺寸、颜色）以生成或修复 CSS/HTML。

显著优点

1. 代码验证机制：相比纯视觉推理，通过实际执行 Python 代码验证结果，显著降低幻觉风险
2. 结构化输出：原生支持 JSON 格式，便于下游自动化工具消费
3. 空间精度：明确返回归一化坐标，适合自动化 UI 操作
4. 多场景覆盖：单一工具覆盖审计、计数、定位、计算等多种视觉任务
5. Agent 原生设计：与 OpenCode 的集成示例展示了明确的自动化工作流意图

潜在缺点与局限性

供应商锁定：完全依赖 Google Gemini 的代码执行沙盒，无法迁移至其他模型提供商
环境依赖：需要 uv 包管理器和有效的 GEMINI_API_KEY
沙盒限制：未披露代码执行的完整限制（超时、内存、网络访问等），可能影响复杂分析
预览模型风险：默认使用 gemini-3-flash-preview，预览版 API 可能存在稳定性或兼容性变动
无本地执行选项：所有代码执行发生在云端沙盒，无法离线使用或审计执行环境

适合人群

自动化 UI 测试工程师
构建视觉 Agent 的开发者（尤其使用 OpenCode 生态）
需要结构化视觉元数据的前端自动化工作流
对视觉推理结果有代码级验证需求的场景

常规风险

API 密钥泄露风险：GEMINI_API_KEY 需妥善管理，避免硬编码
数据隐私：图像上传至 Google 云端处理，敏感 UI 截图存在合规风险
沙盒逃逸顾虑：虽为 Google 托管环境，但执行 AI 生成的代码始终存在不可完全预测的行为
模型更新冲击：预览模型版本迭代可能导致输出格式变化，破坏下游自动化

computer-vision ui-automation gemini code-execution agentic spatial-grounding visual-reasoning

Vision Sandbox 内容

scripts文件夹

手动下载zip · 7.1 kB

__init__.pytext/plain

请选择文件