核心用法
Vision Sandbox 是一款调用 Google Gemini 原生代码执行能力的视觉分析技能。其核心机制是让模型针对输入图像自主编写 Python 代码,并在 Google 托管的沙箱环境中运行,以验证视觉推理结果。用户通过 CLI 传入图片路径和自然语言指令,模型将生成代码执行坐标计算、边界框检测、数值统计等任务,最终返回结构化数据。
典型工作流包括:1) 空间定位——识别 UI 元素并返回归一化坐标;2) 视觉数学——基于图像内容进行计数、求和等计算;3) UI 审核——检测元素重叠、对齐问题;4) 复杂计数——通过边界框分析验证手指、物体数量。
显著优点
- 可验证的准确性:代码执行机制将视觉推理从"猜测"转为"计算",大幅降低幻觉风险,特别适合坐标、尺寸等需要精确数值的场景。
- Agent 原生设计:输出 JSON 化坐标数据可直接喂给 OpenCode 等编程 Agent,实现"视觉感知→代码生成"的自动化闭环。
- 零依赖部署:依托 Gemini 云端沙箱,本地无需配置 OpenCV、Pillow 等视觉库,仅需
uv和 API Key。
潜在局限
- 供应商锁定:深度依赖 Google Gemini 的代码执行功能,若 API 调整或定价变化会直接影响可用性。
- 网络延迟:每张图片需上传至 Google 沙箱执行代码,实时性不如本地视觉模型。
- 沙箱黑盒:Python 执行环境细节不透明,复杂图像处理可能受限于沙箱资源或库支持范围。
- 坐标标准化:返回的 [0, 1000] 归一化坐标需二次转换才能适配实际屏幕分辨率。
适合人群
- 自动化测试工程师:需要批量验证 UI 布局合规性
- AI Agent 开发者:为编程 Agent 构建视觉感知层
- 产品设计师:快速审核设计稿中的对齐、重叠问题
- 教育/研究者:探索视觉推理与代码执行结合的新范式
常规风险
- API 密钥泄露:
GEMINI_API_KEY需妥善保管,避免提交至版本控制 - 隐私合规:图像上传至 Google 云端处理,敏感截图需谨慎使用
- 成本累积:代码执行调用按 token + 执行时间计费,批量处理需监控用量
- 沙箱逃逸:虽概率极低,但执行 AI 生成的代码存在理论安全风险