Gemini Computer Use

🌐 Gemini 驱动的浏览器智能体

基于 Gemini 2.5 和 Playwright 的浏览器自动化智能体,支持截图-决策-执行的闭环控制,内置安全确认机制。

收藏
18.6k
安装
3.9k
版本
1.0.0
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心用法

Gemini Computer Use 是一套基于 Google Gemini 2.5 的浏览器自动化解决方案,通过 Playwright 实现智能体控制。用户配置 API 密钥后,运行 computer_use_agent.py 脚本,提供目标网站 URL 和任务描述(如"查找最新博客标题"),系统即进入 agent loop 工作流:截取浏览器截图 → 发送给 Gemini 模型分析 → 解析模型返回的 function_call 动作 → 执行点击、输入、滚动等 Playwright 操作 → 返回执行结果截图。若模型判定操作为高风险(safety_decision: require_confirmation),则暂停并提示用户人工确认后继续。循环直至任务完成或达到设定的回合上限(--turn-limit)。

显著优点

  • 原生多模态理解:Gemini 2.5 直接解析视觉截图,无需复杂的 DOM 解析或元素定位代码,对动态渲染、SPA 单页应用友好
  • 闭环决策架构:标准的「感知-决策-执行」智能体范式,每步都有状态回传,便于调试和审计
  • 内置安全护栏:针对高风险 UI 操作(如支付确认、账户删除)提供强制性人工确认,降低误操作风险
  • 浏览器灵活适配:支持 Playwright 内置 Chromium、系统 Chrome/Edge,甚至自定义 Chromium 内核(如 Brave)
  • 沙箱友好设计:官方建议在隔离环境运行,配合 --exclude 参数可精确禁用特定危险操作类别

潜在缺点与局限性

  • API 依赖与成本:依赖 Google GenAI API,需有效付费账户,长会话多截图可能产生较高 Token 消耗
  • 回合限制约束:默认需手动设置 --turn-limit,复杂多步骤任务可能因上限截断而失败
  • 截图性能开销:每轮往返需截取、编码、上传全屏截图,延迟高于纯 DOM 操作的自动化方案
  • 视觉泛化边界:对复杂验证码、Canvas 渲染内容、非标准 UI 组件的理解可能不稳定
  • 安全确认摩擦:频繁的人工确认中断可能降低自动化效率,需权衡安全性与流畅度

适合人群

  • 需快速原型化浏览器自动化任务、不愿编写复杂选择器代码的开发者
  • 处理动态内容抓取、跨站点流程测试的 QA 工程师
  • 重视操作安全审计、需人机协同确认关键步骤的企业场景
  • 已在使用 Google Cloud/Gemini 生态、希望统一技术栈的团队

常规风险

  • 账户与费率风险:API 密钥泄露可能导致额度滥用;建议配合环境变量管理而非硬编码
  • 浏览器会话隔离:未严格配置沙箱或浏览器 Profile 隔离时,可能残留 Cookie/登录状态,造成数据交叉或隐私泄露
  • 模型幻觉操作:Gemini 可能基于截图误判元素位置或功能,建议在关键流程增加断言校验
  • 合规边界:自动化操作需遵守目标网站的 ToS,大规模抓取可能触发反爬机制或法律风险

安全解读

核心用法

Gemini Computer Use 是一个基于 Google Gemini 2.5 Computer Use 模型的浏览器自动化工具,通过 Playwright 驱动 Chromium 系浏览器完成网页操作任务。其核心工作流为「截图 → 模型决策 → 执行动作 → 反馈结果」的代理循环(agent loop),支持多轮交互直至任务完成或达到回合限制。

用户通过命令行参数指定目标 URL 与任务描述(如"查找最新博客标题"),系统会自动捕获浏览器截图并发送至 Gemini API,模型返回结构化动作指令(点击、输入、滚动等),由 Playwright 执行并反馈新状态。关键特性包括 --exclude 参数过滤高风险操作、环境变量配置多浏览器通道(Chrome/Edge/Brave 等),以及内置的 safety_decision 安全确认机制——当模型判断操作存在风险时会暂停并提示用户确认。

显著优点

  • 原生多模态能力:Gemini 2.5 直接理解截图内容,无需额外的 DOM 解析或元素定位代码,降低开发复杂度
  • 安全机制完善:内置动作白名单过滤与人工确认节点,避免模型误操作导致的风险行为自动执行
  • 浏览器生态兼容:支持 Playwright 内置 Chromium、系统 Chrome/Edge 及自定义可执行文件(如 Brave),适应不同环境需求
  • 轻量部署:仅依赖 google-genaiplaywright 两个主流库,无复杂依赖树

潜在局限

  • 来源可信度待提升:标记为 T3 社区项目,非 Google 官方或企业背书,生产环境建议人工审计关键代码路径
  • 网络依赖单一:核心功能完全依赖 Google Gemini API,存在服务可用性绑定风险
  • 无持久化能力:未内置任务状态保存/恢复机制,长流程中断后需重新开始
  • 确认机制可能中断自动化:安全确认虽降低风险,但在无人值守场景下可能阻塞流程

适合人群

  • 需要快速搭建浏览器自动化原型的开发者与研究人员
  • 已具备 Gemini API 访问权限且熟悉 Python/Playwright 的技术团队
  • 对 AI 代理安全性有基础要求、愿意配置白名单策略的场景

常规风险

  • API Key 管理:密钥通过环境变量注入,需防范 .env 文件误提交或日志泄露
  • 浏览器沙箱逃逸:Playwright 操作若配置不当(如非沙箱模式运行),存在本地系统被越权访问的理论可能
  • 提示注入攻击:恶意网页内容可能诱导模型执行非预期操作,需结合 --exclude 严格限制敏感动作(如文件下载、外部导航)
  • 截图数据隐私:页面截图包含完整视觉信息,发送至 Google API 前需评估敏感内容合规性

安全扫描显示无危险函数、无硬编码密钥、依赖可信,综合评分 90 分(A 级),属标准安全级别工具。

Gemini Computer Use 内容

references文件夹
scripts文件夹
手动下载zip · 5.3 kB
google-computer-use.mdtext/markdown
请选择文件