核心用法
Browser Use 提供基于云的 AI 驱动浏览器自动化服务。用户通过 REST API 提交纯英文任务描述,系统远程执行并返回结构化结果。核心流程:创建任务 → 轮询状态 → 获取输出。支持多步骤网页操作、表单填写、数据提取和截图记录。
API 关键端点
- POST /api/v2/tasks - 创建任务,需传入任务描述字符串
- GET /api/v2/tasks/{taskId} - 查询任务状态,返回含
status、output、steps、cost等字段 - POST /api/v2/tasks/{taskId}/stop - 终止进行中的任务
辅助工具
提供 scripts/browser-use.sh 封装脚本,支持自动轮询等待结果或仅提交不等待。
显著优点
1. 零本地依赖 - 无需安装浏览器、驱动或处理环境配置,纯云端执行
2. AI 自主决策 - 内置 LLM(默认 gemini-3-flash-preview)解析意图并动态调整操作路径
3. 反检测能力 - 云端真实浏览器环境,较本地 headless 更难被目标网站识别拦截
4. 完整审计追踪 - 返回每一步操作记录及截图,便于调试和验证
5. 弹性扩展 - 按任务付费($0.01-0.05),无基础设施维护成本
潜在缺点与局限性
1. 成本累积 - 高频场景下单价虽低但总量可观;复杂多页任务费用显著上升
2. 延迟较高 - 网络往返 + 云端启动 + AI 推理,单次任务通常需数秒至数十秒
3. 状态隔离 - 每个任务独立 session,无法维护跨任务登录态或持久化 Cookie
4. 输出不可控 - AI 理解偏差可能导致执行路径偏离预期,需人工校验结果
5. 供应商锁定 - 完全依赖第三方服务可用性与 API 稳定性
适合人群
- 无本地浏览器环境的 CLI/服务器场景
- 需要快速验证原型、不想投入基础设施的开发者
- 目标网站有较强反爬机制,本地方案失效时
- 单次/低频复杂网页工作流(如填写动态表单、多页导航采集)
常规风险
- API 密钥泄露:密钥具备消费权限,需严格管控环境变量
- 数据外泄:任务内容、目标 URL、页面数据均上传至第三方云端
- 成本失控:循环或高频调用可能导致意外账单,建议配合余额监控
- 合规隐患:自动化访问部分网站可能违反 ToS,需自行评估法律风险