核心用法
browser skill 通过 browse CLI 提供自然语言驱动的浏览器自动化能力,支持两类运行模式:
本地模式(默认):直接调用本地 Chrome,零配置即可使用,适合开发调试、访问无防护的简单站点(文档、维基、公开API等)。
Browserbase远程模式:配置 BROWSERBASE_API_KEY 与 BROWSERBASE_PROJECT_ID 后激活,提供企业级反爬虫能力:
- 隐身模式(自定义 Chromium 指纹、反 bot 检测)
- 自动 CAPTCHA 破解(reCAPTCHA、hCaptcha、Turnstile)
- 201国住宅代理,支持地理定位
- 会话持久化(cookie/登录态跨会话保留)
典型工作流:browse open URL → browse snapshot 获取可访问性树与元素引用 → 使用 @0-5 等引用执行 click/fill/type 交互 → 循环验证直至完成 → browse stop 清理会话。
显著优点
1. 双模式灵活切换:同一命令集适配开发与生产场景,本地失败一键切远程
2. 结构化快照优先:snapshot 返回可访问性树(比截图快、省 vision token),元素引用 @x-y 精准可靠
3. 生产级反爬能力:Browserbase 模式自动处理 Cloudflare、IP 封禁、设备指纹检测
4. 会话管理完整:多标签页、前进/后退、表单状态、环境切换均支持
5. MIT 开源协议:CLI 本身开源,Browserbase 服务按需付费
潜在局限
- 本地模式无防护:易被目标站识别为 bot,返回 403/空页面/检测页
- 远程模式依赖第三方:需 Browserbase 账号与有效 API 额度,网络延迟略高于本地
- 元素引用非持久:
@x-y随页面重载变化,需每次重新 snapshot - 复杂交互需组合命令:拖拽、滚动、多步表单填写需多命令串联
- 无内置数据解析:提取的 HTML/text 需额外处理(jq/regex 等)
适合人群
- 数据工程师/爬虫开发者:需绕过反爬机制采集公开数据
- QA/自动化测试人员:快速验证 Web 流程、截图比对
- AI Agent 构建者:为 LLM 提供"能动手操作浏览器"的工具能力
- 市场调研/竞品分析:需登录后抓取 dashboard、价格信息
常规风险
| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 账号封禁 | 高频访问可能导致目标站账号/IP被封 | 启用 residential proxy、控制请求频率、使用 session 持久化减少登录次数 |
| 服务依赖 | Browserbase 服务中断或额度耗尽影响生产 | 本地模式作为 fallback,监控 API 额度 |
| 数据隐私 | 远程模式流量经 Browserbase 基础设施 | 敏感内部系统优先使用本地模式 |
| 僵尸进程 | daemon 异常退出可能导致 Chrome 残留 | 定期 `browse status` 检查,`pkill` 清理 |
| 法律合规 | 自动化访问受 ToS 限制的网站可能违规 | 遵守 robots.txt 与网站服务条款,仅采集公开数据 |
总体评估:技能设计成熟,文档完备,双模式架构兼顾灵活与鲁棒,是 LLM 时代浏览器自动化的务实选择。