使用说明

核心用法

browser Skill 是一款基于 Stagehand 框架的浏览器自动化工具，通过自然语言指令实现网页浏览、交互和数据提取。用户通过 Bash 工具调用 browser CLI 命令完成操作：

browser navigate <url> — 导航到指定网址
browser act "<action>" — 用自然语言描述执行点击、填写等操作
browser extract "<instruction>" — 按指令提取页面数据（支持 JSON Schema 约束）
browser observe "<query>" — 发现页面可用元素
browser screenshot — 截图保存
browser close — 关闭浏览器会话

运行模式自动切换：检测到 BROWSERBASE_API_KEY 和 BROWSERBASE_PROJECT_ID 环境变量时使用远程 Browserbase 云服务；否则回退到本地 Chrome 浏览器。

显著优点

1. 自然语言交互：无需学习复杂选择器语法，用日常语言描述操作（如"点击登录按钮"）
2. AI 智能解析：底层集成 Claude 等大模型理解页面结构，适应动态网页变化
3. 双模式灵活：本地模式响应快、适合开发调试；云端模式支持代理、反检测、CAPTCHA 处理，适合生产级爬取
4. 数据提取结构化：支持通过 JSON Schema 约束输出格式，便于后续数据处理
5. 无代码入侵：纯文档型 Skill，实际功能由用户自主安装的 CLI 工具承载

潜在缺点与局限性

外部依赖重：必须预先安装 Node.js 环境并通过 npm 安装 @browserbasehq/stagehand 包，首次配置有门槛
网络访问不可控：Skill 本身不限制目标 URL，可能访问恶意或钓鱼网站（依赖用户指令）
敏感操作风险：具备自动填写表单、密码字段的能力，存在凭证泄露隐患
云端模式数据出境：Browserbase 模式下页面内容传输至第三方云服务，涉及隐私合规考量
无内置访问控制：缺乏站点白名单/黑名单机制，对高敏感场景（银行、政务）保护不足

适合人群

数据分析师、研究员：需要批量采集公开网页信息
自动化测试工程师：构建端到端 UI 测试流程
开发者：快速验证网页功能、调试前端交互
普通用户：简化重复性网页操作（如定时查询、表单提交）

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 钓鱼网站访问 | 用户指令可能导向恶意站点 | 人工审核目标 URL，避免自动跟随不可信链接 |

| 凭证泄露 | 自动化填写密码字段存在截屏/日志留存风险 | 使用专用浏览器配置文件，禁用截图功能处理敏感页 |

| 第三方数据暴露 | Browserbase 模式数据流经外部服务 | 敏感场景强制使用本地 Chrome 模式 |

| CLI 工具供应链 | 依赖 npm 安装的 browser 包可能被篡改 | 锁定版本号，验证包签名，仅从官方源安装 |

| 会话持久化 | 本地模式下 cookies、缓存累积 | 定期清理 `.chrome-profile/` 目录 |

安全认证评级 S 级（85分），来源可信度 T2（可信个人开发者），核心风险可控，适合有基本安全意识的用户使用。

browser-automation web-scraping data-extraction stagehand playwright natural-language screenshot form-filling

Browser Automation CLI 内容

手动下载zip · 9.2 kB

EXAMPLES.mdtext/markdown

请选择文件