Browser Automation CLI

✨ 自然语言操控浏览器·AI自动解析网页

AI驱动的浏览器自动化工具,支持自然语言指令操控网页、数据采集与截图,本地/云端双模式运行。

收藏
8.4k
安装
3.1k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

browser Skill 是一款基于 Stagehand 框架的浏览器自动化工具,通过自然语言指令实现网页浏览、交互和数据提取。用户通过 Bash 工具调用 browser CLI 命令完成操作:

  • browser navigate <url> — 导航到指定网址
  • browser act "<action>" — 用自然语言描述执行点击、填写等操作
  • browser extract "<instruction>" — 按指令提取页面数据(支持 JSON Schema 约束)
  • browser observe "<query>" — 发现页面可用元素
  • browser screenshot — 截图保存
  • browser close — 关闭浏览器会话

运行模式自动切换:检测到 BROWSERBASE_API_KEYBROWSERBASE_PROJECT_ID 环境变量时使用远程 Browserbase 云服务;否则回退到本地 Chrome 浏览器。

显著优点

1. 自然语言交互:无需学习复杂选择器语法,用日常语言描述操作(如"点击登录按钮")
2. AI 智能解析:底层集成 Claude 等大模型理解页面结构,适应动态网页变化

3. 双模式灵活:本地模式响应快、适合开发调试;云端模式支持代理、反检测、CAPTCHA 处理,适合生产级爬取

4. 数据提取结构化:支持通过 JSON Schema 约束输出格式,便于后续数据处理

5. 无代码入侵:纯文档型 Skill,实际功能由用户自主安装的 CLI 工具承载

潜在缺点与局限性

  • 外部依赖重:必须预先安装 Node.js 环境并通过 npm 安装 @browserbasehq/stagehand 包,首次配置有门槛
  • 网络访问不可控:Skill 本身不限制目标 URL,可能访问恶意或钓鱼网站(依赖用户指令)
  • 敏感操作风险:具备自动填写表单、密码字段的能力,存在凭证泄露隐患
  • 云端模式数据出境:Browserbase 模式下页面内容传输至第三方云服务,涉及隐私合规考量
  • 无内置访问控制:缺乏站点白名单/黑名单机制,对高敏感场景(银行、政务)保护不足

适合人群

  • 数据分析师、研究员:需要批量采集公开网页信息
  • 自动化测试工程师:构建端到端 UI 测试流程
  • 开发者:快速验证网页功能、调试前端交互
  • 普通用户:简化重复性网页操作(如定时查询、表单提交)

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 钓鱼网站访问 | 用户指令可能导向恶意站点 | 人工审核目标 URL,避免自动跟随不可信链接 |
| 凭证泄露 | 自动化填写密码字段存在截屏/日志留存风险 | 使用专用浏览器配置文件,禁用截图功能处理敏感页 |
| 第三方数据暴露 | Browserbase 模式数据流经外部服务 | 敏感场景强制使用本地 Chrome 模式 |
| CLI 工具供应链 | 依赖 npm 安装的 browser 包可能被篡改 | 锁定版本号,验证包签名,仅从官方源安装 |
| 会话持久化 | 本地模式下 cookies、缓存累积 | 定期清理 `.chrome-profile/` 目录 |

安全认证评级 S 级(85分),来源可信度 T2(可信个人开发者),核心风险可控,适合有基本安全意识的用户使用。

Browser Automation CLI 内容

手动下载zip · 9.2 kB
EXAMPLES.mdtext/markdown
请选择文件