使用说明

核心用法

browser 技能是一个封装了 Stagehand 框架的命令行工具，允许用户通过自然语言指令自动化浏览器操作。主要功能包括：网页导航 (navigate)、执行动作 (act)、数据提取 (extract)、元素发现 (observe)、截图 (screenshot) 和关闭浏览器 (close)。

使用流程

1. 首次配置：运行 npm install 和 npm link 创建全局命令
2. 环境选择：自动检测环境变量，优先使用 Browserbase 远程环境（需配置 API key），否则回退到本地 Chrome
3. 操作序列：必须先 navigate 到目标 URL，再执行交互指令，建议每一步后查看截图验证

显著优点

自然语言交互：无需编写复杂的选择器或脚本，用中文/英文描述即可操作页面元素
双模式灵活部署：本地模式速度快适合开发调试；Browserbase 模式支持 stealth、代理和 CAPTCHA 绕过，适合生产爬取
结构化数据提取：支持可选 JSON Schema 约束，返回格式化的提取结果
观测模式兜底：当动作失败时，可用 observe 智能发现可用元素

潜在局限

依赖外部服务：Browserbase 需付费且受 API 稳定性影响；本地模式需预装 Chrome
动作抽象成本：自然语言描述可能存在歧义，复杂交互仍需精确描述
无状态会话：每次 close 后会话清空，跨任务需重新导航
安全边界模糊：CLI 直接执行系统命令，若用户输入注入恶意指令存在风险

适合人群

数据分析师/研究人员：快速抓取网页数据无需写爬虫
QA 工程师：自动化 UI 回归测试
产品经理/运营：竞品监控、页面截图存档
开发者：快速验证网页交互原型

常规风险

凭据泄露：Browserbase API key 存储于 .env 文件，需确保文件权限和版本控制排除
恶意网站：访问不可信站点可能触发 XSS 或下载风险，Browserbase 的隔离环境可部分缓解
数据隐私：提取的网页数据可能包含 PII，需遵循目标网站 robots.txt 和隐私政策
误操作风险：act 指令如描述不清可能点击错误按钮导致非预期状态变更（如误下单、误删数据）

安全解读

核心用法

Browser Automation Skill 是 Browserbase 官方 Stagehand 项目的 CLI 使用文档，通过自然语言指令实现浏览器自动化操作。用户可通过 Bash 工具执行 browser 命令系列：

browser navigate <url>：导航至目标网页
browser act "<action>"：执行自然语言描述的操作（如"点击登录按钮"）
browser extract "<instruction>"：按指令提取结构化数据，可选 JSON Schema 约束输出格式
browser observe "<query>"：智能发现页面可用元素，辅助定位交互目标
browser screenshot：捕获当前页面截图，用于验证执行结果
browser close：关闭浏览器会话

Skill 自动检测运行环境：若配置 BROWSERBASE_API_KEY 和 BROWSERBASE_PROJECT_ID 则启用 Browserbase 云端浏览器（支持代理、隐身模式、CAPTCHA 破解）；否则回退至本地 Chrome 浏览器。

显著优点

1. 自然语言驱动：无需编写复杂选择器或脚本，用日常语言描述操作意图即可
2. 双模式灵活切换：本地模式响应更快适合开发调试，远程模式具备反检测能力适合生产爬取
3. AI 原生设计：基于 Stagehand 的 AI 驱动元素识别，自适应网页结构变化
4. 零代码安全风险：纯 Markdown 文档型 Skill，无可执行代码、无依赖、无外部 API 调用
5. T1 级可信来源：Browserbase 为 YC 孵化的浏览器自动化基础设施公司，Stagehand 开源项目 22k+ stars

潜在缺点与局限性

环境依赖重：本地模式需预装 Chrome；远程模式需配置 API 密钥
成本考量：Browserbase 云端服务按使用量计费，高频场景成本累积
自动化脆弱性：动态渲染、复杂 SPA、频繁改版网站可能导致元素识别失败
功能边界：当前版本仅封装 CLI 调用说明，实际浏览器控制由外部 Stagehand 工具完成

适合人群

数据分析师、研究员：快速抓取网页信息无需学习爬虫框架
产品经理/运营：自动化竞品监测、截图验证、表单填报
开发者：原型阶段快速验证浏览器自动化流程，再迁移至生产代码

常规风险

账户封禁风险：大规模爬取可能触发目标网站反爬机制，导致 IP/账号受限
数据合规风险：自动化抓取需遵守目标网站的 robots.txt 及服务条款
敏感信息暴露：在共享环境使用需确保 .env 中 API 密钥权限最小化
行为可预测性：云端模式虽带隐身能力，但高频规律操作仍可能被识别

browser-automation web-scraping cli-tool stagehand puppeteer playwright data-extraction screenshot

Stagehand Browser CLI 内容

手动下载zip · 9.2 kB

EXAMPLES.mdtext/markdown

请选择文件