使用说明

核心用法

Browser Skill 基于 Stagehand CLI 构建，允许用户用自然语言控制浏览器行为。支持六大核心命令：navigate 打开指定 URL；act 执行点击、输入等自然语言描述的操作；extract 按结构化格式抓取页面数据；observe 发现页面可用元素；screenshot 截图保存；close 关闭会话。

显著优点

1. 零配置双模式：自动检测环境变量，优先使用 Browserbase 远程环境（支持代理、隐身模式、CAPTCHA 处理），无 API 密钥时无缝降级到本地 Chrome
2. 自然语言交互：无需编写 CSS/XPath 选择器，用中文或英文描述意图即可，大幅降低自动化门槛
3. 结构化数据提取：支持 JSON Schema 约束输出，便于下游处理
4. 视觉验证：每步操作后可截图确认，适合调试和审计

潜在局限

环境依赖：本地模式需预装 Chrome，远程模式需有效 API 密钥
动作语义模糊：复杂交互（如拖拽、iframe 内操作）可能因自然语言歧义失败，需配合 observe 调试
无内置重试：网络波动或页面动态加载失败时需手动重试
权限边界：仅能操作公开网页或已登录会话，无法突破同源策略或绕过身份验证

适合人群

产品经理/运营：快速抓取竞品信息、监控页面变化
开发者：自动化 E2E 测试原型、数据爬取脚本
研究人员：批量采集公开网页数据

常规风险

数据隐私：截图和页面内容可能包含敏感信息，需妥善保管
服务滥用：高频爬取可能触发目标站点的反爬机制或法律风险
API 费用：Browserbase 按量计费，长时间会话需注意成本控制
命令注入：act 指令依赖自然语言解析，极端情况下不当输入可能导致非预期操作（建议验证截图后再继续）

安全解读

核心功能

browser 技能通过封装 Stagehand CLI，让用户能够用自然语言指令自动化浏览器操作。主要功能包括：

智能环境选择：自动检测本地 Chrome 或远程 Browserbase 云环境，无需手动配置
自然语言交互：browser act "点击登录按钮" 即可执行复杂 DOM 操作
结构化数据提取：支持 JSON Schema 定义的数据抓取，返回结构化结果
可视化调试：内置截图功能，每步操作后可验证页面状态
元素智能发现：browser observe 自动识别可用交互元素

显著优势

1. 双模式灵活部署：本地模式响应更快适合开发调试；Browserbase 模式具备反检测、代理、CAPTCHA 绕过能力，适合生产级抓取
2. 零代码门槛：纯自然语言指令，无需学习 XPath/CSS Selector
3. 官方生态背书：基于 Browserbase 公司维护的 Stagehand 开源项目（GitHub 2k+ stars），MIT 许可证
4. 安全透明：纯 Markdown 文档型 Skill，无可执行代码，运行时依赖外部可信库

局限性与风险

外部依赖风险：核心功能依赖 @browserbasehq/stagehand，需关注其安全更新
API 密钥管理：使用 Browserbase 模式需妥善管理 BROWSERBASE_API_KEY，存在泄露风险
成本考量：Browserbase 云服务按量计费，高频使用可能产生费用
本地 Chrome 依赖：本地模式需预装 Chrome，容器环境需额外配置
指令歧义：自然语言指令可能存在理解偏差，复杂交互建议配合 observe 命令

适用人群

数据分析师：快速抓取网页数据无需编写爬虫
产品经理：自动化竞品监测与功能验收测试
QA 工程师：端到端测试用例的自然语言编写
开发者：原型验证与快速调试 Web 交互流程
研究人员：学术数据采集与存档

安全建议

敏感操作使用专用浏览器配置文件，避免使用主浏览器数据
定期清理 .chrome-profile/ 临时目录
API 密钥使用 .env 文件管理，禁止提交至版本控制
避免在 browser act 中直接输入真实密码，建议使用环境变量注入

browser-automation web-scraping cli stagehand headless data-extraction screenshot form-automation

Agent Browser - Stagehand 内容

手动下载zip · 9.2 kB

EXAMPLES.mdtext/markdown

请选择文件