核心用法
Browser Skill 基于 Stagehand CLI 构建,允许用户用自然语言控制浏览器行为。支持六大核心命令:navigate 打开指定 URL;act 执行点击、输入等自然语言描述的操作;extract 按结构化格式抓取页面数据;observe 发现页面可用元素;screenshot 截图保存;close 关闭会话。
显著优点
1. 零配置双模式:自动检测环境变量,优先使用 Browserbase 远程环境(支持代理、隐身模式、CAPTCHA 处理),无 API 密钥时无缝降级到本地 Chrome
2. 自然语言交互:无需编写 CSS/XPath 选择器,用中文或英文描述意图即可,大幅降低自动化门槛
3. 结构化数据提取:支持 JSON Schema 约束输出,便于下游处理
4. 视觉验证:每步操作后可截图确认,适合调试和审计
潜在局限
- 环境依赖:本地模式需预装 Chrome,远程模式需有效 API 密钥
- 动作语义模糊:复杂交互(如拖拽、iframe 内操作)可能因自然语言歧义失败,需配合
observe调试 - 无内置重试:网络波动或页面动态加载失败时需手动重试
- 权限边界:仅能操作公开网页或已登录会话,无法突破同源策略或绕过身份验证
适合人群
- 产品经理/运营:快速抓取竞品信息、监控页面变化
- 开发者:自动化 E2E 测试原型、数据爬取脚本
- 研究人员:批量采集公开网页数据
常规风险
- 数据隐私:截图和页面内容可能包含敏感信息,需妥善保管
- 服务滥用:高频爬取可能触发目标站点的反爬机制或法律风险
- API 费用:Browserbase 按量计费,长时间会话需注意成本控制
- 命令注入:
act指令依赖自然语言解析,极端情况下不当输入可能导致非预期操作(建议验证截图后再继续)