核心用法
browser 技能是一个封装了 Stagehand 框架的命令行工具,允许用户通过自然语言指令自动化浏览器操作。主要功能包括:网页导航 (navigate)、执行动作 (act)、数据提取 (extract)、元素发现 (observe)、截图 (screenshot) 和关闭浏览器 (close)。
使用流程
1. 首次配置:运行 npm install 和 npm link 创建全局命令
2. 环境选择:自动检测环境变量,优先使用 Browserbase 远程环境(需配置 API key),否则回退到本地 Chrome
3. 操作序列:必须先 navigate 到目标 URL,再执行交互指令,建议每一步后查看截图验证
显著优点
- 自然语言交互:无需编写复杂的选择器或脚本,用中文/英文描述即可操作页面元素
- 双模式灵活部署:本地模式速度快适合开发调试;Browserbase 模式支持 stealth、代理和 CAPTCHA 绕过,适合生产爬取
- 结构化数据提取:支持可选 JSON Schema 约束,返回格式化的提取结果
- 观测模式兜底:当动作失败时,可用
observe智能发现可用元素
潜在局限
- 依赖外部服务:Browserbase 需付费且受 API 稳定性影响;本地模式需预装 Chrome
- 动作抽象成本:自然语言描述可能存在歧义,复杂交互仍需精确描述
- 无状态会话:每次
close后会话清空,跨任务需重新导航 - 安全边界模糊:CLI 直接执行系统命令,若用户输入注入恶意指令存在风险
适合人群
- 数据分析师/研究人员:快速抓取网页数据无需写爬虫
- QA 工程师:自动化 UI 回归测试
- 产品经理/运营:竞品监控、页面截图存档
- 开发者:快速验证网页交互原型
常规风险
- 凭据泄露:Browserbase API key 存储于
.env文件,需确保文件权限和版本控制排除 - 恶意网站:访问不可信站点可能触发 XSS 或下载风险,Browserbase 的隔离环境可部分缓解
- 数据隐私:提取的网页数据可能包含 PII,需遵循目标网站 robots.txt 和隐私政策
- 误操作风险:
act指令如描述不清可能点击错误按钮导致非预期状态变更(如误下单、误删数据)