核心用法
Agent Browser 是 Vercel 推出的基于 Playwright 的浏览器自动化命令行工具,专为需要控制浏览器的任务设计。核心工作流为:使用 open 打开目标页面 → snapshot 获取可访问性树 → 通过 @ref 引用或 CSS 选择器定位元素 → 执行 click/fill/type 等交互操作 → screenshot 或 get 提取信息 → close 关闭浏览器。
显著优点
- 简洁直观:相比原生 Playwright,命令式 CLI 无需编写脚本,单条指令即可完成操作
- 灵活定位:支持 ref 引用、CSS 选择器、ARIA 角色、文本内容、label、placeholder 等多种定位方式
- 信息丰富:
snapshot输出可访问性树,便于理解页面结构;支持截图带标注功能 - 会话保持:多个命令可在同一浏览器实例中连续执行,适合多步骤自动化
潜在局限
- 稳定性依赖:页面动态加载、异步渲染可能导致元素定位失败,需手动添加
sleep等待 - ref 动态性:
@ref随页面重载变化,无法硬编码复用,每次需重新 snapshot - 无内置重试:网络波动或元素未就绪时缺乏自动重试机制
- 安全边界:可模拟真实用户操作,若用于高频自动化可能触发网站反爬机制
适合人群
运维人员、开发者、自动化测试工程师,以及需要定期执行签到、数据抓取、表单填写等重复性浏览器任务的用户。
常规风险
- 账号安全:自动化登录可能因异常行为被平台风控
- 数据隐私:操作过程中可能接触敏感页面,需确保环境安全
- 资源占用:未正确
close会导致浏览器进程残留