使用说明

核心用法

Agent Browser 是 Vercel 推出的基于 Playwright 的浏览器自动化命令行工具，专为需要控制浏览器的任务设计。核心工作流为：使用 open 打开目标页面 → snapshot 获取可访问性树 → 通过 @ref 引用或 CSS 选择器定位元素 → 执行 click/fill/type 等交互操作 → screenshot 或 get 提取信息 → close 关闭浏览器。

显著优点

简洁直观：相比原生 Playwright，命令式 CLI 无需编写脚本，单条指令即可完成操作
灵活定位：支持 ref 引用、CSS 选择器、ARIA 角色、文本内容、label、placeholder 等多种定位方式
信息丰富：snapshot 输出可访问性树，便于理解页面结构；支持截图带标注功能
会话保持：多个命令可在同一浏览器实例中连续执行，适合多步骤自动化

潜在局限

稳定性依赖：页面动态加载、异步渲染可能导致元素定位失败，需手动添加 sleep 等待
ref 动态性：@ref 随页面重载变化，无法硬编码复用，每次需重新 snapshot
无内置重试：网络波动或元素未就绪时缺乏自动重试机制
安全边界：可模拟真实用户操作，若用于高频自动化可能触发网站反爬机制

适合人群

运维人员、开发者、自动化测试工程师，以及需要定期执行签到、数据抓取、表单填写等重复性浏览器任务的用户。

常规风险

账号安全：自动化登录可能因异常行为被平台风控
数据隐私：操作过程中可能接触敏感页面，需确保环境安全
资源占用：未正确 close 会导致浏览器进程残留

安全解读

核心用法

Agent Browser 是 Vercel 推出的浏览器自动化 CLI 工具，基于 Playwright 引擎，封装了常见的浏览器操作流程。核心交互模式为「打开页面 → 获取快照 → 执行操作 → 关闭浏览器」的闭环工作流：

1. 导航控制：open <url> 打开目标页面，支持 back、forward、reload 等标准导航操作
2. 元素定位：优先通过 snapshot 获取页面可访问性树，生成 @eXX 格式的 ref 引用，避免复杂的 CSS 选择器编写；同时支持 CSS 选择器和 ARIA 角色查找（find role、find label 等）
3. 交互操作：click、fill、type、select、check、press 覆盖完整的表单操作场景
4. 信息获取：snapshot 获取结构化页面数据，screenshot 支持带标注截图，get text/html/value 提取具体内容

显著优点

官方背书：Vercel 出品，Playwright 生态成熟，工具链稳定可靠
快速上手：ref 引用机制大幅降低元素定位门槛，无需深入理解 DOM 结构
场景覆盖全：从简单签到、表单填写到定时任务（配合 cron）均可实现
快照驱动：可访问性树快照让自动化脚本更具可读性和可维护性

潜在缺点与局限性

环境依赖：需 Node.js 环境，首次安装 agent-browser 和浏览器驱动耗时较长
ref 易变性：页面结构变化后 snapshot 生成的 ref 可能失效，脚本健壮性依赖页面稳定性
无内置等待机制：需手动 sleep 或等待，异步加载场景处理不够优雅
会话管理：多标签页、Cookie 持久化等高级场景需额外配置

适合人群

需要自动化重复性浏览器操作的个人用户（签到、打卡、数据抓取）
轻量级 E2E 测试需求的开发者
希望快速实现自动化而不想深入学习 Playwright API 的技术用户

常规风险

1. 目标网站风险：CLI 会实际访问并操作目标网页，需确保网站可信，避免钓鱼或恶意脚本
2. 凭证安全：自动化脚本中硬编码密码存在泄露风险，建议使用环境变量或密钥管理服务
3. 频率控制：高频自动化可能触发目标网站的反爬虫机制，导致 IP 封禁或账号限制
4. CLI 供应链安全：确保从 npm 官方源安装，警惕 typosquatting 攻击包

browser-automation playwright cli web-scraping form-filling screenshot vercel

Agent Browser CLI 内容

手动下载zip · 1.9 kB

SKILL.mdtext/markdown

请选择文件