核心用法
Agent Browser 是 Vercel Labs 专为 AI Agent 设计的 Headless 浏览器自动化 CLI 工具,通过无障碍树快照(accessibility tree snapshot)与ref 引用机制实现确定性元素选择,解决传统浏览器自动化中依赖 CSS 选择器易失效的问题。
关键工作流程:
1. 使用 agent-browser open <url> 打开目标页面
2. 执行 snapshot -i --json 生成带 ref 标记的交互元素快照
3. AI 解析 JSON 中的 refs 映射(如 @e2 → 按钮元素)
4. 通过 @引用 精准执行 click/fill/type 等操作
5. 页面变化后重新 snapshot 更新 refs
相比内置浏览器工具的优势:多步骤工作流自动化、确定性元素选择、SPA 复杂场景支持、会话隔离;劣势:不支持截图/PDF 分析、无可视化扩展能力。
显著优点
- 确定性交互:ref 引用基于页面结构生成,不受 CSS 类名变动影响,比传统选择器更稳定
- AI 原生设计:JSON 结构化输出便于 LLM 解析,无障碍树直接暴露语义信息(role/name)
- 高性能:Headless 模式 + 精简快照,比完整页面加载更快
- 会话隔离:
--session参数支持多浏览器上下文并行,适合多用户测试场景 - 状态持久化:
state save/load可复用 cookies/storage,跳过重复登录 - 网络控制:支持路由拦截、请求 mock、广告屏蔽等高级功能
潜在缺点与局限性
- 外部依赖重:Skill 本身仅为文档包装,核心功能依赖
npm install -g agent-browser,需 Node.js 环境 - 无视觉能力:无法直接返回截图供 LLM 视觉分析,纯文本快照可能丢失视觉布局信息
- ref 动态性:页面大幅变动后 refs 会重新生成,多步骤流程需频繁 re-snapshot
- 学习成本:CLI 命令集较庞大,初次使用需熟悉 snapshot → 解析 → 交互的循环模式
- 权限风险:执行浏览器自动化需 Bash 工具权限,存在被诱导操作不可信网站的风险
适合人群
- 需自动化多步骤网页工作流的 AI Agent 开发者
- 测试复杂 SPA(单页应用)的 QA 工程师
- 需要并行多会话测试的场景(如权限系统测试)
- 追求比内置浏览器工具更高稳定性和性能的技术用户
- 不适合:依赖视觉分析、截图对比、浏览器扩展集成的场景
常规风险
1. 供应链风险:依赖 npm 包 agent-browser,需验证包名避免 typosquatting
2. 操作诱导风险:攻击者可能通过构造恶意网页诱导 Agent 执行敏感操作(自动填表、点击)
3. 凭证泄露风险:state save 的 auth.json 包含敏感登录态,需妥善保管
4. 网络拦截局限:虽可 mock API 路由,但无法完全隔离所有外部请求
安全评级说明
获 S+ 顶级安全等级与 T1 来源可信度。本 Skill 为纯 Markdown 文档,无可执行代码;核心工具由 Vercel Labs(知名公司)官方维护,无数据收集、无动态代码加载、无提示词投毒风险。