使用说明

核心用法

Agent Browser 是 Vercel Labs 专为 AI Agent 设计的 Headless 浏览器自动化 CLI 工具，通过无障碍树快照（accessibility tree snapshot）与ref 引用机制实现确定性元素选择，解决传统浏览器自动化中依赖 CSS 选择器易失效的问题。

关键工作流程：
1. 使用 agent-browser open <url> 打开目标页面
2. 执行 snapshot -i --json 生成带 ref 标记的交互元素快照
3. AI 解析 JSON 中的 refs 映射（如 @e2 → 按钮元素）
4. 通过 @引用 精准执行 click/fill/type 等操作
5. 页面变化后重新 snapshot 更新 refs

相比内置浏览器工具的优势：多步骤工作流自动化、确定性元素选择、SPA 复杂场景支持、会话隔离；劣势：不支持截图/PDF 分析、无可视化扩展能力。

显著优点

确定性交互：ref 引用基于页面结构生成，不受 CSS 类名变动影响，比传统选择器更稳定
AI 原生设计：JSON 结构化输出便于 LLM 解析，无障碍树直接暴露语义信息（role/name）
高性能：Headless 模式 + 精简快照，比完整页面加载更快
会话隔离：--session 参数支持多浏览器上下文并行，适合多用户测试场景
状态持久化：state save/load 可复用 cookies/storage，跳过重复登录
网络控制：支持路由拦截、请求 mock、广告屏蔽等高级功能

潜在缺点与局限性

外部依赖重：Skill 本身仅为文档包装，核心功能依赖 npm install -g agent-browser，需 Node.js 环境
无视觉能力：无法直接返回截图供 LLM 视觉分析，纯文本快照可能丢失视觉布局信息
ref 动态性：页面大幅变动后 refs 会重新生成，多步骤流程需频繁 re-snapshot
学习成本：CLI 命令集较庞大，初次使用需熟悉 snapshot → 解析 → 交互的循环模式
权限风险：执行浏览器自动化需 Bash 工具权限，存在被诱导操作不可信网站的风险

适合人群

需自动化多步骤网页工作流的 AI Agent 开发者
测试复杂 SPA（单页应用）的 QA 工程师
需要并行多会话测试的场景（如权限系统测试）
追求比内置浏览器工具更高稳定性和性能的技术用户
不适合：依赖视觉分析、截图对比、浏览器扩展集成的场景

常规风险

1. 供应链风险：依赖 npm 包 agent-browser，需验证包名避免 typosquatting
2. 操作诱导风险：攻击者可能通过构造恶意网页诱导 Agent 执行敏感操作（自动填表、点击）
3. 凭证泄露风险：state save 的 auth.json 包含敏感登录态，需妥善保管
4. 网络拦截局限：虽可 mock API 路由，但无法完全隔离所有外部请求

安全评级说明

获 S+ 顶级安全等级与 T1 来源可信度。本 Skill 为纯 Markdown 文档，无可执行代码；核心工具由 Vercel Labs（知名公司）官方维护，无数据收集、无动态代码加载、无提示词投毒风险。

browser-automation cli-tool web-scraping ai-agent headless-browser accessibility-tree vercel-labs testing

Agent Browser 内容

手动下载zip · 2.3 kB

SKILL.mdtext/markdown

请选择文件