Agent Browser

🌐 AI 原生浏览器自动化,ref 精准操控

开发工具榜 #2

Vercel Labs 官方浏览器自动化 CLI 工具封装,基于无障碍树快照与 ref 引用实现确定性元素选择,专为 AI Agent 工作流优化。

收藏
331.6k
安装
100.8k
版本
0.1.0
CLS 安全性认证2026-04-30
点击查看完整报告 >

使用说明

核心用法

Agent Browser 是 Vercel Labs 专为 AI Agent 设计的 Headless 浏览器自动化 CLI 工具,通过无障碍树快照(accessibility tree snapshot)ref 引用机制实现确定性元素选择,解决传统浏览器自动化中依赖 CSS 选择器易失效的问题。

关键工作流程
1. 使用 agent-browser open <url> 打开目标页面

2. 执行 snapshot -i --json 生成带 ref 标记的交互元素快照

3. AI 解析 JSON 中的 refs 映射(如 @e2 → 按钮元素)

4. 通过 @引用 精准执行 click/fill/type 等操作

5. 页面变化后重新 snapshot 更新 refs

相比内置浏览器工具的优势:多步骤工作流自动化、确定性元素选择、SPA 复杂场景支持、会话隔离;劣势:不支持截图/PDF 分析、无可视化扩展能力。

显著优点

  • 确定性交互:ref 引用基于页面结构生成,不受 CSS 类名变动影响,比传统选择器更稳定
  • AI 原生设计:JSON 结构化输出便于 LLM 解析,无障碍树直接暴露语义信息(role/name)
  • 高性能:Headless 模式 + 精简快照,比完整页面加载更快
  • 会话隔离--session 参数支持多浏览器上下文并行,适合多用户测试场景
  • 状态持久化state save/load 可复用 cookies/storage,跳过重复登录
  • 网络控制:支持路由拦截、请求 mock、广告屏蔽等高级功能

潜在缺点与局限性

  • 外部依赖重:Skill 本身仅为文档包装,核心功能依赖 npm install -g agent-browser,需 Node.js 环境
  • 无视觉能力:无法直接返回截图供 LLM 视觉分析,纯文本快照可能丢失视觉布局信息
  • ref 动态性:页面大幅变动后 refs 会重新生成,多步骤流程需频繁 re-snapshot
  • 学习成本:CLI 命令集较庞大,初次使用需熟悉 snapshot → 解析 → 交互的循环模式
  • 权限风险:执行浏览器自动化需 Bash 工具权限,存在被诱导操作不可信网站的风险

适合人群

  • 需自动化多步骤网页工作流的 AI Agent 开发者
  • 测试复杂 SPA(单页应用)的 QA 工程师
  • 需要并行多会话测试的场景(如权限系统测试)
  • 追求比内置浏览器工具更高稳定性和性能的技术用户
  • 不适合:依赖视觉分析、截图对比、浏览器扩展集成的场景

常规风险

1. 供应链风险:依赖 npm 包 agent-browser,需验证包名避免 typosquatting
2. 操作诱导风险:攻击者可能通过构造恶意网页诱导 Agent 执行敏感操作(自动填表、点击)

3. 凭证泄露风险state save 的 auth.json 包含敏感登录态,需妥善保管

4. 网络拦截局限:虽可 mock API 路由,但无法完全隔离所有外部请求

安全评级说明

S+ 顶级安全等级与 T1 来源可信度。本 Skill 为纯 Markdown 文档,无可执行代码;核心工具由 Vercel Labs(知名公司)官方维护,无数据收集、无动态代码加载、无提示词投毒风险。

Agent Browser 内容

手动下载zip · 2.3 kB
SKILL.mdtext/markdown
请选择文件