核心用法
Agent Browser Core 是专为 AI 代理设计的命令行浏览器自动化工具,采用 Rust 构建核心引擎并保留 Node.js 降级方案。其核心价值在于确定性自动化——通过快照(snapshot)+ 引用(refs)机制,将网页状态捕获为紧凑的结构化数据,使 LLM 能够基于稳定标识符执行点击、输入、提取等操作。
典型工作流遵循「快照 → 行动 → 再快照」模式:先获取页面快照获得元素引用,通过 --json 输出供脚本解析,执行操作后等待 DOM 稳定再次快照验证。命令体系覆盖导航、交互、提取、会话管理四大类别,支持负载状态检测与显式等待控制。
显著优点
- AI 原生设计:refs 引用系统避免脆弱的 CSS 选择器,DOM 变化后仍可通过语义引用定位元素
- 性能与兼容:Rust 核心保证执行速度,Node.js 备选确保环境适配性
- 结构化输出:原生
--json支持,无缝接入自动化流水线 - 资源管控:显式会话关闭与标签页管理,防止浏览器实例泄漏
潜在局限
- 非 SDK 架构:需通过 CLI 调用,深度 JS 集成或自定义扩展受限
- 媒体处理弱:大文件上传、复杂流媒体场景非其设计目标
- 学习曲线:refs 概念与快照工作流需理解转换,传统 Puppeteer/Playwright 用户需适应期
适合人群
- 构建确定性 AI 代理的开发者(如浏览器使用、数据提取代理)
- 需要可审计、可回放自动化步骤的合规场景
- 追求 CLI 轻量方案,不愿引入重型浏览器控制库的项目
常规风险
- 认证泄露:令牌与凭证需按机密管理,避免硬编码于命令历史
- 网络隔离:需显式配置域名白名单,默认阻断 localhost/私有网络访问
- 高危操作:
eval、--allow-file-access、自定义可执行路径等需人工审批,安全模式默认禁用 - 状态残留:未关闭的会话可能导致浏览器进程累积,需确保资源释放逻辑