使用说明

核心功能与用法

agent-browser 是一款基于 Playwright 引擎的浏览器自动化工具，提供完整的浏览器控制能力。核心工作流遵循"导航 → 快照 → 交互"模式：先通过 open 打开目标页面，使用 snapshot -i 获取带引用标识（如 @e1、@e2）的交互元素列表，再通过引用执行点击、填充、选择等操作。

主要功能模块包括：

1. 页面交互：点击、双击、悬停、拖拽、文件上传、滚动等完整鼠标键盘操作
2. 表单自动化：fill/type/fill 输入、checkbox 勾选、下拉选择、文件上传
3. 信息提取：文本、HTML、属性、样式、元素计数、页面标题/URL 等
4. 截图与录屏：全页/视口截图、PDF 导出、WebM 视频录制（支持断点续录）
5. 等待机制：元素可见、文本出现、URL 匹配、网络空闲、JS 条件等多维度等待
6. 网络控制：请求拦截、响应 Mock、请求记录与过滤
7. 状态管理：Cookie/LocalStorage 读写、登录态保存与恢复、多 Session 并行
8. 语义定位：role/text/label/placeholder/alt/title/testid 等自然语言定位（替代 XPath）
9. 设备模拟：视口设置、设备预设（如 iPhone 14）、地理位置、深色模式

显著优点

引用机制直观：@e1 等引用标识比 XPath/CSS 选择器更稳定，自动处理 DOM 变化后的重新定位
会话隔离完善：--session 支持多浏览器并行，适合并发爬虫和测试矩阵
状态持久化：state save/load 实现登录态复用，避免重复认证
调试工具齐全： headed 模式、CDP 连接、trace 录制、console/errors 查看、元素高亮
语义定位降低门槛：自然语言描述即可定位元素，减少选择器维护成本

潜在局限与风险

| 风险点 | 说明 |

|--------|------|

| 动态内容稳定性 | 现代 SPA（React/Vue）的异步渲染可能导致 snapshot 时元素尚未挂载，需配合 wait 命令 |

| 反爬检测 | 高频自动化易被 Cloudflare/WAF 识别，需配合代理轮换、请求延迟、指纹伪装 |

| 引用失效 | 页面导航或大幅 DOM 变更后，@refs 可能失效，必须重新 snapshot |

| 视频录制限制 | 录制会创建新上下文，虽保留 cookie 但某些 JS 状态可能丢失 |

| HTTPS 证书问题 | 自签名证书需 `--ignore-https-errors`，生产环境慎用 |

适合人群

QA 工程师：端到端测试、回归测试自动化
数据工程师：结构化数据爬取、定时巡检
产品经理/UX：用户流程录屏、竞品功能截图存档
运维/SRE：定时健康检查、证书过期监控

常规风险管控建议

1. 生产环境避免 --headed 和 --ignore-https-errors
2. 敏感操作前使用 snapshot -i 确认目标元素
3. 大规模爬取时启用 --proxy 并控制请求频率
4. 定期 trace start/stop 记录失败现场便于复盘
5. 多 Session 场景注意内存占用，及时 close 释放资源

安全解读

核心功能

agent-browser 是一款面向开发者与测试工程师的浏览器自动化 CLI 工具，通过封装底层浏览器操作引擎（如 Playwright），提供完整的网页交互能力。其核心工作流遵循「导航→快照→交互→验证」模式：先通过 open 命令进入目标页面，使用 snapshot -i 获取带引用标记（@e1/@e2）的交互元素清单，再基于这些引用执行点击、输入、选择等操作，最后通过断言或截图验证结果。

显著优势：

命令语义清晰：采用类自然语言设计（click @e1、fill @e2 "text"），学习成本低
多模式定位：除引用标记外，支持语义定位器（role/text/label/testid）应对动态页面
完整测试闭环：内置等待策略（networkidle/元素出现/文本出现）、断言能力（is visible/enabled）、截图/PDF/视频录制
高级场景覆盖：多标签页/窗口管理、iframe 切换、对话框处理、网络拦截与模拟、地理位置模拟、设备仿真

潜在局限：

来源可信度 T3：维护者为个人开发者（tekkenkk），无企业背书，长期维护存在不确定性
外部工具依赖：实际浏览器操作由底层 agent-browser CLI 执行，Skill 本身仅为文档封装，若底层工具更新或存在漏洞将影响使用
状态文件安全风险：会话状态（含 cookies）以明文 JSON 保存，文档虽提示安全注意事项，但缺乏内置加密机制
无内置输入验证：模板脚本未对 URL、文件路径进行格式校验，存在路径遍历风险（需用户自行保障）

适用人群：

QA 工程师进行端到端自动化测试
开发者调试表单交互、验证前端流程
运维人员定时抓取网页数据、生成监控截图
需要录制操作视频用于文档演示的技术写作者

常规风险：

自动化操作可能触发网站的反爬机制，导致 IP 被封禁
保存的会话状态文件若泄露，可能导致账号被盗用
使用代理配置时，认证信息可能以明文形式出现在命令历史或环境变量中
截图/录屏功能可能意外捕获敏感信息（如个人数据、内部系统界面）

playwright web-scraping e2e-testing browser-control automation form-filling screenshot video-recording session-management

Agent Browser 内容

references文件夹

templates文件夹

手动下载zip · 14.9 kB

authentication.mdtext/markdown

请选择文件