核心用法
browser-use 是一款持久化浏览器自动化工具,采用后台守护进程架构,将单次命令延迟控制在约 50ms。核心工作流遵循「导航 → 检查 → 交互 → 验证」四步:
1. 启动会话:browser-use open <url> 启动无头浏览器,或使用 --headed 可视化调试,或通过 connect 连接用户本地 Chrome 以保留登录状态
2. 获取页面状态:browser-use state 返回当前页面可交互元素及其索引,这是所有操作的前置步骤
3. 执行交互:基于 state 返回的索引进行点击 (click)、输入 (input)、选择 (select)、文件上传 (upload) 等操作
4. 验证结果:screenshot 或再次 state 确认操作效果
工具支持三种运行模式:默认无头 Chromium(零配置)、本地 Chrome 连接(保留 cookies/登录态)、云端浏览器(cloud connect,需 API Key)。此外提供 Cloudflare Tunnel 快速暴露本地服务、--session 多浏览器并行、命令链式执行 (&&) 等进阶功能。
显著优点
- 极速响应:守护进程持久化浏览器实例,单次命令约 50ms,远胜传统启动-关闭模式
- 模式灵活:无头/可视化、本地/云端/隧道三种部署方式覆盖开发调试到生产自动化
- 状态复用:
connect模式直接利用用户 Chrome 配置,跳过重复登录 - 数据提取完备:支持 JavaScript 执行、HTML/文本/属性/坐标提取、Cookie 导入导出
- 多会话隔离:
--session NAME支持并行多浏览器,适合子代理工作流
潜在局限
- 前置依赖:需本地安装 browser-use CLI(
pip install browser-use),非纯内置方案 - 索引依赖页面稳定性:
state返回的元素索引依赖 DOM 结构,动态加载或 SPA 页面可能需多次刷新 - Bash 权限范围:虽限定
browser-use:*,但 Bash 工具本身具备系统级风险敞口 - Cookie 数据敏感:
cookies export等命令可提取敏感会话数据,需人工管控
适合人群
- 自动化测试工程师(Web E2E 测试、表单验证)
- 数据采集团队(需登录态的网站信息抓取)
- 开发调试人员(本地服务快速隧道暴露、可视化调试)
- AI Agent 构建者(低延迟、可链式的浏览器操作接口)
常规风险
- Cloud 浏览器 API Key 泄露风险:建议定期轮换、避免硬编码
- Tunnel 公开暴露:
trycloudflare.com临时域名可被任何人访问,生产环境需配合访问控制 - 本地 Chrome 数据越界:
--profile模式继承用户全部浏览数据,敏感网站操作建议隔离配置 - 命令链失败残留:链式命令中任一失败可能导致状态不一致,建议失败时执行
browser-use close重置