核心功能
stealthy-auto-browse 是一款专为高对抗性环境设计的浏览器自动化技能。它采用定制版 Firefox(Camoufox)替代标准的 Chromium+Playwright 方案,从根本上消除了 Chrome DevTools Protocol 暴露的检测特征。通过 PyAutoGUI 实现的 OS 级鼠标/键盘输入模拟,能够完全绕过行为分析检测,在 CreepJS、BrowserScan、Pixelscan 等指纹检测服务中获得"真实人类"评级。
显著优点
检测免疫能力:零 CDP 暴露设计配合真实输入模拟,可稳定通过 Cloudflare、DataDome、PerimeterX、Akamai 等 enterprise 级防护。对比传统 headless 方案,拦截率从近乎 100% 降至接近 0。
持久化身份:支持挂载 /userdata 卷实现指纹、Cookie、登录态的跨重启持久化,配合时区匹配(TZ 环境变量)可构建完整的地理位置一致性伪装。
双模式操作:提供"隐蔽模式"(system_click, system_type 等 OS 级操作)和"快速模式"(标准 Playwright API),用户可按风险等级灵活选择。
完善的会话管理:原生支持多标签页、对话框处理、网络日志捕获、文件上传下载、Storage/Cookie 全生命周期管理。
局限与缺点
性能开销:相比纯 HTTP 请求或标准 Playwright,OS 级输入模拟和完整浏览器渲染带来显著延迟,不适合高频、低延迟要求的简单爬取任务。
部署复杂度:依赖 Docker 容器化运行,需要额外端口映射(8080 API + 5900 VNC),本地资源占用高于轻量级方案。
单点架构:当前设计为单容器实例,未内置横向扩展或负载均衡机制,高并发场景需自行搭建代理池。
维护不确定性:Camoufox 作为 Firefox 定制分支,其更新频率和长期维护承诺不及 Playwright/Chromium 官方生态。
适用人群
- 需要从强反爬站点(如 LinkedIn、Indeed、Zillow 等)稳定获取数据的爬虫工程师
- 需要维持长期登录会话的自动化测试/监控场景
- 对检测绕过有强需求、可接受一定性能损耗的 RPA 开发者
- 标准浏览器技能频繁触发 CAPTCHA 或 403 拦截的现有用户
常规风险
法律合规:本工具的技术能力可能被用于违反网站 ToS 的数据抓取,需用户自行评估法律风险。建议配合合理的请求频率和代理轮换。
指纹一致性:虽然工具本身隐蔽性强,但 IP 地理位置、时区、语言设置的错配仍可能引发检测。建议将 TZ 与代理 IP 位置严格对齐。
依赖安全:容器镜像来自第三方仓库(psyb0t 命名空间),生产环境使用前应进行镜像审计或自行构建。
坐标漂移:多显示器或窗口缩放场景下,system_click 的坐标映射可能偏移,需通过 calibrate 接口定期校准。