stealthy-auto-browse

🕵️ 零检测特征的高隐蔽浏览器自动化

数据采集与爬虫榜 #1

基于 Camoufox 的高隐蔽浏览器自动化工具,通过零 CDP 暴露和 OS 级输入模拟,绕过 Cloudflare、DataDome 等主流 bot 检测,适合反爬场景下的持久会话管理。

收藏
6.3k
安装
3k
版本
1.2.0
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心功能

stealthy-auto-browse 是一款专为高对抗性环境设计的浏览器自动化技能。它采用定制版 Firefox(Camoufox)替代标准的 Chromium+Playwright 方案,从根本上消除了 Chrome DevTools Protocol 暴露的检测特征。通过 PyAutoGUI 实现的 OS 级鼠标/键盘输入模拟,能够完全绕过行为分析检测,在 CreepJS、BrowserScan、Pixelscan 等指纹检测服务中获得"真实人类"评级。

显著优点

检测免疫能力:零 CDP 暴露设计配合真实输入模拟,可稳定通过 Cloudflare、DataDome、PerimeterX、Akamai 等 enterprise 级防护。对比传统 headless 方案,拦截率从近乎 100% 降至接近 0。

持久化身份:支持挂载 /userdata 卷实现指纹、Cookie、登录态的跨重启持久化,配合时区匹配(TZ 环境变量)可构建完整的地理位置一致性伪装。

双模式操作:提供"隐蔽模式"(system_click, system_type 等 OS 级操作)和"快速模式"(标准 Playwright API),用户可按风险等级灵活选择。

完善的会话管理:原生支持多标签页、对话框处理、网络日志捕获、文件上传下载、Storage/Cookie 全生命周期管理。

局限与缺点

性能开销:相比纯 HTTP 请求或标准 Playwright,OS 级输入模拟和完整浏览器渲染带来显著延迟,不适合高频、低延迟要求的简单爬取任务。

部署复杂度:依赖 Docker 容器化运行,需要额外端口映射(8080 API + 5900 VNC),本地资源占用高于轻量级方案。

单点架构:当前设计为单容器实例,未内置横向扩展或负载均衡机制,高并发场景需自行搭建代理池。

维护不确定性:Camoufox 作为 Firefox 定制分支,其更新频率和长期维护承诺不及 Playwright/Chromium 官方生态。

适用人群

  • 需要从强反爬站点(如 LinkedIn、Indeed、Zillow 等)稳定获取数据的爬虫工程师
  • 需要维持长期登录会话的自动化测试/监控场景
  • 对检测绕过有强需求、可接受一定性能损耗的 RPA 开发者
  • 标准浏览器技能频繁触发 CAPTCHA 或 403 拦截的现有用户

常规风险

法律合规:本工具的技术能力可能被用于违反网站 ToS 的数据抓取,需用户自行评估法律风险。建议配合合理的请求频率和代理轮换。

指纹一致性:虽然工具本身隐蔽性强,但 IP 地理位置、时区、语言设置的错配仍可能引发检测。建议将 TZ 与代理 IP 位置严格对齐。

依赖安全:容器镜像来自第三方仓库(psyb0t 命名空间),生产环境使用前应进行镜像审计或自行构建。

坐标漂移:多显示器或窗口缩放场景下,system_click 的坐标映射可能偏移,需通过 calibrate 接口定期校准。

安全解读

核心用法

stealthy-auto-browse 是一套面向高反爬场景的浏览器自动化解决方案,采用 Camoufox(定制版 Firefox)作为底层引擎,完全规避 Chrome DevTools Protocol(CDP)暴露风险。与标准 Playwright/Chromium 方案不同,该 skill 通过 PyAutoGUI 实现操作系统级别的鼠标移动、点击和键盘输入,从行为特征层面模拟真实用户操作。

核心工作流遵循「导航 → 定位 → 系统级交互」模式:使用 goto 加载页面后,调用 get_interactive_elements 获取可交互元素的坐标信息,再通过 system_clicksystem_type 执行不可检测的输入操作,最后以截图验证执行结果。对于无需高度隐匿的场景,仍保留 clickfill 等标准 Playwright 方法作为备选。

API 设计覆盖完整的浏览器生命周期管理:多标签页切换、Cookie 与会话存储、网络请求日志、文件上传下载、对话框处理、等待条件、JavaScript 执行及截图功能。特别值得关注的是持久化指纹支持——通过挂载 /userdata 卷,可在容器重启后保持登录状态、浏览器配置和指纹特征。

显著优点

反检测能力突出:零 CDP 暴露设计配合真实 OS 级输入,可通过 CreepJS、BrowserScan、Pixelscan 及 Cloudflare 等多层检测。相比传统 headless 方案,行为指纹更接近真实浏览器。

灵活的部署配置:支持自定义分辨率、时区对齐、HTTP 代理及持久化存储,容器化交付便于隔离和扩展。

双模式输入策略:系统级方法(system_clicksystem_type)与标准方法(clickfill)并存,用户可按场景灵活选择隐匿性与效率的平衡点。

潜在局限

性能开销:OS 级输入模拟引入额外延迟,单次操作耗时显著高于原生 Playwright 方法;VNC 桌面环境和 Camoufox 的资源占用也高于轻量级方案。

坐标依赖:系统级点击需精确的屏幕坐标,页面布局变化或响应式设计可能导致定位失效,需配合 get_interactive_elements 动态获取。

维护不确定性:T3 来源(个人开发者 psyb0t)缺乏企业级支持承诺,长期更新频率和社区响应需持续关注。

适用人群

  • 需要采集具有强反爬机制(Cloudflare、DataDome、PerimeterX、Akamai 等)网站数据的技术团队
  • 需维持长期登录会话进行自动化操作的安全研究者和 QA 工程师
  • 标准浏览器自动化方案被 403/CAPTCHA 拦截后的升级替代需求

常规风险

合规边界:功能描述明确指向「绕过 bot 检测」,用户需自行评估目标网站 ToS 及当地数据采集法规的合规性,避免未经授权的抓取行为。

供应链信任:核心功能依赖 Docker Hub 个人镜像 psyb0t/stealthy-auto-browse,建议通过镜像摘要固定或 Dockerfile 自构建验证来源完整性。

误用成本:隐匿特性可能降低被目标站点识别和封禁的概率,但一旦被标记,关联的持久化指纹和 IP 可能面临长期限制。

stealthy-auto-browse 内容

手动下载zip · 4.2 kB
SKILL.mdtext/markdown
请选择文件